エンジニアBLOG

2026/06/19

AIを支える基盤づくり、GPUサーバ構築

自己紹介

こんにちは。中途入社6年目(になろうとしている)のKです。
私は2020年にアルティウスリンクへ中途入社しました。
入社後は、サーバ移行案件のプレセールスや、IaaS環境でのサーバ構築、初めてクラウドを利用する企業向けのクラウドガイドライン策定におけるPMOなどを経験してきました。約2年前にAI・GPUを扱う部署へ異動し、現在は主に2つの業務を担当しています。
一言でいうと【AIを使うためのサーバを整え、使えるようにサポートする仕事】となります。

image

担当業務について

1つ目は、カスタマーサクセス業務です。
ノーコード・ノープロンプトでAIアプリを作成できるSaaSサービスを導入いただいたお客様に対し、約3か月間の活用支援を行っています。具体的には、利用ユーザ数の拡大や、お客様自身で継続的に活用できる状態づくりを支援しています。

2つ目は、GPUサーバのインフラ環境構築です。
分散学習などに利用される高性能なGPUサーバについて、安定して使える環境を整える業務に取り組んでいます。
GPUサーバは一般的なサーバに比べて構成が複雑で、ドライバやミドルウェア、ネットワーク設定の組み合わせによって性能が大きく左右されます。そのため、一つひとつの設定や検証を丁寧に行い、安定した環境を提供することが重要になります。

そのほかにも、同じ現場で働くクラウド・金融・音声ソリューションに関わるメンバーのリーダー業務も担当しており、日々さまざまな業務に携わっています。

今回は、その中でも最近取り組んでいるGPUサーバ構築の業務についてご紹介します。

image

GPUサーバ構築業務

現在、GB200搭載GPUサーバをIaaSとして提供する取り組みに関わっており、お客様に提供したサーバについて、用途に合わせて設定を追加したり調整を行い、スムーズに使える状態にしています。

この業務では、例えばOSの基本設定に加え、GPUドライバや管理サービスの確認、安定した性能を出すためのOSチューニング、ネットワークやストレージの設定など、幅広い作業を行っています。
内容によっては、NVIDIA Base Command Manager(BCM)を使ってノード管理や構成適用を行うこともあれば、OS上で直接設定することもあります。
GPUサーバでは、単にGPUが認識されているだけでは十分ではありません。
nvidia-smiによる状態確認に加え、構成に応じてFabric ManagerやDCGMの稼働状況、ECCエラーの有無などを確認し、安定運用に必要な状態を一つひとつチェックしています。
また、OS側でもCPU性能プロファイルの適用や、必要に応じたTHP・sysctlの調整、MTUやNIC設定の確認などを行い、性能のばらつきが出にくい構成を標準化しています。
さらに、利用者のジョブ実行時にCPU、GPU、メモリ、ストレージI/O、ネットワークが安定して使えるように設定を整えることで、リソース同士の干渉を抑え、より安定した実行環境を提供できるよう努めています。

最後に

簡単ではありますが、今回は私の業務の一部をご紹介しました。
一見すると業務の幅が広いように感じられるかもしれませんが、出社とテレワークをうまく使い分けながら、業務時間も調整し、無理なく働けるよう工夫しています。
今後もさまざまなことにチャレンジしながら、引き続き業務に取り組んでいきたいと思います。
最後までご覧いただき、ありがとうございました。

image

Gemini Enterpriseで提供される画像生成モデル「Nano Banana 2」を用いて作成したイメージ図