このドキュメントでは、AI Hypercomputer で AI ワークロードのクラスタを作成する方法の概要について説明します。具体的には、このドキュメントでは、クラスタの起動時に行うプロセスと選択について説明します。
始める前に
サポートする既存のワークロードが必要です。
モデルのトレーニングや推論など、AI と ML のワークロードで一般的に使用される用語を理解している必要があります。
クラスタを起動する
クラスタの起動には次の手順が含まれます。
- ワークロードを特定してマシンタイプを選択する
- 使用オプションを選択して容量を取得する
- デプロイ オプションを選択する
- オーケストレーターを選択する
- オペレーティング システムとクラスタ イメージを選択する
- クラスタを作成する
ワークロードを特定してマシンタイプを選択する
AI ワークロードのマシンタイプを選択します。AI Hypercomputer は、A4X Max、A4X、A4、A3 の各マシンシリーズを使用したクラスタの作成をサポートしています。マシンの使用に関する次の推奨事項を検討してください。
基盤モデルのトレーニングと推論の場合: A4X Max または A4X
大規模なモデルのトレーニング、ファインチューニング、推論の場合: A4 または A3 Ultra
メインストリーム モデルの推論とファインチューニングの場合: A3 Mega または A3 High(8 個の GPU)
推論のサービングの場合: A3 Edge
各マシンシリーズの詳細については、GPU マシンタイプをご覧ください。各マシンのワークロードの推奨事項の詳細については、推奨構成をご覧ください。
使用オプションを選択して容量を取得する
ワークロードの可用性と選択したマシンタイプに基づいて、GPU リソースの消費オプションを選択します。たとえば、A4X Max または A4X マシンタイプを使用するには、将来の予約の消費モデルを使用して特定の日時の容量を予約する必要があります。次のオプションは、使用量モデルの概要を示しています。
将来の予約: A4X Max、A4X、A4、A3 Ultra マシンタイプで使用できます。リソースの密度が高い割り当てで、vCPU と GPU の割引率は最大 53% です。将来の予約は、基盤モデルの事前トレーニングやマルチホスト基盤モデルの推論など、長期間にわたって安定性を必要とするワークロードに最適です。この使用量オプションを使用するには、将来の開始日時についてアカウント チームを通じて容量をリクエストする必要があります。
カレンダー モードの将来の予約: A4、A3 Ultra、A3 Mega、A3 High(8 GPU VM のみ)マシンタイプで使用できます。高密度リソース割り当てで、vCPU と GPU の割引率は最大 53% です。カレンダー モードの将来の予約を使用すると、最大 90 日間実行され、安定性を必要とするワークロード(モデルの事前トレーニングやファインチューニングなど)のリソースを予約できます。ただし、この使用量オプションを使用するには、将来の日時にリソースを予約する予約リクエストを作成し、 Google Cloud がリクエストを承認する必要があります。
Flex Start: A4X Max と A4X を除くすべての GPU マシンタイプで使用できます。Flex Start を使用すると、最大 7 日間持続する高密度クラスタを作成できます。A2 マシンタイプ以降の vCPU と GPU の割引率は最大 53% です。Flex Start クラスタは、Compute Engine、Cluster Director、Cluster Toolkit、GKE を介して直接作成できます。ただし、クラスタはすぐに使用できるわけではありません。Google は、リソースが使用可能になるとすぐにクラスタを作成します。
Spot: A4X Max と A4X を除くすべての GPU マシンタイプで使用できます。Spot VM を使用すると、可用性に基づいてコンピューティング リソースをすぐに作成できますが、Compute Engine はいつでも仮想マシン(VM)インスタンスをプリエンプトできます。Spot VM の料金は、Compute Engine で可能な最大の割引率(61 ~ 90%)で設定されます。
消費オプションの詳細については、消費オプションの比較をご覧ください。
デプロイ オプションを選択する
クラスタのデプロイに必要な制御レベルに応じて、インフラストラクチャをより細かく制御できる高度に管理されたデプロイか、管理作業の少ないデプロイのどちらかを選択します。
高度な管理
Google にインフラストラクチャのデプロイと設定を依頼する場合は、Cluster Director、Cluster Toolkit、または GKE を使用します。
Cluster Director: クラスタの複雑な設定と構成を自動化するGoogle Cloud プロダクト。クラスタのコンピューティング、ネットワーキング、ストレージ リソースを構成して、パフォーマンスを最大化し、ダウンタイムを最小限に抑えることができます。Cluster Director は、クラスタの管理オーバーヘッドを回避し、ワークロードの実行に集中したい IT 管理者と AI 研究者を対象としています。
Cluster Toolkit: Google が提供するオープンソース ツール。GKE または Compute Engine のクラスタ構成とデプロイを簡素化します。事前定義されたブループリントを使用して、Slurm を使用する A4 マシンタイプなどの一般的な構成をデプロイします。ブループリントを変更して、デプロイとソフトウェア スタックをカスタマイズできます。
GKE: マネージド Kubernetes サービスとオープンソース コンテナ オーケストレーション プラットフォーム。GKE には、自動スケーリングや高可用性などの機能があります。また、コンテナ化されたアプリケーションのオーケストレーション、専用ハードウェアのサポート、 Google Cloudエコシステムとの互換性も備えているため、AI ワークロードや ML ワークロードのデプロイと管理に適しています。GKE クラスタは、GKE を直接使用するか、Cluster Toolkit を使用してデプロイできます。GKE Standard モードまたは Autopilot モードを選択できます。
管理が少なく、より細かい制御
クラスタとクラスタにインストールされているソフトウェアをより詳細に制御するには、マネージド Compute Engine インスタンス グループ(MIG)を使用するか、インスタンスを一括作成して Compute Engine クラスタを作成します。次に、必要な主要なソフトウェアをインスタンスに手動でインストールします。
オーケストレーターを選択する
オーケストレーターは、クラスタの管理を自動化します。オーケストレーターを使用すると、クラスタ内の各コンピューティング インスタンスを管理する必要がなくなります。Slurm や GKE などのオーケストレーターは、ジョブのキューイング、リソース割り当て、自動スケーリング(GKE の場合)、その他の日常的なクラスタ管理タスクなどを処理します。
Slurm: Slurm は、HPC、AI、ML ワークロードで一般的に使用されるオープンソースのオーケストレーターです。Slurm を使用するには、Cluster Toolkit(クラスタに Slurm を自動的にインストールするクラスタ ブループリントを提供)を使用するか、Compute Engine クラスタに Slurm を手動でインストールします。
GKE: GKE は、オープンソースのコンテナ オーケストレーション プラットフォームである Kubernetes をベースに構築されたマネージド サービスです。GKE は、コンテナ化されたアプリケーションのオーケストレーション、専用ハードウェアのサポート、 Google Cloudエコシステムでの位置付けにより、AI ワークロードや ML ワークロードのデプロイと管理に最適です。GKE クラスタは、GKE を直接使用するか、Cluster Toolkit を使用してデプロイできます。
独自のオーケストレータを使用する: 他のオーケストレータを使用する場合は、Compute Engine クラスタで使用する必要があります。ただし、Compute Engine クラスタの作成は、Google Cloudで提供されるオプションの中で最も管理が少ないオプションです。この選択は、インスタンスの設定、メンテナンス、更新を行う責任を負うことを意味します。
オペレーティング システム イメージを選択する
GKE を使用するか Compute Engine を使用するかに応じて、選択したオペレーティング システムを含むイメージ(GKE クラスタ用の Container-Optimized OS など)または Compute Engine クラスタ用のアクセラレータ OS イメージを選択します。また、コンテナの Deep Learning Software Layer(DSLS)イメージを選択することもできます。
詳細については、AI Hypercomputer イメージをご覧ください。
GKE クラスタのイメージ
GKE クラスタを作成するには、Standard モードと Autopilot モードの両方でデフォルトのコンテナ OS イメージを使用することをおすすめします。ただし、Standard モードでは、Ubuntu などの他の利用可能なイメージを使用することもできます。
Cluster Toolkit を使用してクラスタをデプロイする場合、コンテナ OS イメージのみを使用できます。これは、クラスタ ブループリントに組み込まれているイメージであるためです。各ノードイメージの詳細については、GKE ドキュメントのノードイメージをご覧ください。
GKE には、NVIDIA CUDA や NCCL などのパッケージと、PyTorch などの ML フレームワークをインストールする Deep Learning Software Layer(DLSL)コンテナ イメージも用意されています。これにより、ディープ ラーニング ワークロードですぐに使用できる環境が提供されます。これらの事前構築済みの DLSL コンテナ イメージは、GKE クラスタでシームレスに動作することがテストされ、検証されています。
Compute Engine クラスタの OS イメージ
AI Hypercomputer は、Compute Engine を使用して AI と ML のワークロードを実行するように最適化されたイメージを提供します。最もよく使用する OS を選択してください。
- Rocky Linux 9 アクセラレータ
- Rocky Linux 8 アクセラレータ
- Ubuntu 24.04 LTS アクセラレータ
- Ubuntu 22.04 LTS アクセラレータ
Cluster Toolkit を使用する場合、Cluster Toolkit は Ubuntu LTS アクセラレータ OS イメージを拡張するカスタム イメージを作成するため、これらのアクセラレータ イメージは Cluster Toolkit ブループリントにすでにバンドルされています。
各 OS イメージの詳細については、Compute Engine ドキュメントのオペレーティング システムの詳細をご覧ください。
クラスタを作成する
クラスタ作成プロセスを確認し、ワークロードの予備的な決定を行ったら、次のいずれかのオプションを使用してクラスタを作成します。
- GKE クラスタを作成します。
- Cluster Toolkit を使用して Slurm クラスタを作成する
- Compute Engine でクラスタを作成する: