Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

クラスタ作成の概要

このドキュメントでは、AI Hypercomputer で AI ワークロード用のクラスタを作成する方法について説明します。具体的には、クラスタの起動時に行うプロセスと選択について説明します。

始める前に

サポートする既存のワークロードが必要です。
モデルのトレーニングや推論など、AI ワークロードと ML ワークロードで一般的に使用される用語を理解している必要があります。

クラスタを起動する

クラスタを起動する手順は次のとおりです。

ワークロードを決定してマシンタイプを選択する
使用オプションを選択して容量を取得する
デプロイオプションを選択する
オーケストレーターを選択する
オペレーティングシステムとクラスタイメージを選択する
クラスタを作成する
ワークロードのストレージをプロビジョニングする

ワークロードを決定してマシンタイプを選択する

AI ワークロードのマシンタイプを選択します。AI Hypercomputer は、A4X Max、A4X、A4、A3 マシンシリーズを使用したクラスタ作成をサポートしています。マシンの使用に関する次の推奨事項を考慮してください。

基盤モデルのトレーニングと推論の場合: A4X Max または A4X

**注意:** Compute Engine サービスレベル契約（SLA）は、A4X Max マシンシリーズと A4X マシンシリーズには適用されません。
大規模モデルのトレーニング、ファインチューニング、推論の場合: A4 または A3 Ultra
メインストリームモデルの推論とファインチューニングの場合: A3 Mega または A3 High（8 個の GPU）
推論の提供の場合: A3 Edge

各マシンシリーズの詳細については、GPU マシンタイプをご覧ください。各マシンのワークロードに関する推奨事項の詳細については、推奨構成をご覧ください。

使用オプションを選択して容量を取得する

GPU リソースの使用オプションは、ワークロードの可用性と選択したマシンタイプに応じて選択してください。たとえば、A4X Max マシンタイプまたは A4X マシンタイプを使用するには、将来の予約の消費モデルを使用して特定の日時の容量を予約する必要があります。次のオプションは、消費モデルの概要を示しています。

将来の予約: A4X Max、A4X、A4、A3 Ultra マシンタイプで使用できます。リソースの割り当て密度が高く、vCPU と GPU の割引率は最大 53% です。将来の予約は、基盤モデルの事前トレーニングやマルチホスト基盤モデルの推論など、長期間にわたって安定性を必要とするワークロードに最適です。この使用オプションを使用するには、将来の開始日時についてお客様のアカウント担当の Google チームを通じて容量をリクエストする必要があります。
カレンダーモードでの将来の予約: A4、A3 Ultra、 A3 Mega、A3 High（8-GPU VM のみ）マシンタイプで使用できます。リソースの割り当て密度が高く、vCPU と GPU の割引率は最大 53% です。カレンダーモードでの将来の予約は、最大 90 日間実行され、安定性を必要とするワークロード（モデルの事前トレーニングやファインチューニングなど）のリソースを予約するのに役立ちます。ただし、この使用オプションを使用するには、将来の日時にリソースを予約する予約リクエストを作成し、 Google Cloud がリクエストを承認する必要があります。
Flex Start: A4X Max と A4X を除くすべての GPU マシンタイプで使用できます。 Flex Start を使用すると、有効期間が最大 7 日間の高密度クラスタを作成できます。A2 以降のマシンタイプの場合、vCPU と GPU の割引率は最大 53% です。Flex Start クラスタは、Compute Engine、Cluster Director、Cluster Toolkit、GKE から直接作成できます。ただし、クラスタはすぐに使用できるわけではありません。リソースが使用可能になるとすぐに Google が作成します。
Spot: A4X Max と A4X を除くすべての GPU マシンタイプで使用できます。 Spot VM を使用すると、可用性に基づいてコンピューティングリソースをすぐに作成できますが、Compute Engine はいつでも仮想マシン（VM）インスタンスをプリエンプトできます。Spot VM の料金は、Compute Engine で可能な最大の割引率（61% ～ 90%）で設定されます。

使用オプションの詳細については、使用オプションの比較をご覧ください。

デプロイオプションを選択する

クラスタのデプロイに必要な制御レベルに応じて、インフラストラクチャをより細かく制御できる高度に管理されたデプロイか、管理作業の少ないデプロイのどちらかを選択します。

高度な管理

Google にインフラストラクチャのデプロイと設定を依頼する場合は、Cluster Director、Cluster Toolkit、GKE を使用します。

**Cluster Director**: クラスタの複雑な設定と構成を自動化する Google Cloud プロダクトです。クラスタのコンピューティング、ネットワーキング、ストレージリソースを構成して、パフォーマンスを最大化し、ダウンタイムを最小限に抑えることができます。Cluster Director は、クラスタの管理オーバーヘッドを回避し、ワークロードの実行に集中したい IT 管理者と AI 研究者向けに設計されています。
Cluster Toolkit: Google が提供するオープンソースツール。GKE または Compute Engine のクラスタ構成とデプロイを簡素化します。事前定義されたブループリントを使用して、Slurm を使用する A4 マシンタイプなどの一般的な構成をデプロイします。ブループリントを変更して、デプロイとソフトウェアスタックをカスタマイズできます。
GKE: マネージド Kubernetes サービスとオープンソースコンテナオーケストレーションプラットフォーム。GKE には、自動スケーリングや高可用性などの機能があります。また、コンテナ化されたアプリケーションのオーケストレーション、専用ハードウェアのサポート、エコシステムとの Google Cloud 互換性も備えているため、AI ワークロードや ML ワークロードのデプロイと管理に適しています。GKE クラスタは、GKE を直接使用するか、Cluster Toolkit を使用してデプロイできます。GKE Standard モードと Autopilot モードのどちらかを選択できます。

管理が少なく、より細かい制御

クラスタとクラスタにインストールされているソフトウェアをより詳細に制御するには、マネージド Compute Engine インスタンスグループ（MIG）を使用して Compute Engine クラスタを作成するか、インスタンスを一括作成します。次に、必要な主要なソフトウェアをインスタンスに手動でインストールします。

オーケストレーターを選択する

オーケストレーターは、クラスタの管理を自動化します。オーケストレーターを使用すると、クラスタ内の各コンピューティングインスタンスを管理する必要がなくなります。Slurm や GKE などのオーケストレーターは、ジョブのキューイング、リソース割り当て、自動スケーリング（GKE の場合）、その他の日常的なクラスタ管理タスクなどを処理します。

Slurm: Slurm は、HPC、AI、 ML ワークロードで一般的に使用されるオープンソースのオーケストレーターです。Slurm を使用するには、Cluster Toolkit（クラスタに Slurm を自動的にインストールするクラスタブループリントを提供）を使用するか、Compute Engine クラスタに Slurm を手動でインストールします。
GKE: GKE は、オープンソースのコンテナオーケストレーションプラットフォームである Kubernetes をベースに構築されたマネージドサービスです。GKE は、コンテナ化されたアプリケーションのオーケストレーション、専用ハードウェアのサポート、エコシステムでの位置付けにより、AI ワークロードや ML ワークロードのデプロイと管理に最適です。 Google CloudGKE クラスタは、GKE を直接使用するか、Cluster Toolkit を使用してデプロイできます。
独自のオーケストレーターを使用する: 他のオーケストレーターを使用する場合は、 Compute Engine クラスタで使用する必要があります。ただし、Compute Engine クラスタの作成は、で提供されるオプションの中で最も管理が少ないオプションです。 Google Cloudこの選択は、インスタンスの設定、メンテナンス、更新を行う責任を負うことを意味します。

オペレーティングシステムイメージを選択する

GKE と Compute Engine のどちらを使用するかに応じて、選択したオペレーティングシステムを含むイメージ（GKE クラスタ用の Container-Optimized OS、Compute Engine クラスタ用のアクセラレータ OS イメージなど）を選択します。また、コンテナの Deep Learning Software Layer（DSLS）イメージを選択することもできます。

詳細については、AI Hypercomputer イメージをご覧ください。

GKE クラスタのイメージ

GKE クラスタを作成するには、Standard モードと Autopilot モードの両方でデフォルトのコンテナ OS イメージを使用することをおすすめします。ただし、標準モードでは、Ubuntu などの他の使用可能なイメージを使用することもできます。

Cluster Toolkit を使用してクラスタをデプロイする場合、コンテナ OS イメージのみを使用できます。これは、クラスタブループリントに組み込まれているイメージであるためです。各ノードイメージの詳細については、GKE ドキュメントのノードイメージをご覧ください。

GKE では、NVIDIA CUDA や NCCL などのパッケージや、PyTorch などの ML フレームワークをインストールする Deep Learning Software Layer（DLSL）コンテナイメージも提供しています。これにより、ディープラーニングワークロードですぐに使用できる環境が提供されます。これらの事前構築済みの DLSL コンテナイメージは、GKE クラスタでシームレスに動作することがテストされ、検証されています。

Compute Engine クラスタの OS イメージ

AI Hypercomputer には、Compute Engine を使用して AI ワークロードと ML ワークロードを実行するように最適化されたイメージが用意されています。最も使い慣れた OS を選択してください。

Rocky Linux 9 アクセラレータ
Rocky Linux 8 アクセラレータ
Ubuntu 24.04 LTS アクセラレータ
Ubuntu 22.04 LTS アクセラレータ

Cluster Toolkit を使用する場合、これらのアクセラレータイメージはすでに Cluster Toolkit ブループリントにバンドルされています。これは、Cluster Toolkit が Ubuntu LTS アクセラレータの OS イメージを拡張するカスタムイメージを作成するためです。

各 OS イメージの詳細については、Compute Engine ドキュメントのオペレーティングシステムの詳細をご覧ください。

クラスタを作成する

クラスタ作成プロセスを確認し、ワークロードの予備的な決定を行ったら、次のいずれかのオプションを使用してクラスタを作成します。

GKE クラスタを作成します。
- Cluster Toolkit を使用して GKE クラスタを作成する
- カスタム GKE クラスタを作成する
Slurm クラスタを作成します。
- Cluster Director を使用してフルマネージドクラスタを作成する
- Cluster Toolkit を使用して自己管理クラスタを作成する
Compute Engine でクラスタを作成する:

ワークロードのストレージをプロビジョニングする

パフォーマンス、費用、ストレージアーキテクチャの要件に基づいて、プロビジョニングするストレージサービスを選択します。