AI によって最適化された Slurm クラスタを作成する

このドキュメントでは、A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High マシンタイプを使用する Slurm クラスタを構成してデプロイする手順について説明します。これらのアクセラレータ最適化マシンタイプの詳細については、GPU マシンタイプをご覧ください。

Google Cloudで AI によって最適化された Slurm クラスタを作成するその他の方法については、以下をご覧ください。

クラスタのセットアップと管理を簡素化するマネージド Slurm 環境を使用するには、Cluster Director をご覧ください。
Slurm に 2 つの A4 仮想マシン（VM）インスタンスをデプロイするには、AI によって最適化された Slurm クラスタを作成するクイックスタートをご覧ください。

制限事項

Slurm クラスタ内の VM で使用されるマシンシリーズに応じて、次の制限が適用されます。

A4X Max

このマシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
インスタンスは、特定のリージョンとゾーンでのみ作成できます。
Persistent Disk（リージョンまたはゾーン）は使用できません。Google Cloud Hyperdisk のみを使用できます。
このマシンタイプは、NVIDIA Grace プラットフォームでのみ使用できます。
A4X Max ではマシンタイプの変更はサポートされていません。このマシンタイプに切り替えるか、このマシンタイプから切り替えるには、新しいインスタンスを作成する必要があります。
このマシンタイプでは Windows オペレーティングシステムを実行できません。サポートされている Linux オペレーティングシステムの一覧については、GPU インスタンスでサポートされているオペレーティングシステムをご覧ください。
A4X Max インスタンスは、以下をサポートしていません。
2026 年 2 月 4 日より前に作成された Hyperdisk ML ディスクを A4X Max マシンタイプにアタッチすることはできません。

A4X

このマシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
インスタンスは、特定のリージョンとゾーンでのみ作成できます。
Persistent Disk（リージョンまたはゾーン）は使用できません。Google Cloud Hyperdisk のみを使用できます。
このマシンタイプは、NVIDIA Grace プラットフォームでのみ使用できます。
A4X では、マシンタイプの変更はサポートされていません。このマシンタイプに切り替えるか、このマシンタイプから切り替えるには、新しいインスタンスを作成する必要があります。
このマシンタイプでは Windows オペレーティングシステムを実行できません。サポートされている Linux オペレーティングシステムの一覧については、GPU インスタンスでサポートされているオペレーティングシステムをご覧ください。
A4X インスタンスで ethtool -S を使用して GPU ネットワーキングをモニタリングすると、_phy で終わる物理ポートカウンタが更新されません。これは、MRDMA 仮想関数（VF）アーキテクチャを使用するインスタンスの想定される動作です。詳細については、MRDMA 関数とネットワークモニタリングツールをご覧ください。
A4X インスタンスは、以下をサポートしていません。
2026 年 2 月 4 日より前に作成された Hyperdisk ML ディスクを A4X マシンタイプにアタッチすることはできません。

A4

A4 マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
A4 マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
Persistent Disk（リージョンまたはゾーン）は使用できません。Google Cloud Hyperdisk のみを使用できます。
A4 マシンタイプは、Emerald Rapids CPU プラットフォームでのみ使用できます。
インスタンスのマシンタイプを A4 マシンタイプに変更することはできません。このマシンタイプで新しいインスタンスを作成する必要があります。
A4 マシンタイプは、単一テナンシーをサポートしません。
A4 マシンタイプでは Windows オペレーティングシステムを実行できません。
A4 インスタンスで ethtool -S を使用して GPU ネットワーキングをモニタリングすると、_phy で終わる物理ポートカウンタが更新されません。これは、MRDMA 仮想関数（VF）アーキテクチャを使用するインスタンスの想定される動作です。詳細については、MRDMA 関数とネットワークモニタリングツールをご覧ください。
2026 年 2 月 4 日より前に作成された Hyperdisk ML ディスクを A4 マシンタイプにアタッチすることはできません。

A3 Ultra

A3 Ultra マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
A3 Ultra マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
Persistent Disk（リージョンまたはゾーン）は使用できません。Google Cloud Hyperdisk のみを使用できます。
A3 Ultra マシンタイプは、Emerald Rapids CPU プラットフォームでのみ使用できます。
A3 Ultra マシンタイプでは、マシンタイプの変更はサポートされていません。このマシンタイプに切り替えるか、このマシンタイプから切り替えるには、新しいインスタンスを作成する必要があります。
A3 Ultra マシンタイプでは Windows オペレーティングシステムを実行できません。
A3 Ultra マシンタイプは、単一テナンシーをサポートしません。
A3 Ultra インスタンスで ethtool -S を使用して GPU ネットワーキングをモニタリングすると、_phy で終わる物理ポートカウンタが更新されません。これは、MRDMA 仮想関数（VF）アーキテクチャを使用するインスタンスの想定される動作です。詳細については、MRDMA 関数とネットワークモニタリングツールをご覧ください。

A3 Mega

A3 Mega マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
A3 Mega マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
A3 Mega マシンタイプを使用するインスタンスでは、リージョン Persistent Disk を使用できません。
A3 Mega マシンタイプは、Sapphire Rapids CPU プラットフォームでのみ使用できます。
A3 Mega マシンタイプでは、マシンタイプの変更はサポートされていません。このマシンタイプに切り替えるか、このマシンタイプから切り替えるには、新しいインスタンスを作成する必要があります。
A3 Mega マシンタイプでは Windows オペレーティングシステムを実行できません。

A3 High

A3 High マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
A3 High マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
A3 High マシンタイプを使用するインスタンスでは、リージョン Persistent Disk を使用できません。
A3 High マシンタイプは、Sapphire Rapids CPU プラットフォームでのみ使用できます。
A3 High マシンタイプでは、マシンタイプの変更はサポートされていません。このマシンタイプに切り替えるか、このマシンタイプから切り替えるには、新しいインスタンスを作成する必要があります。
A3 High マシンタイプでは Windows オペレーティングシステムを実行できません。
a3-highgpu-1g、a3-highgpu-2g、a3-highgpu-4g のマシンタイプでは、Spot VM または Flex Start VM を使用してインスタンスを作成する必要があります。これらのオプションの詳細な手順については、以下をご覧ください。
- Spot VM を作成するには、アクセラレータ最適化 VM を作成するときにプロビジョニングモデルを SPOT に設定します。
- Flex Start VM を作成するには、次のいずれかの方法を使用します。
  - スタンドアロン VM を作成し、アクセラレータ最適化 VM を作成するときにプロビジョニングモデルを FLEX_START に設定します。
  - マネージドインスタンスグループ（MIG）でサイズ変更リクエストを作成します。手順については、GPU VM を使用して MIG を作成するをご覧ください。
a3-highgpu-1g マシンタイプを使用する Confidential VM は、限られたリージョンとゾーンでのみ使用できます。また、A3 High マシンタイプで実行される Confidential VM のすべての制限が適用されます。

始める前に

Slurm クラスタを作成する前に、次の手順を完了します（まだ完了していない場合）。

使用オプションを選択する: 選択した使用オプションによって、GPU リソースの取得方法と使用方法が決まります。
詳細については、使用オプションを選択するをご覧ください。
容量を取得する: 容量を取得するプロセスは、使用オプションごとに異なります。
選択した使用オプションの容量を取得するプロセスについては、容量の概要をご覧ください。
十分な Filestore 容量割り当てがあることを確認する: デプロイする前に、ターゲットリージョンに十分な Filestore 割り当てが必要です。必要な最小容量は、クラスタ内のマシンタイプによって異なります。
- A4、A4X、A3 Ultra、A3 Mega: 最小 10 TiB（10,240 GiB）の HIGH_SCALE_SSD（ゾーン）容量が必要です。
- A3 High: 最小 2.5 TiB（2,560 GiB）の BASIC_SSD（標準）容量が必要です。
割り当てを確認するか、割り当ての増加をリクエストするには、以下をご覧ください。
- 割り当てを確認するには、API 固有の割り当てを表示するをご覧ください。
- 割り当てが不足している場合は、割り当ての増加をリクエストします。
Cluster Toolkit をインストールする: Slurm クラスタをプロビジョニングするには、Cluster Toolkit バージョン v1.62.0 以降を使用する必要があります。
Cluster Toolkit をインストールするには、Cluster Toolkit を設定するをご覧ください。

Google Cloud コンソールで Cloud Shell をアクティブにします。

Cloud Shell をアクティブにする

Google Cloud コンソールの下部にある Cloud Shell セッションが開始し、コマンドラインプロンプトが表示されます。Cloud Shell はシェル環境です。Google Cloud CLI がすでにインストールされており、現在のプロジェクトの値もすでに設定されています。セッションが初期化されるまで数秒かかることがあります。

必要なロール

このチュートリアルを完了するには、Compute Engine のデフォルトサービスアカウントとユーザーアカウントに IAM ロールが付与されている必要があります。

Compute Engine のデフォルトサービスアカウントに必要なロールを取得する

Slurm クラスタのデプロイに必要な権限を取得するには、次の IAM ロールを付与するよう管理者に依頼してください。

プロジェクトに対する Storage オブジェクト閲覧者（roles/storage.objectViewer）
プロジェクトに対する Compute インスタンス管理者（v1）（roles/compute.instanceAdmin.v1）
サービスアカウント自体に対するサービスアカウントユーザー（roles/iam.serviceAccountUser）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

ユーザーアカウントに必要なロールを取得する

Cloud Storage バケットを作成するために必要な権限を取得するには、プロジェクトに対するストレージ管理者（roles/storage.admin）IAM ロールを付与するよう管理者に依頼してください。

ストレージバケットを設定する

クラスタブループリントは、Terraform モジュールを使用してクラウドインフラストラクチャをプロビジョニングします。Terraform を使用する際のおすすめの方法は、バージョン対応のファイルに状態をリモートで保存することです。 Google Cloudでは、バージョニングが有効になっている Cloud Storage バケットを作成できます。

このバケットを作成して CLI からバージョニングを有効にするには、次のコマンドを実行します。

gcloud storage buckets create gs://BUCKET_NAME \
    --project=PROJECT_ID \
    --default-storage-class=STANDARD --location=BUCKET_REGION \
    --uniform-bucket-level-access
gcloud storage buckets update gs://BUCKET_NAME --versioning

次のように置き換えます。

BUCKET_NAME: バケットの命名要件を満たす Cloud Storage バケットの名前。
PROJECT_ID: プロジェクト ID。
BUCKET_REGION: 任意の使用可能なロケーション。

Cluster Toolkit をインストールする

Google Cloudで Slurm を使用するには、Cluster Toolkit をインストールする必要があります。Linux と macOS の場合は、ビルド済みバンドルをインストールすることをおすすめします。

Cluster Toolkit をインストールしたら、gcluster バイナリを含むディレクトリに移動します。

ビルド済みバンドルをインストールした場合は、gcluster-bundle ディレクトリに移動します。
```
cd gcluster-bundle
```
ソースからバイナリをビルドした場合は、cluster-toolkit に移動します。
```
cd cluster-toolkit
```
このクラスタのデプロイには、Cluster Toolkit v1.62.0 以降が必要です。現在インストールされているバージョンを確認します。
```
./gcluster --version
```

デプロイファイルを作成する

デプロイファイルを作成します。このファイルを使用して、Cloud Storage バケットを指定し、ネットワークとサブネットワークの名前を設定します。また、プロジェクト ID、リージョン、ゾーンなどのデプロイ変数を設定します。

デプロイファイルを作成するには、必要なマシンタイプと消費オプションの手順に沿って操作します。

A4X Max

デプロイファイルを作成するには、テキストエディタを使用して a4xmax-bm-slurm-deployment.yaml という名前の YAML ファイルを作成し、次のコンテンツを追加します。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a4x_max_cluster_size: NUMBER_OF_INSTANCES
  a4x_max_reservation_name: RESERVATION_NAME

次のように置き換えます。

BUCKET_NAME: 前のセクションで作成した Cloud Storage バケットの名前。
DEPLOYMENT_NAME: デプロイの名前。複数のクラスタを作成する場合は、それぞれに一意の名前を選択してください。
PROJECT_ID: プロジェクト ID。
REGION: 予約済みマシンがあるリージョン。
ZONE: クラスタをプロビジョニングするゾーン。予約ベースの使用オプションを使用している場合、リージョンとゾーンの情報は、容量が割り当てられたときにアカウントチームから提供されています。
NUMBER_OF_INSTANCES: クラスタ内の A4X Max ベアメタルインスタンスの数。任意の数のインスタンスを指定できます。ただし、A4X Max インスタンスは、18 個のインスタンス（72 個の GPU）のグループでマルチノード NVLink システムによって物理的に相互接続され、NVLink ドメインを形成します。
最適なネットワークパフォーマンスを得るには、18 の倍数の値（18、36、54 など）を指定することをおすすめします。A4X Max クラスタを作成すると、A4X Max ブループリントは、18 個のインスタンスの各グループに対して、GPU トポロジが 1x72 のコンパクトプレースメントポリシーを自動的に作成して適用します。
RESERVATION_NAME: 予約の名前。

A4X

デプロイファイルを作成するには、テキストエディタを使用して a4xhigh-slurm-deployment.yaml という名前の YAML ファイルを作成し、次のコンテンツを追加します。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a4x_cluster_size: NUMBER_OF_VMS
  a4x_reservation_name: RESERVATION_NAME

次のように置き換えます。

BUCKET_NAME: 前のセクションで作成した Cloud Storage バケットの名前。
DEPLOYMENT_NAME: デプロイの名前。複数のクラスタを作成する場合は、それぞれに一意の名前を選択してください。
PROJECT_ID: プロジェクト ID。
REGION: 予約済みマシンがあるリージョン。
ZONE: クラスタをプロビジョニングするゾーン。予約ベースの使用オプションを使用している場合、リージョンとゾーンの情報は、容量が割り当てられたときにアカウントチームから提供されています。
NUMBER_OF_VMS: クラスタ内の A4X VM の数。任意の数の VM を指定できます。ただし、A4X VM は 18 個の VM（72 個の GPU）のグループでマルチノード NVLink システムによって物理的に相互接続され、NVLink ドメインを形成します。
ネットワークのパフォーマンスを最適化するには、18 個の VM の倍数（18、36、54 など）の値を指定することをおすすめします。A4X クラスタを作成すると、A4X ブループリントは、18 個の VM の各グループに対して、GPU トポロジが 1x72 のコンパクトプレースメントポリシーを自動的に作成して適用します。A4X トポロジの詳細については、A4X の基本をご覧ください。
RESERVATION_NAME: 予約の名前。

A4

デプロイファイルに追加する必要があるパラメータは、デプロイで使用している使用オプションによって異なります。使用オプションのプロビジョニングモデルに対応するタブを選択します。

予約で制限

デプロイファイルを作成するには、テキストエディタを使用して a4high-slurm-deployment.yaml という名前の YAML ファイルを作成し、次のコンテンツを追加します。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a4h_cluster_size: NUMBER_OF_VMS
  a4h_reservation_name: RESERVATION_NAME

次のように置き換えます。

BUCKET_NAME: 前のセクションで作成した Cloud Storage バケットの名前。
DEPLOYMENT_NAME: デプロイの名前。複数のクラスタを作成する場合は、それぞれに一意の名前を選択してください。
PROJECT_ID: プロジェクト ID。
REGION: 予約済みマシンがあるリージョン。
ZONE: クラスタをプロビジョニングするゾーン。予約ベースの使用オプションを使用している場合、リージョンとゾーンの情報は、容量が割り当てられたときにアカウントチームから提供されています。
NUMBER_OF_VMS: クラスタに必要な VM の数。
RESERVATION_NAME: 予約の名前。

Flex Start


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a4h_cluster_size: NUMBER_OF_VMS
  a4h_dws_flex_enabled: true

次のように置き換えます。

BUCKET_NAME: 前のセクションで作成した Cloud Storage バケットの名前。
DEPLOYMENT_NAME: デプロイの名前。複数のクラスタを作成する場合は、それぞれに一意の名前を選択してください。
PROJECT_ID: プロジェクト ID。
REGION: クラスタをプロビジョニングするリージョン。
ZONE: クラスタをプロビジョニングするゾーン。
NUMBER_OF_VMS: クラスタに必要な VM の数。

このデプロイでは静的コンピューティングノードがプロビジョニングされます。つまり、クラスタには常に一定数のノードが存在します。クラスタで自動スケーリングを有効にする場合は、examples/machine-learning/a4-highgpu-8g/a4high-slurm-blueprint.yaml ファイルを使用して、node_count_static と node_count_dynamic_max の値を次のように編集します。

      node_count_static: 0
      node_count_dynamic_max: $(vars.a4h_cluster_size)

スポット


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a4h_cluster_size: NUMBER_OF_VMS
  a4h_enable_spot_vm: true

次のように置き換えます。

BUCKET_NAME: 前のセクションで作成した Cloud Storage バケットの名前。
DEPLOYMENT_NAME: デプロイの名前。複数のクラスタを作成する場合は、それぞれに一意の名前を選択してください。
PROJECT_ID: プロジェクト ID。
REGION: クラスタをプロビジョニングするリージョン。
ZONE: クラスタをプロビジョニングするゾーン。
NUMBER_OF_VMS: クラスタに必要な VM の数。

A3 Ultra

予約で制限

デプロイファイルを作成するには、テキストエディタを使用して a3ultra-slurm-deployment.yaml という名前の YAML ファイルを作成し、次のコンテンツを追加します。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3u_cluster_size: NUMBER_OF_VMS
  a3u_reservation_name: RESERVATION_NAME

次のように置き換えます。

BUCKET_NAME: 前のセクションで作成した Cloud Storage バケットの名前。
DEPLOYMENT_NAME: デプロイの名前。複数のクラスタを作成する場合は、それぞれに一意の名前を選択してください。
PROJECT_ID: プロジェクト ID。
REGION: 予約済みマシンがあるリージョン。
ZONE: クラスタをプロビジョニングするゾーン。予約ベースの使用オプションを使用している場合、リージョンとゾーンの情報は、容量が割り当てられたときにアカウントチームから提供されています。
NUMBER_OF_VMS: クラスタに必要な VM の数。
RESERVATION_NAME: 予約の名前。

Flex Start


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3u_cluster_size: NUMBER_OF_VMS
  a3u_dws_flex_enabled: true

次のように置き換えます。

BUCKET_NAME: 前のセクションで作成した Cloud Storage バケットの名前。
DEPLOYMENT_NAME: デプロイの名前。複数のクラスタを作成する場合は、それぞれに一意の名前を選択してください。
PROJECT_ID: プロジェクト ID。
REGION: クラスタをプロビジョニングするリージョン。
ZONE: クラスタをプロビジョニングするゾーン。
NUMBER_OF_VMS: クラスタに必要な VM の数。

このデプロイでは静的コンピューティングノードがプロビジョニングされます。つまり、クラスタには常に一定数のノードが存在します。クラスタで自動スケーリングを有効にする場合は、examples/machine-learning/a3-ultragpu-8g/a3ultra-slurm-blueprint.yaml ファイルを使用して、node_count_static と node_count_dynamic_max の値を次のように編集します。

      node_count_static: 0
      node_count_dynamic_max: $(vars.a3u_cluster_size)

スポット


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3u_cluster_size: NUMBER_OF_VMS
  a3u_enable_spot_vm: true

次のように置き換えます。

BUCKET_NAME: 前のセクションで作成した Cloud Storage バケットの名前。
DEPLOYMENT_NAME: デプロイの名前。複数のクラスタを作成する場合は、それぞれに一意の名前を選択してください。
PROJECT_ID: プロジェクト ID。
REGION: クラスタをプロビジョニングするリージョン。
ZONE: クラスタをプロビジョニングするゾーン。
NUMBER_OF_VMS: クラスタに必要な VM の数。

A3 Mega

予約で制限

デプロイファイルを作成するには、a3mega-slurm-deployment.yaml という名前の YAML ファイルを作成し、次のコンテンツを追加します。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3m_cluster_size: NUMBER_OF_VMS
  a3m_reservation_name: RESERVATION_NAME

次のように置き換えます。

BUCKET_NAME: 前のセクションで作成した Cloud Storage バケットの名前。
DEPLOYMENT_NAME: デプロイの名前。複数のクラスタを作成する場合は、それぞれに一意の名前を選択してください。
PROJECT_ID: プロジェクト ID。
REGION: 予約済みマシンがあるリージョン。
ZONE: クラスタをプロビジョニングするゾーン。予約ベースの使用オプションを使用している場合、リージョンとゾーンの情報は、容量が割り当てられたときにアカウントチームから提供されています。
NUMBER_OF_VMS: クラスタに必要な VM の数。
RESERVATION_NAME: 予約の名前。

Flex Start

デプロイファイルを作成するには、a3mega-slurm-deployment.yaml という名前の YAML ファイルを作成し、次のコンテンツを追加します。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3m_cluster_size: NUMBER_OF_VMS
  a3m_dws_flex_enabled: true

次のように置き換えます。

BUCKET_NAME: 前のセクションで作成した Cloud Storage バケットの名前。
DEPLOYMENT_NAME: デプロイの名前。複数のクラスタを作成する場合は、それぞれに一意の名前を選択してください。
PROJECT_ID: プロジェクト ID。
REGION: クラスタをプロビジョニングするリージョン。
ZONE: クラスタをプロビジョニングするゾーン。
NUMBER_OF_VMS: クラスタに必要な VM の数。

このデプロイでは静的コンピューティングノードがプロビジョニングされます。つまり、クラスタには常に一定数のノードが存在します。クラスタで自動スケーリングを有効にする場合は、examples/machine-learning/a3-megagpu-8g/a3mega-slurm-blueprint.yaml ファイルを使用して、node_count_static と node_count_dynamic_max の値を次のように編集します。

      node_count_static: 0
      node_count_dynamic_max: $(vars.a3m_cluster_size)

スポット

デプロイファイルを作成するには、a3mega-slurm-deployment.yaml という名前の YAML ファイルを作成し、次のコンテンツを追加します。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3m_cluster_size: NUMBER_OF_VMS
  a3m_enable_spot_vm: true

次のように置き換えます。

BUCKET_NAME: 前のセクションで作成した Cloud Storage バケットの名前。
DEPLOYMENT_NAME: デプロイの名前。複数のクラスタを作成する場合は、それぞれに一意の名前を選択してください。
PROJECT_ID: プロジェクト ID。
REGION: クラスタをプロビジョニングするリージョン。
ZONE: クラスタをプロビジョニングするゾーン。
NUMBER_OF_VMS: クラスタに必要な VM の数。

A3 High

予約で制限

デプロイファイルを作成するには、a3high-slurm-deployment.yaml という名前の YAML ファイルを作成し、次のコンテンツを追加します。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3h_cluster_size: NUMBER_OF_VMS
  a3h_reservation_name: RESERVATION_NAME

次のように置き換えます。

BUCKET_NAME: 前のセクションで作成した Cloud Storage バケットの名前。
DEPLOYMENT_NAME: デプロイの名前。複数のクラスタを作成する場合は、それぞれに一意の名前を選択してください。
PROJECT_ID: プロジェクト ID。
REGION: 予約済みマシンがあるリージョン。
ZONE: クラスタをプロビジョニングするゾーン。予約ベースの使用オプションを使用している場合、リージョンとゾーンの情報は、容量が割り当てられたときにアカウントチームから提供されています。
NUMBER_OF_VMS: クラスタに必要な VM の数。
RESERVATION_NAME: 予約の名前。

Flex Start

デプロイファイルを作成するには、a3high-slurm-deployment.yaml という名前の YAML ファイルを作成し、次のコンテンツを追加します。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3h_cluster_size: NUMBER_OF_VMS
  a3h_dws_flex_enabled: true

次のように置き換えます。

BUCKET_NAME: 前のセクションで作成した Cloud Storage バケットの名前。
DEPLOYMENT_NAME: デプロイの名前。複数のクラスタを作成する場合は、それぞれに一意の名前を選択してください。
PROJECT_ID: プロジェクト ID。
REGION: クラスタをプロビジョニングするリージョン。
ZONE: クラスタをプロビジョニングするゾーン。
NUMBER_OF_VMS: クラスタに必要な VM の数。

このデプロイでは静的コンピューティングノードがプロビジョニングされます。つまり、クラスタには常に一定数のノードが存在します。クラスタで自動スケーリングを有効にする場合は、examples/machine-learning/a3-highgpu-8g/a3high-slurm-blueprint.yaml ファイルを使用して、node_count_static と node_count_dynamic_max の値を次のように編集します。

      node_count_static: 0
      node_count_dynamic_max: $(vars.a3h_cluster_size)

スポット

デプロイファイルを作成するには、a3high-slurm-deployment.yaml という名前の YAML ファイルを作成し、次のコンテンツを追加します。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3h_cluster_size: NUMBER_OF_VMS
  a3h_enable_spot_vm: true

次のように置き換えます。

BUCKET_NAME: 前のセクションで作成した Cloud Storage バケットの名前。
DEPLOYMENT_NAME: デプロイの名前。複数のクラスタを作成する場合は、それぞれに一意の名前を選択してください。
PROJECT_ID: プロジェクト ID。
REGION: クラスタをプロビジョニングするリージョン。
ZONE: クラスタをプロビジョニングするゾーン。
NUMBER_OF_VMS: クラスタに必要な VM の数。

Slurm クラスタをプロビジョニングする

Cluster Toolkit は、前の手順で作成したデプロイファイルとデフォルトのクラスタブループリントに基づいてクラスタをプロビジョニングします。NVIDIA ドライバや CUDA など、ブループリントによってインストールされるソフトウェアの詳細については、Slurm カスタムイメージの詳細をご覧ください。

クラスタをプロビジョニングするには、Cluster Toolkit ディレクトリからマシンタイプに対応するコマンドを実行します。このステップには 20～30 分ほどかかります。

A4X Max

./gcluster deploy -d a4xmax-bm-slurm-deployment.yaml examples/machine-learning/a4x-maxgpu-4g-metal/a4xmax-bm-slurm-blueprint.yaml --auto-approve

A4X

./gcluster deploy -d a4xhigh-slurm-deployment.yaml examples/machine-learning/a4x-highgpu-4g/a4xhigh-slurm-blueprint.yaml --auto-approve

A4

./gcluster deploy -d a4high-slurm-deployment.yaml examples/machine-learning/a4-highgpu-8g/a4high-slurm-blueprint.yaml --auto-approve

A3 Ultra

./gcluster deploy -d a3ultra-slurm-deployment.yaml examples/machine-learning/a3-ultragpu-8g/a3ultra-slurm-blueprint.yaml --auto-approve

A3 Mega

./gcluster deploy -d a3mega-slurm-deployment.yaml examples/machine-learning/a3-megagpu-8g/a3mega-slurm-blueprint.yaml --auto-approve

A3 High

./gcluster deploy -d a3high-slurm-deployment.yaml examples/machine-learning/a3-highgpu-8g/a3high-slurm-blueprint.yaml --auto-approve

Slurm クラスタに接続する

クラスタにアクセスするには、Slurm ログインノードにログインする必要があります。ログインするには、 Google Cloud コンソールまたは Google Cloud CLI を使用します。

コンソール

[Compute Engine] > [VM インスタンス] ページに移動します。

[VM インスタンス] ページに移動
ログインノードを見つけます。パターン DEPLOYMENT_NAME + login-001 の名前が付いている必要があります。
ログインノードの [接続] 列で、[SSH] をクリックします。

gcloud

ログインノードに接続するには、次の手順を完了します。

gcloud compute instances list コマンドを使用してログインノードを特定します。
```
gcloud compute instances list \
  --zones=ZONE \
  --filter="name ~ login" --format "value(name)"
```
出力に複数の Slurm クラスタがリストされている場合は、指定した DEPLOYMENT_NAME でログインノードを特定できます。
gcloud compute ssh コマンドを使用してログインノードに接続します。
```
gcloud compute ssh LOGIN_NODE \
  --zone=ZONE --tunnel-through-iap
```
次のように置き換えます。
- ZONE: クラスタの VM が配置されているゾーン。
- LOGIN_NODE: 前の手順で特定したログインノードの名前。

Slurm クラスタでネットワークパフォーマンスをテストする

プロビジョニングされたクラスタの機能を検証することをおすすめします。これを行うには、Google 環境向けに最適化された NVIDIA Collective Communications Library（NCCL）テストである NCCL テストを使用します。

Slurm クラスタを再デプロイする

コンピューティングノードの数を増やすか、クラスタに新しいパーティションを追加する必要がある場合は、再デプロイして Slurm クラスタの構成を更新する必要があります。以前のデプロイの既存のイメージを使用すると、再デプロイを高速化できます。再デプロイ中に新しいイメージが作成されないようにするには、--only フラグを指定します。

既存のイメージを使用してクラスタを再デプロイする手順は次のとおりです。

クラスタに接続する

必要なマシンタイプのコマンドを実行します。

A4X Max

./gcluster deploy -d a4xmax-bm-slurm-deployment.yaml examples/machine-learning/a4x-maxgpu-4g-metal/a4xmax-bm-slurm-blueprint.yaml --only cluster-env,cluster --auto-approve -w

A4X

./gcluster deploy -d a4xhigh-slurm-deployment.yaml examples/machine-learning/a4x-highgpu-4g/a4xhigh-slurm-blueprint.yaml --only cluster-env,cluster --auto-approve -w

A4

./gcluster deploy -d a4high-slurm-deployment.yaml examples/machine-learning/a4-highgpu-8g/a4high-slurm-blueprint.yaml --only cluster-env,cluster -w --auto-approve

A3 Ultra

./gcluster deploy -d a3ultra-slurm-deployment.yaml examples/machine-learning/a3-ultragpu-8g/a3ultra-slurm-blueprint.yaml --only cluster-env,cluster -w --auto-approve

A3 Mega

./gcluster deploy -d a3mega-slurm-deployment.yaml examples/machine-learning/a3-megagpu-8g/a3mega-slurm-blueprint.yaml --only cluster-env,cluster -w --auto-approve

A3 High

./gcluster deploy -d a3high-slurm-deployment.yaml examples/machine-learning/a3-highgpu-8g/a3high-slurm-blueprint.yaml --only cluster-env,cluster -w --auto-approve

このコマンドは、イメージがすでに存在する場合の再デプロイ専用です。クラスタとそのインフラストラクチャのみを再デプロイします。

Slurm クラスタを破棄する

デフォルトでは、A4X Max、A4X、A4、A3 Ultra ブループリントでは、Filestore インスタンスで削除からの保護が有効になっています。Slurm クラスタを破棄するときに Filestore インスタンスを削除するには、destroy コマンドを実行する前に削除からの保護を無効にします。手順については、既存のインスタンスで削除保護を設定または削除するをご覧ください。

まだクラスタから切断していない場合は、切断します。
破棄のコマンドを実行する前に、Cluster Toolkit ディレクトリのルートに移動します。デフォルトでは、DEPLOYMENT_FOLDER は Cluster Toolkit ディレクトリのルートにあります。
クラスタを破棄するには、次のコマンドを実行します。

./gcluster destroy DEPLOYMENT_FOLDER --auto-approve

次のように置き換えます。

DEPLOYMENT_FOLDER: デプロイフォルダの名前。通常は DEPLOYMENT_NAME と同じです。

破棄が完了すると、次のようなメッセージが表示されます。

  Destroy complete! Resources: xx destroyed.

インフラストラクチャを完全に破棄する方法と、高度な手動デプロイの手順については、Cluster Toolkit ディレクトリのルートにあるデプロイフォルダ（DEPLOYMENT_FOLDER/instructions.txt）をご覧ください。

AI によって最適化された Slurm クラスタを作成する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

制限事項

A4X Max

A4X

A4

A3 Ultra

A3 Mega

A3 High

始める前に

必要なロール

Compute Engine のデフォルト サービス アカウントに必要なロールを取得する

ユーザー アカウントに必要なロールを取得する

ストレージ バケットを設定する

Cluster Toolkit をインストールする

デプロイ ファイルを作成する

A4X Max

A4X

A4

予約で制限

Flex Start

スポット

A3 Ultra

予約で制限

Flex Start

スポット

A3 Mega

予約で制限

Flex Start

スポット

A3 High

予約で制限

Flex Start

スポット

Slurm クラスタをプロビジョニングする

A4X Max

A4X

A4

A3 Ultra

A3 Mega

A3 High

Slurm クラスタに接続する

コンソール

gcloud

Slurm クラスタでネットワーク パフォーマンスをテストする

Slurm クラスタを再デプロイする

A4X Max

A4X

A4

A3 Ultra

A3 Mega

A3 High

Slurm クラスタを破棄する

次のステップ

AI によって最適化された Slurm クラスタを作成する

Compute Engine のデフォルトサービスアカウントに必要なロールを取得する

ユーザーアカウントに必要なロールを取得する

ストレージバケットを設定する

デプロイファイルを作成する

Slurm クラスタでネットワークパフォーマンスをテストする