このドキュメントでは、A4X、A4、A3 Ultra、A3 Mega、A3 High マシンタイプを使用するフルマネージド Slurm クラスタを構成してデプロイする方法について説明します。これらのアクセラレータ最適化マシンタイプの詳細については、 GPU マシンタイプをご覧ください。
このドキュメントの手順では、Cluster Director を使用して Slurm クラスタを作成する方法について説明します。 Cluster Director は、 Google Cloud Slurm クラスタの設定と構成を自動化するプロダクトです。クラスタの管理オーバーヘッドを回避し、ワークロードの実行に集中したい IT 管理者と AI 研究者向けに設計されています。クラスタのデプロイと管理をより詳細に制御する場合は、Cluster Toolkit を使用してクラスタを作成します。
制限事項
クラスタ内の Compute Engine インスタンスで使用するマシンタイプに応じて、次の制限が適用されます。
A4X
- このマシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
- インスタンスを作成できるのは、特定のリージョンとゾーンのみです。
- Persistent Disk(リージョンまたはゾーン)は使用できません。 Google Cloud Hyperdisk のみを使用できます。
- このマシンタイプは、NVIDIA Grace プラットフォームでのみ使用できます。
- A4X ではマシンタイプの変更はサポートされていません。この マシンタイプに切り替える場合、またはこのマシンタイプから切り替える場合は、新しいインスタンスを作成する必要があります。
- このマシンタイプでは Windows オペレーティング システムを実行できません。サポートされている Linux オペレーティング システムの一覧については、 GPU インスタンスでサポートされているオペレーティング システムをご覧ください。
- A4X インスタンスの場合、
ethtool -Sを使用して GPU ネットワーキングをモニタリングすると、_phyで終わる物理ポート カウンタは更新されません。これは、MRDMA Virtual Function(VF)アーキテクチャを使用するインスタンスの想定される動作です。 詳細については、 MRDMA 関数とネットワーク モニタリング ツールをご覧ください。 - A4X インスタンスでは、次の機能はサポートされていません。
- 2026 年 2 月 4 日より前に作成された Hyperdisk ML ディスクを A4X マシンタイプに接続することはできません。
A4
- A4 マシンタイプを使用するインスタンスは、継続利用 割引と フレキシブル確約利用 割引の対象外となります。
- A4 マシンタイプは、特定の リージョン とゾーンでのみ使用できます。
- Persistent Disk(リージョンまたはゾーン)は使用できません。 Google Cloud Hyperdisk のみを使用できます。
- A4 マシンタイプは、Emerald Rapids CPU プラットフォームでのみ使用できます。
- インスタンスのマシンタイプを A4 マシンタイプに変更することはできません。また、A4 マシンタイプから変更することもできません。このマシンタイプで 新しいインスタンスを作成する必要があります。
- A4 マシンタイプは、 単一テナンシーをサポートしません。
- A4 マシンタイプでは Windows オペレーティング システムを実行できません。
- A4 インスタンスの場合、
ethtool -Sを使用して GPU ネットワーキングをモニタリングすると、_phyで終わる物理ポート カウンタは更新されません。これは、MRDMA Virtual Function(VF)アーキテクチャを使用するインスタンスの想定される動作です。 詳細については、 MRDMA 関数とネットワーク モニタリング ツールをご覧ください。 - 2026 年 2 月 4 日より前に作成された Hyperdisk ML ディスクを A4 マシンタイプに接続することはできません。
A3 Ultra
- A3 Ultra マシンタイプを使用するインスタンスは、継続利用割引と フレキシブル確約利用割引 の対象外となります。
- A3 Ultra マシンタイプは、特定の リージョン とゾーンでのみ使用できます。
- Persistent Disk(リージョンまたはゾーン)は使用できません。 Google Cloud Hyperdisk のみを使用できます。
- A3 Ultra マシンタイプは、Emerald Rapids CPU プラットフォームでのみ使用できます。
- A3 Ultra マシンタイプではマシンタイプの変更はサポートされていません。このマシンタイプに切り替える場合、またはこのマシンタイプから切り替える場合は、新しいインスタンスを作成する必要があります。
- A3 Ultra マシンタイプでは Windows オペレーティング システムを実行できません。
- A3 Ultra マシンタイプは、単一テナンシーをサポートしません。
- A3 Ultra インスタンスの場合、
ethtool -Sを使用して GPU ネットワーキングをモニタリングすると、_phyで終わる物理ポート カウンタは更新されません。これは、MRDMA Virtual Function(VF)アーキテクチャを使用するインスタンスの想定される動作です。 詳細については、 MRDMA 関数とネットワーク モニタリング ツールをご覧ください。
A3 Mega
- A3 Mega マシンタイプを使用するインスタンスは、継続利用 割引と フレキシブル確約利用 割引の対象外となります。
- A3 Mega マシンタイプは、特定の リージョン とゾーンでのみ使用できます。
- A3 Mega マシンタイプを使用するインスタンスでは、リージョン Persistent Disk を使用できません。
- A3 Mega マシンタイプは、Sapphire Rapids CPU プラットフォームでのみ使用できます。
- A3 Mega マシンタイプではマシンタイプの変更はサポートされていません。このマシンタイプに切り替える場合、またはこのマシンタイプから切り替える場合は、新しいインスタンスを作成する必要があります。
- A3 Mega マシンタイプでは Windows オペレーティング システムを実行できません。
A3 High
- A3 High マシンタイプを使用するインスタンスは、継続 利用割引と フレキシブル確約利用 割引の対象外となります。
- A3 High マシンタイプは、特定のリージョン とゾーンでのみ使用できます。
- A3 High マシンタイプを使用するインスタンスでは、リージョン Persistent Disk を使用できません。
- A3 High マシンタイプは、Sapphire Rapids CPU プラットフォームでのみ使用できます。
- A3 High マシンタイプではマシンタイプの変更はサポートされていません。このマシンタイプに切り替える場合、またはこのマシンタイプから切り替える場合は、新しいインスタンスを作成する必要があります。
- A3 High マシンタイプでは Windows オペレーティング システムを実行できません。
a3-highgpu-8gのみを使用できます。GPU が 8 個未満の A3 High マシンタイプは サポートされていません。
始める前に
Slurm クラスタを作成する前に、次の手順を完了します(まだ完了していない場合)。
- 使用オプションを選択する: 選択した使用オプションによって、GPU リソースの取得方法 と使用方法が決まります。詳細については、 使用オプションを選択するをご覧ください。
- 容量を取得する: 容量を取得するプロセスは、使用オプションごとに異なります。選択した使用オプションの容量を取得するプロセスについては、容量の概要をご覧ください。
- 十分な Filestore 容量割り当てがあることを確認する: デプロイする前に、ターゲット リージョンに十分な
Filestore 割り当てが必要です。必要な最小
容量は、クラスタ内のマシンタイプによって異なります:
- A4X Max、A4X、A4、A3 Ultra、A3 Mega: 最小 10 TiB (10,240 GiB)の HIGH_SCALE_SSD(ゾーン)容量が必要です。
- A3 High: 最小 2.5 TiB(2,560 GiB)の BASIC_SSD(標準)容量が必要です。
割り当てを確認する、または割り当ての増加をリクエストするには、以下をご覧ください。
- プロジェクトの割り当てを確認するには、 API 固有の割り当てを表示するをご覧ください。
- 割り当てが不足している場合は、 割り当ての増加をリクエストします。
- 信頼できるイメージのポリシーを確認する: プロジェクトが存在する組織に信頼できるイメージのポリシー(
constraints/compute.trustedImageProjects)がある場合は、許可されたプロジェクトのリストにclusterdirector-public-imagesプロジェクトが含まれていることを確認します。詳細については、 信頼できるイメージのポリシーの設定をご覧ください。
必要なロール
Slurm クラスタを作成するには、次の IAM ロールと権限が必要です。
-
このクイックスタートを完了するために必要な権限を取得するには、プロジェクトに対する次の IAM ロールを付与するよう管理者に依頼してください。
-
クラスタを作成して管理する:
Cluster Director 編集者 (
roles/hypercomputecluster.editor) -
クラスタ内の VM を作成して管理する:
Compute インスタンス管理者(v1) (
roles/compute.instanceAdmin.v1) -
クラスタ内のログインノードに接続する:
- Compute OS Login (
roles/compute.osLogin) - IAP で保護されたトンネル ユーザー (
roles/iap.tunnelResourceAccessor)
- Compute OS Login (
ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
-
クラスタを作成して管理する:
Cluster Director 編集者 (
-
このクイックスタートを完了するために必要な権限を取得するには、Compute Engine のデフォルト サービス アカウントに次の IAM ロールを付与するよう管理者に依頼してください。
-
クラスタを作成する:
サービス アカウント ユーザー (
roles/iam.serviceAccountUser) -
クラスタ内のリソースを管理する:
- ログ書き込み (
roles/logging.logWriter) - モニタリング指標の書き込み (
roles/monitoring.metricWriter) - ストレージ オブジェクト閲覧者 (
roles/storage.objectViewer)
- ログ書き込み (
-
クラスタを作成する:
サービス アカウント ユーザー (
Slurm クラスタを作成する
Cluster Director を使用して AI 最適化クラスタを作成する手順は次のとおりです。
コンピューティング リソース構成を構成する
クラスタの作成時にコンピューティング リソース構成を構成する手順は次のとおりです。
コンソールで、[Cluster Director] ページに移動します。 Google Cloud
[ Create cluster] をクリックします。
表示されるダイアログで [リファレンス アーキテクチャ] をクリックします。[クラスタの作成] ページが開きます。
利用可能なテンプレートのいずれかをクリックします。必要に応じて、ワークロードのニーズに合わせてテンプレートを編集できます。
[カスタマイズ] をクリックします。
[コンピューティング] セクションの [クラスタ名] フィールドに、クラスタの名前を入力します。名前は 10 文字以内で、数字または小文字(
a-z)のみを使用できます。事前構成されたコンピューティング リソース構成に情報を追加する、または構成で指定されたコンピューティング インスタンスの数とタイプを編集する手順は次のとおりです。
[コンピューティング] セクションで、 [リソース構成を編集] をクリックします。[リソース構成を追加] ペインが表示されます。
省略可: コンピューティング リソース構成の名前を変更するには、[名前] フィールドに新しい名前を入力します。
省略可: クラスタで使用するコンピューティング インスタンスの数とタイプを変更するには、[マシン構成] セクションで、プロンプトに沿ってコンピューティング リソースを更新します。
[使用オプション] セクションで、リソースの取得に使用する使用オプションを指定します。
予約を使用してコンピューティング インスタンスを作成する手順は次のとおりです。
[予約を使用] タブをクリックします。
[予約を選択] をクリックします。[予約を選択] ペインが表示されます。A4X VM の予約を使用する場合は、必要に応じてブロックまたはサブブロックを選択して VM の配置を制御できます。
使用する予約を選択します。[選択] をクリックします。この操作により、コンピューティング リソースのリージョン とゾーン が自動的に設定されます。
Flex Start VM を作成する手順は次のとおりです。
[Flex Start] タブをクリックします。
[VM の時間制限] セクションで、コンピューティング インスタンスの実行時間を指定します。値は 10 分~ 7 日の範囲で指定してください。
[ロケーション] セクションで、Flex Start VM を作成するリージョンを選択します。選択したマシンタイプの Flex Start VM をサポートするリージョンのみが表示されるように、利用可能な リージョンが自動的にフィルタされます。Google Cloud
Spot VM を作成する手順は次のとおりです。
[スポットを使用] タブをクリックします。
[VM の終了時] リストで、次のいずれかのオプションを選択します。
プリエンプション時に Spot VM を削除するには、[削除] を選択します。
プリエンプション時に Spot VM を停止するには、[停止] を選択します。
[ロケーション] セクションで、Spot VM を作成するリージョン とゾーン を選択します。選択したマシンタイプの Spot VM をサポートするリージョンのみが表示されるように、利用可能な リージョンが自動的にフィルタされます。Google Cloud
[完了] をクリックします。
省略可: パーティションのコンピューティング リソース構成を追加するには、 [リソース構成を追加] をクリックし、プロンプトに沿ってコンピューティング リソースを指定します。
[続行] をクリックします。
ネットワークを構成する
クラスタで使用するネットワークを構成する手順は次のとおりです。
[Virtual Private Cloud(VPC)ネットワークを選択] セクションで、次のいずれかを行います。
推奨: AI Hypercomputer でクラスタの事前構成済み VPC ネットワークを自動的に作成するには、次の操作を行います。
[新しい VPC ネットワークを作成] を選択します。
[ネットワーク名] フィールドに、VPC ネットワークの名前を入力します。
既存の VPC または共有 VPC ネットワークを使用する手順は次のとおりです。
[現在のプロジェクトの VPC ネットワークを使用する] または [別のプロジェクトでホストされている共有 VPC ネットワークを使用] を選択します。
[VPC ネットワークを選択] リストまたは [共有 VPC ネットワーク] リストで、必要な構成を満たす VPC または共有 VPC ネットワークを選択します。
[サブネットワークを選択] リストで、既存のサブネットワークを選択します。
[続行] をクリックします。
ストレージ リソースを構成する
Cluster Director テンプレートからクラスタを作成すると、Cluster Director は Filestore または Managed Lustre インスタンスをクラスタのストレージ リソースとして自動的に構成します。
必要に応じて、クラスタで使用するストレージ リソースを追加または編集するには、[ストレージ] セクションで次の操作を行います。構成できるストレージ サービスの詳細については、 Cluster Director でサポートされているストレージ サービスをご覧ください。
省略可: ストレージ リソースを編集するには、 [**ストレージ プランを編集**] をクリックし、 プロンプトに沿ってストレージ リソースの構成を更新します。
省略可: ストレージ リソースをクラスタに追加するには、 [Add storage configuration]をクリックし、 プロンプトに沿ってストレージ リソースの構成を指定します。
構成できる利用可能なストレージ サービスについては、 Cluster Director でサポートされているストレージ サービスをご覧ください。
[続行] をクリックします。
Slurm 環境を構成する
クラスタで Slurm 環境を構成する手順は次のとおりです。
省略可: ログインノードで使用するコンピューティング インスタンスの数とタイプを編集するには、[ログインノード] セクションを開き、プロンプトに沿ってコンピューティング リソースを更新します。
省略可: コンピューティング リソースを整理するためにクラスタのパーティションを編集するには、[パーティション] セクションを開き、次のいずれかを行います。
パーティションを追加するには、[パーティションを追加] をクリックして、次の操作を行います。
[パーティション名] フィールドに、パーティションの名前を入力します。
ノードセットを編集するには、[ノードセットを切り替える] をクリックします。ノードセットを追加するには、[ノードセットを追加] をクリックします。
[ノードセット名] フィールドに、ノードセットの名前を入力します。
[リソース構成] フィールドで、前の手順で作成したコンピューティング リソース構成を選択します。
[ソースイメージ] リストで、AI Hypercomputer で サポートされている OS イメージのいずれかを選択します。
[静的ノード数] フィールドに、クラスタ内で常に実行する必要があるコンピューティング インスタンスの最小数を入力します。
[動的ノード数] フィールドに、トラフィックの増加時に AI Hypercomputer がクラスタを増やすことができるコンピューティング インスタンスの最大数を入力します。
[ブートディスクの種類] リストと [ブートディスク サイズ] フィールドに、コンピューティング インスタンスで使用するブートディスクの種類とサイズを入力します。
[完了] をクリックします。
パーティションを削除するには、 [Delete partition] をクリックします。
省略可: プロローグ スクリプトまたはエピローグ スクリプトを Slurm 環境に追加する手順は次のとおりです。
[高度なオーケストレーション設定] セクションを開きます。
[スクリプト] セクションで、プロンプトに沿ってスクリプトを追加します。
[作成] をクリックします。[クラスタ] ページが表示されます。クラスタの作成が完了するまでに時間がかかることがあります。完了時間は、リクエストしたコンピューティング インスタンスの数と、コンピューティング インスタンスのゾーンのリソースの可用性によって異なります。リクエストしたリソースが使用できない場合、リソースが使用可能になるまで AI Hypercomputer は作成リクエストを維持します。クラスタ作成オペレーションのステータスを表示するには、 クラスタの詳細を表示します。
Slurm クラスタに接続する
AI Hypercomputer がログインノードを作成すると、クラスタの状態が [準備完了] に変わります。クラスタに接続できますが、ワークロードを実行できるのは、AI Hypercomputer がクラスタにコンピューティング ノードを作成した後のみです。
コンソールを使用して SSH でクラスタのログインノードに接続する手順は次のとおりです。Google Cloud
コンソールで、[クラスタ] ページに移動します。 Google Cloud
[クラスタ] テーブルの [名前] 列で、前のセクションで作成したクラスタの名前をクリックします。クラスタの詳細を示すページが表示され、[詳細] タブが選択されています。
[ノード] タブをクリックします。
[ログインノード] セクションの [接続] 列で、 クラスタのログインノード(名前は
CLUSTER_NAME-login-001)を見つけます。ログインノードの [接続] 列で、[SSH] ボタンをクリックします。 [ブラウザ内 SSH] ウィンドウが開きます。
プロンプトが表示されたら、[承認] をクリックします。ノードへの接続が完了するまでに 1 分ほどかかることがあります。
Slurm クラスタの正常性を確認する
コンピューティング ノードでジョブを実行する前に、Slurm はノードで簡単な GPU ヘルスチェックを自動的に実行します。ノードがチェックに失敗すると、Slurm はノードをドレインし、新しいジョブのスケジュール設定を防止します。
クラスタ パーティション内のコンピューティング ノード全体で GPU ヘルスとネットワーク帯域幅をより徹底的にテストするには、NVIDIA Collective Communications Library(NCCL)テストを手動で実行します。NCCL テストで異常なノードが特定された場合は、ノードを修復するか、クラスタを変更できます。NCCL テストは、重要なワークロードを実行する前にクラスタの正常性を確認するのに役立ちます。詳細については、 クラスタの正常性を確認するをご覧ください。
Slurm クラスタの削除
プロジェクトで Slurm クラスタを削除するには、次のいずれかのオプションを選択します。
コンソールで、[クラスタ] ページに移動します。 Google Cloud
[クラスタ] テーブルの [名前] 列で、削除するクラスタの名前をクリックします。クラスタの詳細を示すページが表示され、[詳細] タブが選択されています。
[ Delete] をクリックします。
表示されるダイアログで、クラスタの名前を入力し、[削除] をクリックして確定します。[クラスタ] ページが表示されます。クラスタの削除が完了するまでに時間がかかることがあります。