Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

AI ワークロード用のフルマネージド Slurm クラスタを作成する

このドキュメントでは、A4X、A4、A3 Ultra、A3 Mega、A3 High マシンタイプを使用するフルマネージド Slurm クラスタを構成してデプロイする方法について説明します。これらのアクセラレータ最適化マシンタイプの詳細については、 GPU マシンタイプをご覧ください。

このドキュメントの手順では、Cluster Director を使用して Slurm クラスタを作成する方法について説明します。 Cluster Director は、 Google Cloud Slurm クラスタの設定と構成を自動化するプロダクトです。クラスタの管理オーバーヘッドを回避し、ワークロードの実行に集中したい IT 管理者と AI 研究者向けに設計されています。クラスタのデプロイと管理をより詳細に制御する場合は、Cluster Toolkit を使用してクラスタを作成します。

制限事項

クラスタ内の Compute Engine インスタンスで使用するマシンタイプに応じて、次の制限が適用されます。

A4X

このマシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
インスタンスを作成できるのは、特定のリージョンとゾーンのみです。
Persistent Disk（リージョンまたはゾーン）は使用できません。 Google Cloud Hyperdisk のみを使用できます。
このマシンタイプは、NVIDIA Grace プラットフォームでのみ使用できます。
A4X ではマシンタイプの変更はサポートされていません。このマシンタイプに切り替える場合、またはこのマシンタイプから切り替える場合は、新しいインスタンスを作成する必要があります。
このマシンタイプでは Windows オペレーティングシステムを実行できません。サポートされている Linux オペレーティングシステムの一覧については、 GPU インスタンスでサポートされているオペレーティングシステムをご覧ください。
A4X インスタンスの場合、ethtool -S を使用して GPU ネットワーキングをモニタリングすると、_phy で終わる物理ポートカウンタは更新されません。これは、MRDMA 仮想関数（VF）アーキテクチャを使用するインスタンスの想定される動作です。詳細については、 MRDMA 関数とネットワークモニタリングツールをご覧ください。
A4X インスタンスでは、次の機能はサポートされていません。
2026 年 2 月 4 日より前に作成された Hyperdisk ML ディスクを A4X マシンタイプに接続することはできません。

A4

A4 マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
A4 マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
Persistent Disk（リージョンまたはゾーン）は使用できません。 Google Cloud Hyperdisk のみを使用できます。
A4 マシンタイプは、Emerald Rapids CPU プラットフォームでのみ使用できます。
インスタンスのマシンタイプを A4 マシンタイプに変更することはできません。また、A4 マシンタイプから変更することもできません。このマシンタイプで新しいインスタンスを作成する必要があります。
A4 マシンタイプは、単一テナンシーをサポートしません。
A4 マシンタイプでは Windows オペレーティングシステムを実行できません。
A4 インスタンスの場合、ethtool -S を使用して GPU ネットワーキングをモニタリングすると、_phy で終わる物理ポートカウンタは更新されません。これは、MRDMA 仮想関数（VF）アーキテクチャを使用するインスタンスの想定される動作です。詳細については、 MRDMA 関数とネットワークモニタリングツールをご覧ください。
2026 年 2 月 4 日より前に作成された Hyperdisk ML ディスクを A4 マシンタイプに接続することはできません。

A3 Ultra

A3 Ultra マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
A3 Ultra マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
Persistent Disk（リージョンまたはゾーン）は使用できません。 Google Cloud Hyperdisk のみを使用できます。
A3 Ultra マシンタイプは、Emerald Rapids CPU プラットフォームでのみ使用できます。
A3 Ultra マシンタイプではマシンタイプの変更はサポートされていません。このマシンタイプに切り替える場合、またはこのマシンタイプから切り替える場合は、新しいインスタンスを作成する必要があります。
A3 Ultra マシンタイプでは Windows オペレーティングシステムを実行できません。
A3 Ultra マシンタイプは、単一テナンシーをサポートしません。
A3 Ultra インスタンスの場合、ethtool -S を使用して GPU ネットワーキングをモニタリングすると、_phy で終わる物理ポートカウンタは更新されません。これは、MRDMA 仮想関数（VF）アーキテクチャを使用するインスタンスの想定される動作です。詳細については、 MRDMA 関数とネットワークモニタリングツールをご覧ください。

A3 Mega

A3 Mega マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
A3 Mega マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
A3 Mega マシンタイプを使用するインスタンスでは、リージョン Persistent Disk を使用できません。
A3 Mega マシンタイプは、Sapphire Rapids CPU プラットフォームでのみ使用できます。
A3 Mega マシンタイプではマシンタイプの変更はサポートされていません。このマシンタイプに切り替える場合、またはこのマシンタイプから切り替える場合は、新しいインスタンスを作成する必要があります。
A3 Mega マシンタイプでは Windows オペレーティングシステムを実行できません。

A3 High

A3 High マシンタイプを使用するインスタンスは、継続利用割引とフレキシブル確約利用割引の対象外となります。
A3 High マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
A3 High マシンタイプを使用するインスタンスでは、リージョン Persistent Disk を使用できません。
A3 High マシンタイプは、Sapphire Rapids CPU プラットフォームでのみ使用できます。
A3 High マシンタイプではマシンタイプの変更はサポートされていません。このマシンタイプに切り替える場合、またはこのマシンタイプから切り替える場合は、新しいインスタンスを作成する必要があります。
A3 High マシンタイプでは Windows オペレーティングシステムを実行できません。
a3-highgpu-8g のみを使用できます。8 個未満の GPU を搭載した A3 High マシンタイプはサポートされていません。

始める前に

Slurm クラスタを作成する前に、次の手順を完了します（まだ完了していない場合）。

使用オプションを選択する: 選択した使用オプションによって、GPU リソースの取得方法と使用方法が決まります。詳細については、使用オプションを選択するをご覧ください。
容量を取得する: 容量を取得するプロセスは、使用オプションごとに異なります。選択した使用オプションの容量を取得するプロセスについては、容量の概要をご覧ください。
十分な Filestore 容量の割り当てがあることを確認する: デプロイする前に、ターゲットリージョンに十分な Filestore の割り当てが必要です。必要な最小容量は、クラスタ内のマシンタイプによって異なります:
- A4X Max、A4X、A4、A3 Ultra、A3 Mega: 最小 10 TiB （10,240 GiB）の HIGH_SCALE_SSD（ゾーン）容量が必要です。
- A3 High: 最小 2.5 TiB（2,560 GiB）の BASIC_SSD（標準）容量が必要です。
割り当てを確認または割り当ての増加をリクエストするには、以下をご覧ください。
- プロジェクトの割り当てを確認するには、 API 固有の割り当てを表示するをご覧ください。
- 割り当てが不足している場合は、割り当ての増加をリクエストします。
信頼できるイメージのポリシーを確認する: プロジェクトが存在する組織に信頼できるイメージのポリシー（constraints/compute.trustedImageProjects）がある場合は、許可されたプロジェクトのリストにclusterdirector-public-imagesプロジェクトが含まれていることを確認します。詳細については、信頼できるイメージのポリシーの設定をご覧ください。

必要なロール

Slurm クラスタを作成するには、次の IAM ロールと権限が必要です。

このクイックスタートを完了するために必要な権限を取得するには、プロジェクトに対する次の IAM ロールを付与するよう管理者に依頼してください。
- クラスタを作成して管理する: Cluster Director 編集者（roles/hypercomputecluster.editor）
- クラスタ内の VM を作成して管理する: Compute インスタンス管理者（v1）（roles/compute.instanceAdmin.v1）
- クラスタ内のログインノードに接続する:
  - Compute OS Login （roles/compute.osLogin）
  - IAP で保護されたトンネルユーザー（roles/iap.tunnelResourceAccessor）
ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
このクイックスタートを完了するために必要な権限を取得するには、Compute Engine のデフォルトサービスアカウントに次の IAM ロールを付与するよう管理者に依頼してください。
- クラスタを作成する: サービスアカウントユーザー（roles/iam.serviceAccountUser）
- クラスタ内のリソースを管理する:
  - ログ書き込み（roles/logging.logWriter）
  - モニタリング指標の書き込み（roles/monitoring.metricWriter）
  - ストレージオブジェクト閲覧者（roles/storage.objectViewer）

Slurm クラスタを作成する

Cluster Director を使用して AI 最適化クラスタを作成する手順は次のとおりです。

コンピューティングリソース構成を構成する
ネットワークを構成する
ストレージリソースを構成する
Slurm 環境を構成する

コンピューティングリソース構成を構成する

クラスタの作成時にコンピューティングリソース構成を構成する手順は次のとおりです。

コンソールで、[Cluster Director] ページに移動します。 Google Cloud

Cluster Director に移動
[ Create cluster] をクリックします。
表示されるダイアログで [リファレンスアーキテクチャ] をクリックします。[クラスタの作成] ページが開きます。
利用可能なテンプレートのいずれかをクリックします。必要に応じて、ワークロードのニーズに合わせてテンプレートを編集できます。
[カスタマイズ] をクリックします。
[コンピューティング] セクションの [クラスタ名] フィールドに、クラスタの名前を入力します。名前は 10 文字以内で、数字または小文字（a-z）のみを使用できます。
事前構成されたコンピューティングリソース構成に情報を追加する、または構成で指定されたコンピューティングインスタンスの数とタイプを編集する手順は次のとおりです。
1. [コンピューティング] セクションで、 [リソース構成を編集] をクリックします。[リソース構成を追加] ペインが表示されます。
2. 省略可: コンピューティングリソース構成の名前を変更するには、[名前] フィールドに新しい名前を入力します。
3. 省略可: クラスタで使用するコンピューティングインスタンスの数とタイプを変更するには、[マシン構成] セクションで、プロンプトに沿ってコンピューティングリソースを更新します。
4. [使用オプション] セクションで、リソースの取得に使用する使用オプションを指定します。
  - 予約を使用してコンピューティングインスタンスを作成する手順は次のとおりです。
    1. [予約を使用] タブをクリックします。
    2. [予約を選択] をクリックします。[予約を選択] ペインが表示されます。A4X VM の予約を使用する場合は、必要に応じてブロックまたはサブブロックを選択して VM の配置を制御できます。
    3. 使用する予約を選択します。[選択] をクリックします。この操作により、コンピューティングリソースのリージョン とゾーン が自動的に設定されます。
  - Flex Start VM を作成する手順は次のとおりです。
    1. [Flex Start] タブをクリックします。
    2. [VM の時間制限] セクションで、コンピューティングインスタンスの実行時間を指定します。値は 10 分～ 7 日の範囲で指定してください。
    3. [ロケーション] セクションで、Flex Start VM を作成するリージョンを選択します。選択したマシンタイプの Flex Start VM をサポートするリージョンのみが表示されるように、使用可能なリージョンが自動的にフィルタされます。Google Cloud
  - Spot VM を作成する手順は次のとおりです。
    1. [スポットを使用] タブをクリックします。
    2. [VM の終了時] リストで、次のいずれかのオプションを選択します。
      - プリエンプション時に Spot VM を削除するには、[削除] を選択します。
      - プリエンプション時に Spot VM を停止するには、[停止] を選択します。
    3. [ロケーション] セクションで、Spot VM を作成するリージョン とゾーン を選択します。選択したマシンタイプの Spot VM をサポートするリージョンのみが表示されるように、使用可能なリージョンが Google Cloud 自動的にフィルタされます。
5. [完了] をクリックします。
6. 省略可: パーティションのコンピューティングリソース構成を追加するには、 [リソース構成を追加] をクリックし、プロンプトに沿ってコンピューティングリソースを指定します。
[続行] をクリックします。

ネットワークを構成する

クラスタで使用するネットワークを構成する手順は次のとおりです。

[Virtual Private Cloud（VPC）ネットワークを選択] セクションで、次のいずれかを行います。
- 推奨: AI Hypercomputer でクラスタの事前構成済み VPC ネットワークを自動的に作成するには、次の操作を行います。
  1. [新しい VPC ネットワークを作成] を選択します。
  2. [ネットワーク名] フィールドに、VPC ネットワークの名前を入力します。
- 既存の VPC または共有 VPC ネットワークを使用する手順は次のとおりです。
  1. [現在のプロジェクトの VPC ネットワークを使用する] または [別のプロジェクトでホストされている共有 VPC ネットワークを使用] を選択します。
  2. [VPC ネットワークを選択] または [共有 VPC ネットワーク] リストで、必要な構成を満たす VPC または共有 VPC ネットワークを選択します。
  3. [サブネットワークを選択] リストで、既存のサブネットワークを選択します。
[続行] をクリックします。

ストレージリソースを構成する

Cluster Director テンプレートからクラスタを作成すると、Cluster Director は、クラスタのストレージリソースとして Filestore インスタンスまたは Managed Lustre インスタンスを自動的に構成します。

必要に応じて、クラスタで使用するストレージリソースを追加または編集するには、[ストレージ] セクションで次の操作を行います。構成できるストレージサービスの詳細については、 Cluster Director でサポートされているストレージサービスをご覧ください。

省略可: ストレージリソースを編集するには、 [**ストレージプランを編集**] をクリックし、プロンプトに沿ってストレージリソースの構成を更新します。
省略可: ストレージリソースをクラスタに追加するには、 [Add storage configuration]をクリックし、プロンプトに沿ってストレージリソースの構成を指定します。

構成できる使用可能なストレージサービスについては、 Cluster Director でサポートされているストレージサービスをご覧ください。
[続行] をクリックします。

Slurm 環境を構成する

クラスタで Slurm 環境を構成する手順は次のとおりです。

省略可: ログインノードで使用するコンピューティングインスタンスの数とタイプを編集するには、[ログインノード] セクションを開き、プロンプトに沿ってコンピューティングリソースを更新します。
省略可: コンピューティングリソースを整理するためにクラスタのパーティションを編集するには、[パーティション] セクションを開き、次のいずれかを行います。
- パーティションを追加するには、[パーティションを追加] をクリックして、次の操作を行います。
  1. [パーティション名] フィールドに、パーティションの名前を入力します。
  2. ノードセットを編集するには、[ノードセットを切り替える] をクリックします。ノードセットを追加するには、[ノードセットを追加] をクリックします。
  3. [ノードセット名] フィールドに、ノードセットの名前を入力します。
  4. [リソース構成] フィールドで、前の手順で作成したコンピューティングリソース構成を選択します。
  5. [ソースイメージ] リストで、AI Hypercomputer でサポートされている OS イメージのいずれかを選択します。
  6. [静的ノード数] フィールドに、クラスタで常に実行する必要があるコンピューティングインスタンスの最小数を入力します。
  7. [動的ノード数] フィールドに、トラフィックの増加時に AI Hypercomputer がクラスタを増やすことができるコンピューティングインスタンスの最大数を入力します。
    
    重要: 予約（特に共有予約）を使用してノードセットにコンピューティングインスタンスを作成する場合は、指定した最大数のコンピューティングインスタンスを作成するのに十分なリソースが予約にあることを確認してください。同じ予約を使用する他のワークロードが予約を完全に消費する可能性があるため、AI Hypercomputer がノードセットに追加のコンピューティングインスタンスを作成できない場合があります。
  8. [ブートディスクの種類] リストと [ブートディスクサイズ] フィールドに、コンピューティングインスタンスで使用するブートディスクの種類とサイズを入力します。
  9. [完了] をクリックします。
- パーティションを削除するには、 [Delete partition] をクリックします。
省略可: プロローグスクリプトまたはエピローグスクリプトを Slurm 環境に追加する手順は次のとおりです。
1. [高度なオーケストレーション設定] セクションを開きます。
2. [スクリプト] セクションで、プロンプトに沿ってスクリプトを追加します。
[作成] をクリックします。[クラスタ] ページが表示されます。クラスタの作成が完了するまでに時間がかかることがあります。完了時間は、リクエストしたコンピューティングインスタンスの数と、コンピューティングインスタンスのゾーンのリソースの可用性によって異なります。リクエストしたリソースが使用できない場合、リソースが使用可能になるまで AI Hypercomputer は作成リクエストを維持します。クラスタ作成オペレーションのステータスを表示するには、クラスタの詳細を表示します。

Slurm クラスタに接続する

AI Hypercomputer がログインノードを作成すると、クラスタの状態が [準備完了] に変わります。クラスタに接続できますが、ワークロードを実行できるのは、AI Hypercomputer がクラスタにコンピューティングノードを作成した後のみです。

コンソールを使用して SSH でクラスタのログインノードに接続する手順は次のとおりです。Google Cloud

コンソールで、[クラスタ] ページに移動します。 Google Cloud

[クラスタ] に移動
[クラスタ] テーブルの [名前] 列で、前のセクションで作成したクラスタの名前をクリックします。クラスタの詳細を示すページが表示され、[詳細] タブが選択されています。
[ノード] タブをクリックします。
[ログインノード] セクションの [接続] 列で、クラスタのログインノード（名前は CLUSTER_NAME-login-001）を見つけます。
ログインノードの [接続] 列で、[SSH] ボタンをクリックします。 [ブラウザでの SSH] ウィンドウが開きます。
プロンプトが表示されたら、[承認] をクリックします。ノードへの接続が完了するまでに 1 分ほどかかることがあります。

**注:** ノードへの接続時にエラーが発生した場合は、 SSH エラーのトラブルシューティングをご覧ください。

Slurm クラスタの正常性を確認する

コンピューティングノードでジョブを実行する前に、Slurm はノードで簡単な GPU ヘルスチェックを自動的に実行します。ノードがチェックに失敗すると、Slurm はノードをドレインし、新しいジョブのスケジュール設定を阻止します。

クラスタパーティション内のコンピューティングノード全体で GPU の正常性とネットワーク帯域幅をより徹底的にテストするには、 NVIDIA Collective Communications Library（NCCL）テストを手動で実行します。 NCCL テストで異常なノードが特定された場合は、ノードを修復するか、クラスタを変更できます。NCCL テストは、重要なワークロードを実行する前にクラスタの正常性を確認するのに役立ちます。詳細については、クラスタの正常性を確認するをご覧ください。

Slurm クラスタの削除

プロジェクトで Slurm クラスタを削除するには、次のいずれかのオプションを選択します。

コンソールで、[クラスタ] ページに移動します。 Google Cloud

[クラスタ] に移動
[クラスタ] テーブルの [名前] 列で、削除するクラスタの名前をクリックします。クラスタの詳細を示すページが表示され、[詳細] タブが選択されています。
[ Delete] をクリックします。
表示されるダイアログで、クラスタの名前を入力し、[削除] をクリックして確定します。[クラスタ] ページが表示されます。クラスタの削除が完了するまでに時間がかかることがあります。