AI ワークロード用のフルマネージド Slurm クラスタを作成する

このドキュメントでは、A4X、A4、A3 Ultra、A3 Mega、A3 High マシンタイプを使用するフルマネージド Slurm クラスタを構成してデプロイする方法について説明します。これらのアクセラレータ最適化マシンタイプの詳細については、GPU マシンタイプをご覧ください。

このドキュメントの手順では、Cluster Director を使用して Slurm クラスタを作成する方法について説明します。Cluster Director は、Slurm クラスタの設定と構成を自動化する Google Cloudプロダクトです。これは、クラスタの管理オーバーヘッドを回避してワークロードの実行に集中したい IT 管理者と AI 研究者を対象としています。クラスタのデプロイと管理をより詳細に制御する場合は、Cluster Toolkit を使用してクラスタを作成します。

制限事項

クラスタ内の Compute Engine インスタンスで使用されるマシンタイプに応じて、次の制限が適用されます。

A4X

  • このマシンタイプを使用するインスタンスは、継続利用割引フレキシブル確約利用割引の対象外となります。
  • インスタンスは、特定のリージョンとゾーンでのみ作成できます。
  • Persistent Disk(リージョンまたはゾーン)は使用できません。Google Cloud Hyperdisk のみを使用できます。
  • このマシンタイプは、NVIDIA Grace プラットフォームでのみ使用できます。
  • A4X では、マシンタイプの変更はサポートされていません。このマシンタイプに切り替えるか、このマシンタイプから切り替えるには、新しいインスタンスを作成する必要があります。
  • このマシンタイプでは Windows オペレーティング システムを実行できません。サポートされている Linux オペレーティング システムの一覧については、GPU インスタンスでサポートされているオペレーティング システムをご覧ください。
  • A4X インスタンスで ethtool -S を使用して GPU ネットワーキングをモニタリングすると、_phy で終わる物理ポート カウンタが更新されません。これは、MRDMA 仮想関数(VF)アーキテクチャを使用するインスタンスの想定される動作です。詳細については、MRDMA 関数とネットワーク モニタリング ツールをご覧ください。
  • A4X インスタンスは、以下をサポートしていません。
  • 2026 年 2 月 4 日より前に作成された Hyperdisk ML ディスクを A4X マシンタイプにアタッチすることはできません。

A4

  • A4 マシンタイプを使用するインスタンスは、継続利用割引フレキシブル確約利用割引の対象外となります。
  • A4 マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
  • Persistent Disk(リージョンまたはゾーン)は使用できません。Google Cloud Hyperdisk のみを使用できます。
  • A4 マシンタイプは、Emerald Rapids CPU プラットフォームでのみ使用できます。
  • インスタンスのマシンタイプを A4 マシンタイプに変更することはできません。このマシンタイプで新しいインスタンスを作成する必要があります。
  • A4 マシンタイプは、単一テナンシーをサポートしません。
  • A4 マシンタイプでは Windows オペレーティング システムを実行できません。
  • A4 インスタンスで ethtool -S を使用して GPU ネットワーキングをモニタリングすると、_phy で終わる物理ポート カウンタが更新されません。これは、MRDMA 仮想関数(VF)アーキテクチャを使用するインスタンスの想定される動作です。詳細については、MRDMA 関数とネットワーク モニタリング ツールをご覧ください。
  • 2026 年 2 月 4 日より前に作成された Hyperdisk ML ディスクを A4 マシンタイプにアタッチすることはできません。

A3 Ultra

  • A3 Ultra マシンタイプを使用するインスタンスは、継続利用割引フレキシブル確約利用割引の対象外となります。
  • A3 Ultra マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
  • Persistent Disk(リージョンまたはゾーン)は使用できません。Google Cloud Hyperdisk のみを使用できます。
  • A3 Ultra マシンタイプは、Emerald Rapids CPU プラットフォームでのみ使用できます。
  • A3 Ultra マシンタイプでは、マシンタイプの変更はサポートされていません。このマシンタイプに切り替えるか、このマシンタイプから切り替えるには、新しいインスタンスを作成する必要があります。
  • A3 Ultra マシンタイプでは Windows オペレーティング システムを実行できません。
  • A3 Ultra マシンタイプは、単一テナンシーをサポートしません。
  • A3 Ultra インスタンスで ethtool -S を使用して GPU ネットワーキングをモニタリングすると、_phy で終わる物理ポート カウンタが更新されません。これは、MRDMA 仮想関数(VF)アーキテクチャを使用するインスタンスの想定される動作です。詳細については、MRDMA 関数とネットワーク モニタリング ツールをご覧ください。

A3 Mega

  • A3 Mega マシンタイプを使用するインスタンスは、継続利用割引フレキシブル確約利用割引の対象外となります。
  • A3 Mega マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
  • A3 Mega マシンタイプを使用するインスタンスでは、リージョン Persistent Disk を使用できません。
  • A3 Mega マシンタイプは、Sapphire Rapids CPU プラットフォームでのみ使用できます。
  • A3 Mega マシンタイプでは、マシンタイプの変更はサポートされていません。このマシンタイプに切り替えるか、このマシンタイプから切り替えるには、新しいインスタンスを作成する必要があります。
  • A3 Mega マシンタイプでは Windows オペレーティング システムを実行できません。

A3 High

  • A3 High マシンタイプを使用するインスタンスは、継続利用割引フレキシブル確約利用割引の対象外となります。
  • A3 High マシンタイプは、特定のリージョンとゾーンでのみ使用できます。
  • A3 High マシンタイプを使用するインスタンスでは、リージョン Persistent Disk を使用できません。
  • A3 High マシンタイプは、Sapphire Rapids CPU プラットフォームでのみ使用できます。
  • A3 High マシンタイプでは、マシンタイプの変更はサポートされていません。このマシンタイプに切り替えるか、このマシンタイプから切り替えるには、新しいインスタンスを作成する必要があります。
  • A3 High マシンタイプでは Windows オペレーティング システムを実行できません。
  • a3-highgpu-8g のみを使用できます。GPU が 8 個未満の A3 High マシンタイプはサポートされていません。

始める前に

Slurm クラスタを作成する前に、次の手順を完了します(まだ完了していない場合)。

  1. 使用オプションを選択する: 選択した使用オプションによって、GPU リソースの取得方法と使用方法が決まります。詳細については、使用オプションを選択するをご覧ください。
  2. 容量を取得する: 容量を取得するプロセスは、使用オプションごとに異なります。選択した使用オプションの容量を取得するプロセスについては、容量の概要をご覧ください。
  3. 十分な Filestore 容量割り当てがあることを確認する: デプロイする前に、ターゲット リージョンに十分な Filestore 割り当てが必要です。必要な最小容量は、クラスタ内のマシンタイプによって異なります。
    • A4X Max、A4X、A4、A3 Ultra、A3 Mega: 最小 10 TiB(10,240 GiB)の HIGH_SCALE_SSD(ゾーン)容量が必要です。
    • A3 High: 最小 2.5 TiB(2,560 GiB)の BASIC_SSD(標準)容量が必要です。

    割り当てを確認するか、割り当ての増加をリクエストするには、以下をご覧ください。

  4. 信頼できるイメージのポリシーを確認する: プロジェクトが存在する組織に信頼できるイメージのポリシー(constraints/compute.trustedImageProjects)がある場合は、許可されたプロジェクトのリストに clusterdirector-public-images プロジェクトが含まれていることを確認します。詳細については、信頼できるイメージのポリシーの設定をご覧ください。

必要なロール

Slurm クラスタを作成するには、次の IAM ロールと権限が必要です。

Slurm クラスタを作成する

Cluster Director を使用して AI 最適化クラスタを作成する手順は次のとおりです。

  1. コンピューティング リソース構成を構成する

  2. ネットワークを構成する

  3. ストレージ リソースを構成する

  4. Slurm 環境を構成する

コンピューティング リソース構成を構成する

クラスタの作成時にコンピューティング リソース構成を構成する手順は次のとおりです。

  1. Google Cloud コンソールで、[Cluster Director] ページに移動します。

    Cluster Director に移動

  2. [ クラスタを作成] をクリックします。

  3. 表示されたダイアログで、[リファレンス アーキテクチャ] をクリックします。[クラスタの作成] ページが開きます。

  4. 利用可能なテンプレートのいずれかをクリックします。必要に応じて、ワークロードのニーズに合わせてテンプレートを編集できます。

  5. [カスタマイズ] をクリックします。

  6. [コンピューティング] セクションの [クラスタ名] フィールドに、クラスタの名前を入力します。名前には最大 10 文字まで使用でき、数字または小文字(az)のみを使用できます。

  7. 事前構成済みのコンピューティング リソース構成に情報を追加したり、構成で指定されているコンピューティング インスタンスの数とタイプを編集したりするには、次の操作を行います。

    1. [コンピューティング] セクションで、 [リソース構成を編集] をクリックします。[リソース構成を追加] ペインが表示されます。

    2. 省略可: コンピューティング リソース構成の名前を変更するには、[名前] フィールドに新しい名前を入力します。

    3. 省略可: クラスタで使用するコンピューティング インスタンスの数とタイプを変更するには、[マシンの構成] セクションで、プロンプトに沿ってコンピューティング リソースを更新します。

    4. [使用オプション] セクションで、リソースの取得に使用する使用オプションを指定します。

      • 予約を使用してコンピューティング インスタンスを作成するには、次の操作を行います。

        1. [予約を使用] タブをクリックします。

        2. [予約を選択] をクリックします。[予約を選択] ペインが表示されます。A4X VM の予約を使用する場合は、必要に応じてブロックまたはサブブロックを選択して、VM の配置を制御できます。

        3. 使用する予約を選択します。[選択] をクリックします。この操作により、コンピューティング リソースのリージョンゾーンが自動的に設定されます。

      • Flex Start VM を作成するには、次の操作を行います。

        1. [Flex start] タブをクリックします。

        2. [VM のタイムアウト] セクションで、コンピューティング インスタンスの実行時間を指定します。値は 10 分~ 7 日の範囲で指定してください。

        3. [ロケーション] セクションで、Flex Start VM を作成するリージョンを選択します。Google Cloud コンソールは、選択したマシンタイプで Flex Start VM をサポートするリージョンのみが表示されるように、使用可能なリージョンを自動的にフィルタします。

      • Spot VM を作成する手順は次のとおりです。

        1. [スポットを使用] タブをクリックします。

        2. [VM の終了時] リストで、次のいずれかのオプションを選択します。

          • プリエンプション時に Spot VM を削除するには、[削除] を選択します。

          • プリエンプション時に Spot VM を停止するには、[停止] を選択します。

        3. [ロケーション] セクションで、スポット VM を作成するリージョンゾーンを選択します。Google Cloud コンソールでは、選択したマシンタイプの Spot VM をサポートするリージョンのみが表示されるように、使用可能なリージョンが自動的にフィルタされます。

    5. [完了] をクリックします。

    6. 省略可: パーティションに追加のコンピューティング リソース構成を作成するには、 [リソース構成を追加] をクリックし、プロンプトに沿ってコンピューティング リソースを指定します。

  8. [続行] をクリックします。

ネットワークの構成

クラスタが使用するネットワークを構成する手順は次のとおりです。

  1. [Virtual Private Cloud(VPC)ネットワークを選択] セクションで、次のいずれかを行います。

    • 推奨: AI Hypercomputer でクラスタ用に事前構成された VPC ネットワークを自動的に作成するには、次の操作を行います。

      1. [新しい VPC ネットワークを作成する] を選択します。

      2. [ネットワーク名] フィールドに、VPC ネットワークの名前を入力します。

    • 既存の VPC ネットワークまたは共有 VPC ネットワークを使用するには、次の操作を行います。

      1. 現在のプロジェクトの VPC ネットワークを使用する または 別のプロジェクトでホストされている共有 VPC ネットワークを使用する を選択します。

      2. [VPC ネットワークを選択] または [共有 VPC ネットワーク] リストで、必要な構成を満たす VPC または共有 VPC ネットワークを選択します。

      3. [サブネットワークの選択] リストで、既存のサブネットワークを選択します。

  2. [続行] をクリックします。

ストレージ リソースを構成する

クラスタで使用するストレージ リソースを構成するには、[ストレージ] セクションで次の操作を行います。

  1. 省略可: ストレージ リソースを編集するには、[ ストレージ プランを編集] をクリックし、プロンプトに沿ってストレージ リソースの構成を更新します。

  2. 省略可: クラスタにストレージ リソースを追加するには、 [ストレージ構成を追加] をクリックし、プロンプトに沿ってストレージ リソースの構成を指定します。

  3. [続行] をクリックします。

Slurm 環境を構成する

クラスタで Slurm 環境を構成する手順は次のとおりです。

  1. 省略可: ログインノードが使用するコンピューティング インスタンスの数とタイプを編集するには、[ログインノード] セクションを開き、プロンプトに沿ってコンピューティング リソースを更新します。

  2. 省略可: クラスタのパーティションを編集してコンピューティング リソースを整理するには、[パーティション] セクションを開き、次のいずれかの操作を行います。

    • パーティションを追加するには、[パーティションを追加] をクリックして、次の操作を行います。

      1. [パーティション名] フィールドに、パーティションの名前を入力します。

      2. ノードセットを編集するには、[ノードセットを切り替える] をクリックします。それ以外の場合は、ノードセットを追加するには、[ノードセットを追加] をクリックします。

      3. [ノードセット名] フィールドに、ノードセットの名前を入力します。

      4. [リソース構成] フィールドで、前の手順で作成したコンピューティング リソース構成を選択します。

      5. [ソースイメージ] リストで、AI Hypercomputer でサポートされている OS イメージのいずれかを選択します。

      6. [静的ノード数] フィールドに、クラスタで常に実行されている必要があるコンピューティング インスタンスの最小数を入力します。

      7. [動的ノード数] フィールドに、トラフィックの増加時に AI Hypercomputer がクラスタを増やすことができるコンピューティング インスタンスの最大数を入力します。

      8. [ブートディスクの種類] リストと [ブートディスク サイズ] フィールドに、コンピューティング インスタンスで使用するブートディスクの種類とサイズを入力します。

      9. [完了] をクリックします。

    • パーティションを削除するには、 [パーティションを削除] をクリックします。

  3. 省略可: プロローグ スクリプトまたはエピローグ スクリプトを Slurm 環境に追加するには、次の操作を行います。

    1. [高度なオーケストレーションの設定] セクションを開きます。

    2. [スクリプト] セクションで、プロンプトに沿ってスクリプトを追加します。

  4. [作成] をクリックします。[クラスタ] ページが表示されます。クラスタの作成には時間がかかることがあります。完了時間は、リクエストしたコンピューティング インスタンスの数と、コンピューティング インスタンスのゾーンのリソースの可用性によって異なります。リクエストされたリソースが使用できない場合、AI Hypercomputer はリソースが使用可能になるまで作成リクエストを維持します。クラスタ作成オペレーションのステータスを表示するには、クラスタの詳細を表示します。

Slurm クラスタに接続する

AI Hypercomputer がログインノードを作成すると、クラスタの状態が [Ready] に変わります。クラスタに接続できますが、ワークロードを実行できるのは、AI Hypercomputer がクラスタにコンピューティング ノードを作成した後のみです。

Google Cloud コンソールを使用して SSH 経由でクラスタのログインノードに接続するには、次の操作を行います。

  1. Google Cloud コンソールで、[クラスタ] ページに移動します。

    [クラスタ] に移動

  2. [クラスタ] テーブルの [名前] 列で、前のセクションで作成したクラスタの名前をクリックします。クラスタの詳細を示すページが表示され、[詳細] タブが選択されています。

  3. [ノード] タブをクリックします。

  4. [ログインノード] セクションの [接続] 列で、クラスタのログインノード(名前は CLUSTER_NAME-login-001)を見つけます。

  5. ログインノードの [接続] 列で、[SSH] ボタンをクリックします。[ブラウザでの SSH] ウィンドウが開きます。

  6. プロンプトが表示されたら、[承認] をクリックします。ノードへの接続が完了するまでに 1 分ほどかかることがあります。

Slurm クラスタの健全性を確認する

コンピューティング ノードでジョブを実行する前に、Slurm はノードで GPU の簡単なヘルスチェックを自動的に実行します。ノードがチェックに失敗すると、Slurm はノードをドレインし、新しいジョブがスケジュールされないようにします。

クラスタ パーティションのコンピューティング ノード全体で GPU の健全性とネットワーク帯域幅をより徹底的にテストするには、NVIDIA Collective Communications Library(NCCL)テストを手動で実行します。NCCL テストで異常なノードが特定された場合は、ノードを修復するか、クラスタを変更できます。NCCL テストは、重要なワークロードを実行する前にクラスタの健全性を確認するのに役立ちます。詳細については、クラスタの健全性を確認するをご覧ください。

Slurm クラスタの削除

プロジェクト内の Slurm クラスタを削除するには、次のいずれかのオプションを選択します。

  1. Google Cloud コンソールで、[クラスタ] ページに移動します。

    [クラスタ] に移動

  2. [クラスタ] テーブルの [名前] 列で、削除するクラスタの名前をクリックします。クラスタの詳細を示すページが表示され、[詳細] タブが選択されています。

  3. [削除] をクリックします。

  4. 表示されたダイアログで、クラスタの名前を入力し、[削除] をクリックして確定します。[クラスタ] ページが表示されます。クラスタの削除が完了するまでに時間がかかることがあります。

次のステップ