AI ワークロード用のフルマネージド Slurm クラスタを作成する

このドキュメントでは、A4X、A4、A3 Ultra、A3 Mega、A3 High マシンタイプを使用するフルマネージド Slurm クラスタを構成してデプロイする方法について説明します。これらのアクセラレータ最適化マシンタイプの詳細については、 GPU マシンタイプをご覧ください。

このドキュメントの手順では、Cluster Director を使用して Slurm クラスタを作成する方法について説明します。 Cluster Director は、 Google Cloud Slurm クラスタの設定と構成を自動化するプロダクトです。クラスタの管理オーバーヘッドを回避し、ワークロードの実行に集中したい IT 管理者と AI 研究者向けに設計されています。クラスタのデプロイと管理をより詳細に制御する場合は、Cluster Toolkit を使用してクラスタを作成します。

制限事項

クラスタ内の Compute Engine インスタンスで使用するマシンタイプに応じて、次の制限が適用されます。

A4X

A4

  • A4 マシンタイプを使用するインスタンスは、継続利用 割引フレキシブル確約利用 割引の対象外となります。
  • A4 マシンタイプは、特定の リージョン とゾーンでのみ使用できます。
  • Persistent Disk(リージョンまたはゾーン)は使用できません。 Google Cloud Hyperdisk のみを使用できます。
  • A4 マシンタイプは、Emerald Rapids CPU プラットフォームでのみ使用できます。
  • インスタンスのマシンタイプを A4 マシンタイプに変更することはできません。また、A4 マシンタイプから変更することもできません。このマシンタイプで 新しいインスタンスを作成する必要があります。
  • A4 マシンタイプは、 単一テナンシーをサポートしません。
  • A4 マシンタイプでは Windows オペレーティング システムを実行できません。
  • A4 インスタンスの場合、ethtool -S を使用して GPU ネットワーキングをモニタリングすると、_phy で終わる物理ポート カウンタは更新されません。これは、MRDMA Virtual Function(VF)アーキテクチャを使用するインスタンスの想定される動作です。 詳細については、 MRDMA 関数とネットワーク モニタリング ツールをご覧ください。
  • 2026 年 2 月 4 日より前に作成された Hyperdisk ML ディスクを A4 マシンタイプに接続することはできません。

A3 Ultra

A3 Mega

  • A3 Mega マシンタイプを使用するインスタンスは、継続利用 割引フレキシブル確約利用 割引の対象外となります。
  • A3 Mega マシンタイプは、特定の リージョン とゾーンでのみ使用できます。
  • A3 Mega マシンタイプを使用するインスタンスでは、リージョン Persistent Disk を使用できません。
  • A3 Mega マシンタイプは、Sapphire Rapids CPU プラットフォームでのみ使用できます。
  • A3 Mega マシンタイプではマシンタイプの変更はサポートされていません。このマシンタイプに切り替える場合、またはこのマシンタイプから切り替える場合は、新しいインスタンスを作成する必要があります。
  • A3 Mega マシンタイプでは Windows オペレーティング システムを実行できません。

A3 High

  • A3 High マシンタイプを使用するインスタンスは、継続 利用割引フレキシブル確約利用 割引の対象外となります。
  • A3 High マシンタイプは、特定のリージョン とゾーンでのみ使用できます。
  • A3 High マシンタイプを使用するインスタンスでは、リージョン Persistent Disk を使用できません。
  • A3 High マシンタイプは、Sapphire Rapids CPU プラットフォームでのみ使用できます。
  • A3 High マシンタイプではマシンタイプの変更はサポートされていません。このマシンタイプに切り替える場合、またはこのマシンタイプから切り替える場合は、新しいインスタンスを作成する必要があります。
  • A3 High マシンタイプでは Windows オペレーティング システムを実行できません。
  • a3-highgpu-8g のみを使用できます。GPU が 8 個未満の A3 High マシンタイプは サポートされていません。

始める前に

Slurm クラスタを作成する前に、次の手順を完了します(まだ完了していない場合)。

  1. 使用オプションを選択する: 選択した使用オプションによって、GPU リソースの取得方法 と使用方法が決まります。詳細については、 使用オプションを選択するをご覧ください。
  2. 容量を取得する: 容量を取得するプロセスは、使用オプションごとに異なります。選択した使用オプションの容量を取得するプロセスについては、容量の概要をご覧ください。
  3. 十分な Filestore 容量割り当てがあることを確認する: デプロイする前に、ターゲット リージョンに十分な Filestore 割り当てが必要です。必要な最小 容量は、クラスタ内のマシンタイプによって異なります:
    • A4X Max、A4X、A4、A3 Ultra、A3 Mega: 最小 10 TiB (10,240 GiB)の HIGH_SCALE_SSD(ゾーン)容量が必要です。
    • A3 High: 最小 2.5 TiB(2,560 GiB)の BASIC_SSD(標準)容量が必要です。

    割り当てを確認する、または割り当ての増加をリクエストするには、以下をご覧ください。

  4. 信頼できるイメージのポリシーを確認する: プロジェクトが存在する組織に信頼できるイメージのポリシー(constraints/compute.trustedImageProjects)がある場合は、許可されたプロジェクトのリストにclusterdirector-public-imagesプロジェクトが含まれていることを確認します。詳細については、 信頼できるイメージのポリシーの設定をご覧ください。

必要なロール

Slurm クラスタを作成するには、次の IAM ロールと権限が必要です。

Slurm クラスタを作成する

Cluster Director を使用して AI 最適化クラスタを作成する手順は次のとおりです。

  1. コンピューティング リソース構成を構成する

  2. ネットワークを構成する

  3. ストレージ リソースを構成する

  4. Slurm 環境を構成する

コンピューティング リソース構成を構成する

クラスタの作成時にコンピューティング リソース構成を構成する手順は次のとおりです。

  1. コンソールで、[Cluster Director] ページに移動します。 Google Cloud

    Cluster Director に移動

  2. [ Create cluster] をクリックします。

  3. 表示されるダイアログで [リファレンス アーキテクチャ] をクリックします。[クラスタの作成] ページが開きます。

  4. 利用可能なテンプレートのいずれかをクリックします。必要に応じて、ワークロードのニーズに合わせてテンプレートを編集できます。

  5. [カスタマイズ] をクリックします。

  6. [コンピューティング] セクションの [クラスタ名] フィールドに、クラスタの名前を入力します。名前は 10 文字以内で、数字または小文字(a-z)のみを使用できます。

  7. 事前構成されたコンピューティング リソース構成に情報を追加する、または構成で指定されたコンピューティング インスタンスの数とタイプを編集する手順は次のとおりです。

    1. [コンピューティング] セクションで、 [リソース構成を編集] をクリックします。[リソース構成を追加] ペインが表示されます。

    2. 省略可: コンピューティング リソース構成の名前を変更するには、[名前] フィールドに新しい名前を入力します。

    3. 省略可: クラスタで使用するコンピューティング インスタンスの数とタイプを変更するには、[マシン構成] セクションで、プロンプトに沿ってコンピューティング リソースを更新します。

    4. [使用オプション] セクションで、リソースの取得に使用する使用オプションを指定します。

      • 予約を使用してコンピューティング インスタンスを作成する手順は次のとおりです。

        1. [予約を使用] タブをクリックします。

        2. [予約を選択] をクリックします。[予約を選択] ペインが表示されます。A4X VM の予約を使用する場合は、必要に応じてブロックまたはサブブロックを選択して VM の配置を制御できます。

        3. 使用する予約を選択します。[選択] をクリックします。この操作により、コンピューティング リソースのリージョンゾーン が自動的に設定されます。

      • Flex Start VM を作成する手順は次のとおりです。

        1. [Flex Start] タブをクリックします。

        2. [VM の時間制限] セクションで、コンピューティング インスタンスの実行時間を指定します。値は 10 分~ 7 日の範囲で指定してください。

        3. [ロケーション] セクションで、Flex Start VM を作成するリージョンを選択します。選択したマシンタイプの Flex Start VM をサポートするリージョンのみが表示されるように、利用可能な リージョンが自動的にフィルタされます。Google Cloud

      • Spot VM を作成する手順は次のとおりです。

        1. [スポットを使用] タブをクリックします。

        2. [VM の終了時] リストで、次のいずれかのオプションを選択します。

          • プリエンプション時に Spot VM を削除するには、[削除] を選択します。

          • プリエンプション時に Spot VM を停止するには、[停止] を選択します。

        3. [ロケーション] セクションで、Spot VM を作成するリージョンゾーン を選択します。選択したマシンタイプの Spot VM をサポートするリージョンのみが表示されるように、利用可能な リージョンが自動的にフィルタされます。Google Cloud

    5. [完了] をクリックします。

    6. 省略可: パーティションのコンピューティング リソース構成を追加するには、 [リソース構成を追加] をクリックし、プロンプトに沿ってコンピューティング リソースを指定します。

  8. [続行] をクリックします。

ネットワークを構成する

クラスタで使用するネットワークを構成する手順は次のとおりです。

  1. [Virtual Private Cloud(VPC)ネットワークを選択] セクションで、次のいずれかを行います。

  2. [続行] をクリックします。

ストレージ リソースを構成する

Cluster Director テンプレートからクラスタを作成すると、Cluster Director は Filestore または Managed Lustre インスタンスをクラスタのストレージ リソースとして自動的に構成します。

必要に応じて、クラスタで使用するストレージ リソースを追加または編集するには、[ストレージ] セクションで次の操作を行います。構成できるストレージ サービスの詳細については、 Cluster Director でサポートされているストレージ サービスをご覧ください。

  1. 省略可: ストレージ リソースを編集するには、 [**ストレージ プランを編集**] をクリックし、 プロンプトに沿ってストレージ リソースの構成を更新します。

  2. 省略可: ストレージ リソースをクラスタに追加するには、 [Add storage configuration]をクリックし、 プロンプトに沿ってストレージ リソースの構成を指定します。

    構成できる利用可能なストレージ サービスについては、 Cluster Director でサポートされているストレージ サービスをご覧ください。

  3. [続行] をクリックします。

Slurm 環境を構成する

クラスタで Slurm 環境を構成する手順は次のとおりです。

  1. 省略可: ログインノードで使用するコンピューティング インスタンスの数とタイプを編集するには、[ログインノード] セクションを開き、プロンプトに沿ってコンピューティング リソースを更新します。

  2. 省略可: コンピューティング リソースを整理するためにクラスタのパーティションを編集するには、[パーティション] セクションを開き、次のいずれかを行います。

    • パーティションを追加するには、[パーティションを追加] をクリックして、次の操作を行います。

      1. [パーティション名] フィールドに、パーティションの名前を入力します。

      2. ノードセットを編集するには、[ノードセットを切り替える] をクリックします。ノードセットを追加するには、[ノードセットを追加] をクリックします。

      3. [ノードセット名] フィールドに、ノードセットの名前を入力します。

      4. [リソース構成] フィールドで、前の手順で作成したコンピューティング リソース構成を選択します。

      5. [ソースイメージ] リストで、AI Hypercomputer で サポートされている OS イメージのいずれかを選択します

      6. [静的ノード数] フィールドに、クラスタ内で常に実行する必要があるコンピューティング インスタンスの最小数を入力します。

      7. [動的ノード数] フィールドに、トラフィックの増加時に AI Hypercomputer がクラスタを増やすことができるコンピューティング インスタンスの最大数を入力します。

      8. [ブートディスクの種類] リストと [ブートディスク サイズ] フィールドに、コンピューティング インスタンスで使用するブートディスクの種類とサイズを入力します。

      9. [完了] をクリックします。

    • パーティションを削除するには、 [Delete partition] をクリックします。

  3. 省略可: プロローグ スクリプトまたはエピローグ スクリプトを Slurm 環境に追加する手順は次のとおりです。

    1. [高度なオーケストレーション設定] セクションを開きます。

    2. [スクリプト] セクションで、プロンプトに沿ってスクリプトを追加します。

  4. [作成] をクリックします。[クラスタ] ページが表示されます。クラスタの作成が完了するまでに時間がかかることがあります。完了時間は、リクエストしたコンピューティング インスタンスの数と、コンピューティング インスタンスのゾーンのリソースの可用性によって異なります。リクエストしたリソースが使用できない場合、リソースが使用可能になるまで AI Hypercomputer は作成リクエストを維持します。クラスタ作成オペレーションのステータスを表示するには、 クラスタの詳細を表示します

Slurm クラスタに接続する

AI Hypercomputer がログインノードを作成すると、クラスタの状態が [準備完了] に変わります。クラスタに接続できますが、ワークロードを実行できるのは、AI Hypercomputer がクラスタにコンピューティング ノードを作成した後のみです。

コンソールを使用して SSH でクラスタのログインノードに接続する手順は次のとおりです。Google Cloud

  1. コンソールで、[クラスタ] ページに移動します。 Google Cloud

    [クラスタ] に移動

  2. [クラスタ] テーブルの [名前] 列で、前のセクションで作成したクラスタの名前をクリックします。クラスタの詳細を示すページが表示され、[詳細] タブが選択されています。

  3. [ノード] タブをクリックします。

  4. [ログインノード] セクションの [接続] 列で、 クラスタのログインノード(名前は CLUSTER_NAME-login-001)を見つけます。

  5. ログインノードの [接続] 列で、[SSH] ボタンをクリックします。 [ブラウザ内 SSH] ウィンドウが開きます。

  6. プロンプトが表示されたら、[承認] をクリックします。ノードへの接続が完了するまでに 1 分ほどかかることがあります。

Slurm クラスタの正常性を確認する

コンピューティング ノードでジョブを実行する前に、Slurm はノードで簡単な GPU ヘルスチェックを自動的に実行します。ノードがチェックに失敗すると、Slurm はノードをドレインし、新しいジョブのスケジュール設定を防止します。

クラスタ パーティション内のコンピューティング ノード全体で GPU ヘルスとネットワーク帯域幅をより徹底的にテストするには、NVIDIA Collective Communications Library(NCCL)テストを手動で実行します。NCCL テストで異常なノードが特定された場合は、ノードを修復するか、クラスタを変更できます。NCCL テストは、重要なワークロードを実行する前にクラスタの正常性を確認するのに役立ちます。詳細については、 クラスタの正常性を確認するをご覧ください。

Slurm クラスタの削除

プロジェクトで Slurm クラスタを削除するには、次のいずれかのオプションを選択します。

  1. コンソールで、[クラスタ] ページに移動します。 Google Cloud

    [クラスタ] に移動

  2. [クラスタ] テーブルの [名前] 列で、削除するクラスタの名前をクリックします。クラスタの詳細を示すページが表示され、[詳細] タブが選択されています。

  3. [ Delete] をクリックします。

  4. 表示されるダイアログで、クラスタの名前を入力し、[削除] をクリックして確定します。[クラスタ] ページが表示されます。クラスタの削除が完了するまでに時間がかかることがあります。

次のステップ