コンピューティング リソース

Gemini Enterprise Agent Platform トレーニング クラスタに関心をお持ちの場合は、営業担当者にお問い合わせください。

Gemini Enterprise Agent Platform トレーニング クラスタは、さまざまなワークロードに対応するために、さまざまなマシンタイプをサポートしています。クラスタ ノードプールを構成するときに、次のオプションから選択できます。

  • a4-highgpu-8g
  • a4x-highgpu-4g
  • a3-ultragpu-8g
  • a3-megagpu-8g
  • n2 CPU ファミリー

A4X マシンタイプ

Gemini Enterprise Agent Platform トレーニング クラスタは、NVIDIA GB200 NVL72 ラックスケール アーキテクチャに基づくエクサスケール プラットフォームである A4X アクセラレータ最適化マシンタイプ(a4x-highgpu-4g)をサポートしています。

アーキテクチャの比較

次の表に、A4X ファミリーと他のアクセラレータ最適化ファミリーの基本的なハードウェアの違いを示します。

機能 A4X(a4x-highgpu-4g) A3 / A4H
CPU アーキテクチャ ARM X86
GPU 数 ノードあたり 4 GPU ノードあたり 8 個の GPU
予約タイプ All Capacity モード 管理モード
プレースメント ポリシー 厳格(コンパクト) フレキシブル

A4X 固有のガイドライン

  • A4X ノードプールの VM 数は 18 の倍数(18、36、54 など)にする必要があります。これは、A4X 容量が NVLink ドメインと呼ばれる固定の共有不可の 18 ノード ブロックでプロビジョニングされるためです。これらのドメインは厳密なコンパクト プレースメント ポリシーによってバインドされており、部分的に割り当てられたブロックを他のクラスタで使用することはできません。
  • A4X ノードの ARM ベースのアーキテクチャにより、トレーニング ワークロードに 2 つの重要な変更を加える必要があります。
    • ARM 互換イメージを使用する: すべてのトレーニング ジョブで、ARM アーキテクチャ用にビルドされたコンテナ イメージを使用する必要があります。
    • 4 個の GPU に対応: 分散トレーニング ロジックを更新して、各 A4X ノードで使用可能な 4 個の GPU を正しく認識して使用する必要があります。
  • ホストの障害報告プロセスとダウンタイム ホストに障害があると報告する場合は、次の復元プロセスに注意してください。
    • スタンバイ容量なし: システムは、インスタント ノードの交換にスタンバイ スペアプールを使用しません。
    • 修復ベースの復元: 基盤となる物理ホストが修復されるまで、ノードは使用できません。
    • ダウンタイムの延長: 通常、この修理プロセスには 3 ~ 14 日かかります。

容量のプロビジョニング

適切なプロビジョニング モデルを選択することは、費用、速度、リソースの可用性のバランスを取るうえで非常に重要です。次のプロビジョニング オプションをご覧ください。

  • RESERVATION: 事前に作成した特定の Compute Engine 予約からノードを割り当てます。このモデルは容量を確保できるため、需要の高いリソースに推奨されます。

  • FLEX_START: Dynamic Workload Scheduler を使用してジョブをキューに登録します。リクエストされたコンピューティング リソースが使用可能になると、ジョブは自動的に開始されます。予約を必要とせずに、柔軟な開始時間を設定できます。

  • SPOT: Spot VM を使用してノードプールをプロビジョニングします。これは最も費用対効果の高いオプションですが、VM は随時プリエンプトされる可能性があるため、フォールト トレラントでサービス中断を処理できるワークロードにのみ使用する必要があります。

  • ON_DEMAND: これは CPU 専用ノードプールのデフォルト オプションであり、数が足りているマシンタイプに最適です。予測可能な従量課金制による標準 VM インスタンスを提供します。

選択する際は、次のガイダンスを参考にしてください。

  • 需要の高い GPU リソース(A3 や A4 など)の場合: RESERVATION モデルを強くおすすめします。これにより、重要なトレーニング ジョブに必要な容量に専用でアクセスできます。

  • バーストまたは柔軟なワークロードの場合: FLEX_START または SPOT を検討してください。FLEX_START は、リソースが使用可能になるまでジョブをキューに登録します。一方、SPOT は、プリエンプションを処理できるフォールト トレラント ジョブのコストを大幅に削減します。

  • 数が十分に足りているマシンタイプの場合: ON_DEMAND モデルが推奨されます。数が足りており、すぐに利用できるマシンタイプにはこのモデルを使用します。

共有予約を使用する(省略可)

ローカル予約ではなく共有予約を使用する場合は、クラスタを作成する前に追加の手順を行う必要があります。

Gemini Enterprise Agent Platform トレーニング クラスタで共有予約を使用する前に、共有予約を使用する VM を手動で作成して、共有予約が機能することを確認してください。この VM の作成が成功した場合は、次のステップに進みます。クラスタ作成の構成で、projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME の形式の予約名を使用します。

次のステップ

トレーニング クラスタのコンピューティング オプションとプロビジョニング オプションを選択したら、クラスタを作成し、クラスタでワークロードを実行できます。