Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

コンピューティングリソース

Gemini Enterprise Agent Platform トレーニングクラスタに関心をお持ちの場合は、営業担当者にお問い合わせください。

Gemini Enterprise Agent Platform トレーニングクラスタは、さまざまなワークロードに対応するために、さまざまなマシンタイプをサポートしています。クラスタノードプールを構成するときに、次のオプションから選択できます。

a4-highgpu-8g
a4x-highgpu-4g
a3-ultragpu-8g
a3-megagpu-8g
n2 CPU ファミリー

A4X マシンタイプ

Gemini Enterprise Agent Platform トレーニングクラスタは、NVIDIA GB200 NVL72 ラックスケールアーキテクチャに基づくエクサスケールプラットフォームである A4X アクセラレータ最適化マシンタイプ（a4x-highgpu-4g）をサポートしています。

アーキテクチャの比較

次の表に、A4X ファミリーと他のアクセラレータ最適化ファミリーの基本的なハードウェアの違いを示します。

機能	A4X（a4x-highgpu-4g）	A3 / A4H
CPU アーキテクチャ	ARM	X86
GPU 数	ノードあたり 4 GPU	ノードあたり 8 個の GPU
予約タイプ	All Capacity モード	管理モード
プレースメントポリシー	厳格（コンパクト）	フレキシブル

A4X 固有のガイドライン

A4X ノードプールの VM 数は 18 の倍数（18、36、54 など）にする必要があります。これは、A4X 容量が NVLink ドメインと呼ばれる固定の共有不可の 18 ノードブロックでプロビジョニングされるためです。これらのドメインは厳密なコンパクトプレースメントポリシーによってバインドされており、部分的に割り当てられたブロックを他のクラスタで使用することはできません。
A4X ノードの ARM ベースのアーキテクチャにより、トレーニングワークロードに 2 つの重要な変更を加える必要があります。
- ARM 互換イメージを使用する: すべてのトレーニングジョブで、ARM アーキテクチャ用にビルドされたコンテナイメージを使用する必要があります。
- 4 個の GPU に対応: 分散トレーニングロジックを更新して、各 A4X ノードで使用可能な 4 個の GPU を正しく認識して使用する必要があります。
ホストの障害報告プロセスとダウンタイムホストに障害があると報告する場合は、次の復元プロセスに注意してください。
- スタンバイ容量なし: システムは、インスタントノードの交換にスタンバイスペアプールを使用しません。
- 修復ベースの復元: 基盤となる物理ホストが修復されるまで、ノードは使用できません。
- ダウンタイムの延長: 通常、この修理プロセスには 3 ～ 14 日かかります。

容量のプロビジョニング

適切なプロビジョニングモデルを選択することは、費用、速度、リソースの可用性のバランスを取るうえで非常に重要です。次のプロビジョニングオプションをご覧ください。

RESERVATION: 事前に作成した特定の Compute Engine 予約からノードを割り当てます。このモデルは容量を確保できるため、需要の高いリソースに推奨されます。
FLEX_START: Dynamic Workload Scheduler を使用してジョブをキューに登録します。リクエストされたコンピューティングリソースが使用可能になると、ジョブは自動的に開始されます。予約を必要とせずに、柔軟な開始時間を設定できます。
SPOT: Spot VM を使用してノードプールをプロビジョニングします。これは最も費用対効果の高いオプションですが、VM は随時プリエンプトされる可能性があるため、フォールトトレラントでサービス中断を処理できるワークロードにのみ使用する必要があります。
ON_DEMAND: これは CPU 専用ノードプールのデフォルトオプションであり、数が足りているマシンタイプに最適です。予測可能な従量課金制による標準 VM インスタンスを提供します。

選択する際は、次のガイダンスを参考にしてください。

需要の高い GPU リソース（A3 や A4 など）の場合: RESERVATION モデルを強くおすすめします。これにより、重要なトレーニングジョブに必要な容量に専用でアクセスできます。
バーストまたは柔軟なワークロードの場合: FLEX_START または SPOT を検討してください。FLEX_START は、リソースが使用可能になるまでジョブをキューに登録します。一方、SPOT は、プリエンプションを処理できるフォールトトレラントジョブのコストを大幅に削減します。
数が十分に足りているマシンタイプの場合: ON_DEMAND モデルが推奨されます。数が足りており、すぐに利用できるマシンタイプにはこのモデルを使用します。

共有予約を使用する（省略可）

ローカル予約ではなく共有予約を使用する場合は、クラスタを作成する前に追加の手順を行う必要があります。

Gemini Enterprise Agent Platform トレーニングクラスタで共有予約を使用する前に、共有予約を使用する VM を手動で作成して、共有予約が機能することを確認してください。この VM の作成が成功した場合は、次のステップに進みます。クラスタ作成の構成で、projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME の形式の予約名を使用します。

次のステップ

トレーニングクラスタのコンピューティングオプションとプロビジョニングオプションを選択したら、クラスタを作成し、クラスタでワークロードを実行できます。

Compute Engine 予約を作成する: RESERVATION モデルは、GPU などの需要の高いリソースの割り当てに使用されます。Compute Engine で新しい予約を作成して必要なリソースへの専用アクセスを取得する方法を学びます。
- 予約の作成方法を学ぶ
トレーニングクラスタを作成する: 学習した構成を手順ガイドに沿って適用し、Agent Platform API または gcloud を使用して最初の永続トレーニングクラスタを作成します。
- トレーニングクラスタを作成する方法を学ぶ
クラスタにトレーニングジョブを送信する: クラスタがアクティブになったら、次のステップとしてワークロードを実行します。永続クラスタをターゲットとする CustomJob を送信して実行します。
- トレーニングクラスタでジョブを実行する方法を学ぶ
コードを分散トレーニング用に調整する: マルチノードクラスタを最大限に活用するには、トレーニングコードを分散環境用に調整します。
- Gemini Enterprise Agent Platform での分散トレーニングについて学ぶ

コンピューティング リソース コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。