コンピューティング リソース

Vertex AI Training クラスタに関心をお持ちの場合は、営業担当者にお問い合わせください。

Vertex AI Training クラスタは、さまざまなワークロードに対応するために、さまざまなマシンタイプをサポートしています。クラスタ ノードプールを構成するときに、次のオプションから選択できます。

  • a4-highgpu-8g
  • a3-ultragpu-8g
  • a3-megagpu-8g
  • n2 CPU ファミリー

容量のプロビジョニング

適切なプロビジョニング モデルを選択することは、費用、速度、リソースの可用性のバランスを取るうえで非常に重要です。次のプロビジョニング オプションをご覧ください。

  • RESERVATION: 事前に作成した特定の Compute Engine 予約からノードを割り当てます。このモデルは容量を確保できるため、需要の高いリソースに推奨されます。

  • FLEX_START: Dynamic Workload Scheduler を使用してジョブをキューに登録します。リクエストされたコンピューティング リソースが使用可能になると、ジョブは自動的に開始されます。予約を必要とせずに、柔軟な開始時間を設定できます。

  • SPOT: Spot VM を使用してノードプールをプロビジョニングします。これは最も費用対効果の高いオプションですが、VM は随時プリエンプトされる可能性があるため、フォールト トレラントでサービス中断を処理できるワークロードにのみ使用する必要があります。

  • ON_DEMAND: これは CPU 専用ノードプールのデフォルト オプションであり、数が足りているマシンタイプに最適です。予測可能な従量課金制による標準 VM インスタンスを提供します。

選択する際は、次のガイダンスを参考にしてください。

  • 需要の高い GPU リソース(A3 や A4 など)の場合: RESERVATION モデルを強くおすすめします。これにより、重要なトレーニング ジョブに必要な容量に専用でアクセスできます。

  • バーストまたは柔軟なワークロードの場合: FLEX_START または SPOT を検討してください。FLEX_START は、リソースが使用可能になるまでジョブをキューに登録します。一方、SPOT は、プリエンプションを処理できるフォールト トレラント ジョブのコストを大幅に削減します。

  • 数が十分に足りているマシンタイプの場合: ON_DEMAND モデルが推奨されます。数が足りており、すぐに利用できるマシンタイプにはこのモデルを使用します。

共有予約を使用する(省略可)

ローカル予約ではなく共有予約を使用する場合は、クラスタを作成する前に追加の手順を行う必要があります。

Vertex AI Training クラスタで共有予約を使用する前に、共有予約を使用する VM を手動で作成して、共有予約が機能することを確認してください。この VM の作成が成功した場合は、次のステップに進みます。クラスタ作成の構成で、projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME の形式の予約名を使用します。

次のステップ

トレーニング クラスタのコンピューティング オプションとプロビジョニング オプションを選択したら、クラスタを作成し、クラスタでワークロードを実行できます。

  • Compute Engine 予約を作成する: RESERVATION モデルは、GPU などの需要の高いリソースの割り当てに使用されます。Compute Engine で新しい予約を作成して必要なリソースへの専用アクセスを取得する方法を学びます。
  • トレーニング クラスタを作成する: 学習した構成を手順ガイドに沿って適用し、Vertex AI API または gcloud を使用して最初の永続トレーニング クラスタを作成します。
  • クラスタにトレーニング ジョブを送信する: クラスタがアクティブになったら、次のステップとしてワークロードを実行します。永続クラスタをターゲットとする CustomJob を送信して実行します。
  • コードを分散トレーニング用に調整する: マルチノード クラスタを最大限に活用するには、トレーニング コードを分散環境用に調整します。