Vertex AI Training クラスタは、さまざまなワークロードに対応するために、さまざまなマシンタイプをサポートしています。クラスタ ノードプールを構成するときに、次のオプションから選択できます。
- a4-highgpu-8g
- a3-ultragpu-8g
- a3-megagpu-8g
- n2 CPU ファミリー
容量のプロビジョニング
適切なプロビジョニング モデルを選択することは、費用、速度、リソースの可用性のバランスを取るうえで非常に重要です。次のプロビジョニング オプションをご覧ください。
RESERVATION: 事前に作成した特定の Compute Engine 予約からノードを割り当てます。このモデルは容量を確保できるため、需要の高いリソースに推奨されます。FLEX_START: Dynamic Workload Scheduler を使用してジョブをキューに登録します。リクエストされたコンピューティング リソースが使用可能になると、ジョブは自動的に開始されます。予約を必要とせずに、柔軟な開始時間を設定できます。SPOT: Spot VM を使用してノードプールをプロビジョニングします。これは最も費用対効果の高いオプションですが、VM は随時プリエンプトされる可能性があるため、フォールト トレラントでサービス中断を処理できるワークロードにのみ使用する必要があります。ON_DEMAND: これは CPU 専用ノードプールのデフォルト オプションであり、数が足りているマシンタイプに最適です。予測可能な従量課金制による標準 VM インスタンスを提供します。
選択する際は、次のガイダンスを参考にしてください。
需要の高い GPU リソース(A3 や A4 など)の場合:
RESERVATIONモデルを強くおすすめします。これにより、重要なトレーニング ジョブに必要な容量に専用でアクセスできます。バーストまたは柔軟なワークロードの場合:
FLEX_STARTまたはSPOTを検討してください。FLEX_STARTは、リソースが使用可能になるまでジョブをキューに登録します。一方、SPOTは、プリエンプションを処理できるフォールト トレラント ジョブのコストを大幅に削減します。数が十分に足りているマシンタイプの場合:
ON_DEMANDモデルが推奨されます。数が足りており、すぐに利用できるマシンタイプにはこのモデルを使用します。
共有予約を使用する(省略可)
ローカル予約ではなく共有予約を使用する場合は、クラスタを作成する前に追加の手順を行う必要があります。
Vertex AI Training クラスタで共有予約を使用する前に、共有予約を使用する VM を手動で作成して、共有予約が機能することを確認してください。この VM の作成が成功した場合は、次のステップに進みます。クラスタ作成の構成で、projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME の形式の予約名を使用します。
次のステップ
トレーニング クラスタのコンピューティング オプションとプロビジョニング オプションを選択したら、クラスタを作成し、クラスタでワークロードを実行できます。
- Compute Engine 予約を作成する:
RESERVATIONモデルは、GPU などの需要の高いリソースの割り当てに使用されます。Compute Engine で新しい予約を作成して必要なリソースへの専用アクセスを取得する方法を学びます。 - トレーニング クラスタを作成する: 学習した構成を手順ガイドに沿って適用し、Vertex AI API または
gcloudを使用して最初の永続トレーニング クラスタを作成します。 - クラスタにトレーニング ジョブを送信する: クラスタがアクティブになったら、次のステップとしてワークロードを実行します。永続クラスタをターゲットとする
CustomJobを送信して実行します。 - コードを分散トレーニング用に調整する: マルチノード クラスタを最大限に活用するには、トレーニング コードを分散環境用に調整します。