運算資源

如要使用 Vertex AI 訓練叢集,請與業務代表聯絡以取得存取權。

Vertex AI 訓練叢集支援各種機器類型,可因應不同的工作負載。設定叢集節點集區時,您可以選擇下列選項:

  • a4-highgpu-8g
  • a4x-highgpu-4g
  • a3-ultragpu-8g
  • a3-megagpu-8g
  • n2 CPU 系列

A4X 機型

Vertex AI 訓練叢集支援 A4X 加速器最佳化機型 (a4x-highgpu-4g),這是以 NVIDIA GB200 NVL72 機架規模架構為基礎的百億級平台。

架構比較

下表列出 A4X 系列和其他加速器最佳化系列之間的基本硬體差異。

功能 A4X (a4x-highgpu-4g) A3 / A4H
CPU 架構 ARM X86
GPU 數量 每個節點 4 個 GPU 每個節點 8 個 GPU
預訂類型 所有容量模式 受管理模式
配置方式政策 嚴格 (精簡) 彈性

A4X 專屬規範

  • A4X 節點集區的 VM 數量必須是 18 的倍數 (例如 18、36、54)。這是必要步驟,因為 A4X 容量是以固定且無法共用的 18 節點區塊 (稱為 NVLink 網域) 佈建。這些網域受到嚴格的密集配置政策約束,任何部分分配的區塊都無法供其他叢集使用。
  • 由於 A4X 節點採用 ARM 架構,您必須對訓練工作負載進行兩項重大變更:
    • 使用與 ARM 相容的映像檔:所有訓練工作都必須使用為 ARM 架構建構的容器映像檔。
    • 調整為 4 個 GPU:您必須更新分散式訓練邏輯,才能正確辨識及使用每個 A4X 節點上的 4 個 GPU。
  • 主機故障回報程序和停機時間 回報主機故障時,請注意下列復原程序:
    • 沒有待命容量:系統不會使用待命備用集區,即時更換節點。
    • 以修復為基礎的復原:節點會維持無法使用的狀態,直到基礎實體主機修復為止。
    • 延長停機時間:這項維修程序通常需要 3 到 14 天。

容量佈建

選擇合適的佈建模式,對於平衡成本、速度和資源可用性至關重要。請參閱下列佈建選項:

  • RESERVATION:從您預先建立的特定 Compute Engine 預留項目分配節點。這個模型可確保容量,建議用於需求量高的資源。

  • FLEX_START:使用 Dynamic Workload Scheduler 將工作加入佇列。只要要求的運算資源可用,工作就會自動開始,提供彈性的開始時間,無須預訂。

  • SPOT:使用 Spot VM 佈建節點集區。這是最經濟實惠的選項,但僅適用於容錯且能處理中斷的工作負載,因為 VM 可能隨時遭到先占。

  • ON_DEMAND:這是僅含 CPU 的節點集區預設選項,最適合不稀少的機器類型。提供標準 VM 執行個體,並採用可預測的即付即用計價模式。

請參考以下指引進行選取:

  • 對於需求量高的 GPU 資源 (例如 A3 和 A4):強烈建議使用 RESERVATION 模型。確保您能專門存取執行重要訓練工作所需的運算資源。

  • 如為爆量或彈性工作負載:請考慮使用 FLEX_STARTSPOTFLEX_START 會將工作排入佇列,直到資源可用為止,而 SPOT 則可大幅節省容錯工作的成本,這類工作可處理搶占作業。

  • 如要使用大量機器類型,建議選擇 ON_DEMAND 模型。適用於資源不稀少,且不擔心無法立即使用的機器類型。

使用共用預留項目 (選用)

如要使用共用預留項目 (而非本機預留項目),請先完成額外步驟,再建立叢集。

如要透過 Vertex AI 訓練叢集使用共用預留項目,請先手動建立使用共用預留項目的 VM,確認共用預留項目可正常運作。如果 VM 建立作業成功,請繼續下一個步驟。 在叢集建立設定中,使用下列格式的預訂名稱: projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME

後續步驟

選取訓練叢集的運算和佈建選項後,即可建立叢集並在其中執行工作負載。

  • 建立 Compute Engine 預留項目:RESERVATION 模型用於分配 GPU 等高需求資源。瞭解如何在 Compute Engine 中建立新的預留項目,取得所需資源的專屬存取權。
  • 建立訓練叢集:按照逐步指南操作,使用 Vertex AI API 或 gcloud 建立第一個永久訓練叢集,並套用您學到的設定。
  • 將訓練工作提交至叢集:叢集啟用後,下一步就是執行工作負載。提交以持續性叢集為目標的 CustomJob,以便執行。
  • 調整程式碼以進行分散式訓練:如要充分運用多節點叢集,請調整訓練程式碼以適應分散式環境。