Vertex AI 訓練叢集支援各種機器類型,可因應不同的工作負載。設定叢集節點集區時,您可以選擇下列選項:
- a4-highgpu-8g
- a4x-highgpu-4g
- a3-ultragpu-8g
- a3-megagpu-8g
- n2 CPU 系列
A4X 機型
Vertex AI 訓練叢集支援 A4X 加速器最佳化機型 (a4x-highgpu-4g),這是以 NVIDIA GB200 NVL72 機架規模架構為基礎的百億級平台。
架構比較
下表列出 A4X 系列和其他加速器最佳化系列之間的基本硬體差異。
| 功能 | A4X (a4x-highgpu-4g) | A3 / A4H |
|---|---|---|
| CPU 架構 | ARM | X86 |
| GPU 數量 | 每個節點 4 個 GPU | 每個節點 8 個 GPU |
| 預訂類型 | 所有容量模式 | 受管理模式 |
| 配置方式政策 | 嚴格 (精簡) | 彈性 |
A4X 專屬規範
- A4X 節點集區的 VM 數量必須是 18 的倍數 (例如 18、36、54)。這是必要步驟,因為 A4X 容量是以固定且無法共用的 18 節點區塊 (稱為 NVLink 網域) 佈建。這些網域受到嚴格的密集配置政策約束,任何部分分配的區塊都無法供其他叢集使用。
- 由於 A4X 節點採用 ARM 架構,您必須對訓練工作負載進行兩項重大變更:
- 使用與 ARM 相容的映像檔:所有訓練工作都必須使用為 ARM 架構建構的容器映像檔。
- 調整為 4 個 GPU:您必須更新分散式訓練邏輯,才能正確辨識及使用每個 A4X 節點上的 4 個 GPU。
- 主機故障回報程序和停機時間
回報主機故障時,請注意下列復原程序:
- 沒有待命容量:系統不會使用待命備用集區,即時更換節點。
- 以修復為基礎的復原:節點會維持無法使用的狀態,直到基礎實體主機修復為止。
- 延長停機時間:這項維修程序通常需要 3 到 14 天。
容量佈建
選擇合適的佈建模式,對於平衡成本、速度和資源可用性至關重要。請參閱下列佈建選項:
RESERVATION:從您預先建立的特定 Compute Engine 預留項目分配節點。這個模型可確保容量,建議用於需求量高的資源。FLEX_START:使用 Dynamic Workload Scheduler 將工作加入佇列。只要要求的運算資源可用,工作就會自動開始,提供彈性的開始時間,無須預訂。SPOT:使用 Spot VM 佈建節點集區。這是最經濟實惠的選項,但僅適用於容錯且能處理中斷的工作負載,因為 VM 可能隨時遭到先占。ON_DEMAND:這是僅含 CPU 的節點集區預設選項,最適合不稀少的機器類型。提供標準 VM 執行個體,並採用可預測的即付即用計價模式。
請參考以下指引進行選取:
對於需求量高的 GPU 資源 (例如 A3 和 A4):強烈建議使用
RESERVATION模型。確保您能專門存取執行重要訓練工作所需的運算資源。如為爆量或彈性工作負載:請考慮使用
FLEX_START或SPOT。FLEX_START會將工作排入佇列,直到資源可用為止,而SPOT則可大幅節省容錯工作的成本,這類工作可處理搶占作業。如要使用大量機器類型,建議選擇
ON_DEMAND模型。適用於資源不稀少,且不擔心無法立即使用的機器類型。
使用共用預留項目 (選用)
如要使用共用預留項目 (而非本機預留項目),請先完成額外步驟,再建立叢集。
如要透過 Vertex AI 訓練叢集使用共用預留項目,請先手動建立使用共用預留項目的 VM,確認共用預留項目可正常運作。如果 VM 建立作業成功,請繼續下一個步驟。
在叢集建立設定中,使用下列格式的預訂名稱:
projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME。
後續步驟
選取訓練叢集的運算和佈建選項後,即可建立叢集並在其中執行工作負載。
- 建立 Compute Engine 預留項目:
RESERVATION模型用於分配 GPU 等高需求資源。瞭解如何在 Compute Engine 中建立新的預留項目,取得所需資源的專屬存取權。 - 建立訓練叢集:按照逐步指南操作,使用 Vertex AI API 或
gcloud建立第一個永久訓練叢集,並套用您學到的設定。 - 將訓練工作提交至叢集:叢集啟用後,下一步就是執行工作負載。提交以持續性叢集為目標的
CustomJob,以便執行。 - 調整程式碼以進行分散式訓練:如要充分運用多節點叢集,請調整訓練程式碼以適應分散式環境。