運算資源

如要使用 Vertex AI 訓練叢集，請與業務代表聯絡以取得存取權。

Vertex AI 訓練叢集支援各種機器類型，可因應不同的工作負載。設定叢集節點集區時，您可以選擇下列選項：

a4-highgpu-8g
a4x-highgpu-4g
a3-ultragpu-8g
a3-megagpu-8g
n2 CPU 系列

A4X 機型

Vertex AI 訓練叢集支援 A4X 加速器最佳化機型 (a4x-highgpu-4g)，這是以 NVIDIA GB200 NVL72 機架規模架構為基礎的百億級平台。

架構比較

下表列出 A4X 系列和其他加速器最佳化系列之間的基本硬體差異。

功能	A4X (a4x-highgpu-4g)	A3 / A4H
CPU 架構	ARM	X86
GPU 數量	每個節點 4 個 GPU	每個節點 8 個 GPU
預訂類型	所有容量模式	受管理模式
配置方式政策	嚴格 (精簡)	彈性

A4X 專屬規範

A4X 節點集區的 VM 數量必須是 18 的倍數 (例如 18、36、54)。這是必要步驟，因為 A4X 容量是以固定且無法共用的 18 節點區塊 (稱為 NVLink 網域) 佈建。這些網域受到嚴格的密集配置政策約束，任何部分分配的區塊都無法供其他叢集使用。
由於 A4X 節點採用 ARM 架構，您必須對訓練工作負載進行兩項重大變更：
- 使用與 ARM 相容的映像檔：所有訓練工作都必須使用為 ARM 架構建構的容器映像檔。
- 調整為 4 個 GPU：您必須更新分散式訓練邏輯，才能正確辨識及使用每個 A4X 節點上的 4 個 GPU。
主機故障回報程序和停機時間回報主機故障時，請注意下列復原程序：
- 沒有待命容量：系統不會使用待命備用集區，即時更換節點。
- 以修復為基礎的復原：節點會維持無法使用的狀態，直到基礎實體主機修復為止。
- 延長停機時間：這項維修程序通常需要 3 到 14 天。

容量佈建

選擇合適的佈建模式，對於平衡成本、速度和資源可用性至關重要。請參閱下列佈建選項：

RESERVATION：從您預先建立的特定 Compute Engine 預留項目分配節點。這個模型可確保容量，建議用於需求量高的資源。
FLEX_START：使用 Dynamic Workload Scheduler 將工作加入佇列。只要要求的運算資源可用，工作就會自動開始，提供彈性的開始時間，無須預訂。
SPOT：使用 Spot VM 佈建節點集區。這是最經濟實惠的選項，但僅適用於容錯且能處理中斷的工作負載，因為 VM 可能隨時遭到先占。
ON_DEMAND：這是僅含 CPU 的節點集區預設選項，最適合不稀少的機器類型。提供標準 VM 執行個體，並採用可預測的即付即用計價模式。

請參考以下指引進行選取：

對於需求量高的 GPU 資源 (例如 A3 和 A4)：強烈建議使用 RESERVATION 模型。確保您能專門存取執行重要訓練工作所需的運算資源。
如為爆量或彈性工作負載：請考慮使用 FLEX_START 或 SPOT。 FLEX_START 會將工作排入佇列，直到資源可用為止，而 SPOT 則可大幅節省容錯工作的成本，這類工作可處理搶占作業。
如要使用大量機器類型，建議選擇 ON_DEMAND 模型。適用於資源不稀少，且不擔心無法立即使用的機器類型。

使用共用預留項目 (選用)

如要使用共用預留項目 (而非本機預留項目)，請先完成額外步驟，再建立叢集。

如要透過 Vertex AI 訓練叢集使用共用預留項目，請先手動建立使用共用預留項目的 VM，確認共用預留項目可正常運作。如果 VM 建立作業成功，請繼續下一個步驟。在叢集建立設定中，使用下列格式的預訂名稱： projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME。

後續步驟

選取訓練叢集的運算和佈建選項後，即可建立叢集並在其中執行工作負載。

建立 Compute Engine 預留項目：RESERVATION 模型用於分配 GPU 等高需求資源。瞭解如何在 Compute Engine 中建立新的預留項目，取得所需資源的專屬存取權。
- 瞭解如何建立預訂
建立訓練叢集：按照逐步指南操作，使用 Vertex AI API 或 gcloud 建立第一個永久訓練叢集，並套用您學到的設定。
- 瞭解如何建立訓練叢集
將訓練工作提交至叢集：叢集啟用後，下一步就是執行工作負載。提交以持續性叢集為目標的 CustomJob，以便執行。
- 瞭解如何在訓練叢集上執行工作
調整程式碼以進行分散式訓練：如要充分運用多節點叢集，請調整訓練程式碼以適應分散式環境。
- 瞭解 Vertex AI 的分散式訓練

運算資源 透過集合功能整理內容 你可以依據偏好儲存及分類內容。