部署選項總覽

如要執行人工智慧 (AI)、機器學習 (ML) 或高效能運算 (HPC) 工作負載,您可以部署 AI 最佳化 VM,以及 A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機器的叢集。如要進一步瞭解這些機器的功能,如何協助您執行大規模 AI/機器學習叢集,請參閱叢集管理總覽

您可以直接從 Compute Engine,或透過在 Compute Engine 執行個體上執行的其他服務 (例如 Cluster Toolkit 或 Google Kubernetes Engine),建立 A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) VM。

如要為您的用途建立最合適的 VM 或叢集,請選擇下列其中一個選項:

選項 用途
Cluster Director 您需要全代管服務,自動設定及配置 Slurm 叢集。Cluster Director 可協助您設定叢集的運算、網路和儲存空間資源,盡可能提升效能並減少停機時間。詳情請參閱「依據範本建立 AI 適用叢集」。
Cluster Toolkit

您想使用開放原始碼軟體,簡化部署 Slurm 和 GKE 叢集的程序。Cluster Toolkit 的設計宗旨是提供高度自訂和擴充功能。詳情請參閱下列資源:

GKE 您希望根據工作負載需求,盡可能彈性地設定 Google Kubernetes Engine 叢集。詳情請參閱建立自訂 AI 最佳化 Google Kubernetes Engine 叢集
使用 Compute Engine

您想全面掌控基礎架構層,以便設定自己的協調器。詳情請參閱下列資源: