本文將摘要說明如何在 AI Hypercomputer 上為 AI 工作負載建立叢集。具體來說,這份文件會引導您完成啟動叢集時的程序和選擇。
事前準備
您必須有要支援的現有工作負載。
您必須熟悉 AI 和 ML 工作負載的常用術語,例如模型訓練和推論。
啟動叢集
啟動叢集需要執行下列步驟:
判斷工作負載並選擇機型
為 AI 工作負載選取機器類型。AI Hypercomputer 支援使用 A4X Max、A4X、A4 和 A3 系列機型建立叢集。請參考下列機器使用建議:
基礎模型訓練和推論:A4X Max 或 A4X
大型模型訓練、微調和推論:A4 或 A3 Ultra
主流模型推論和微調:A3 Mega 或 A3 High (8 個 GPU)
提供推論:A3 Edge
如要進一步瞭解各個機器系列,請參閱「GPU 機器類型」。如要進一步瞭解各機器的建議工作負載,請參閱「建議設定」。
選擇用量方案並取得容量
根據工作負載可用性和所選機器類型,為 GPU 資源選取用量選項。舉例來說,如要使用 A4X Max 或 A4X 機型,請務必使用未來預留項目消耗模式,預留特定日期和時間的容量。以下選項匯總了計費模式:
未來預訂:適用於 A4X Max、A4X、A4 和 A3 Ultra 機器類型,資源分配密集,vCPU 和 GPU 最高可享 53% 折扣。未來預訂項目非常適合需要長期穩定性的工作負載,例如預先訓練基礎模型或多主機基礎模型推論。如要使用這項消耗量選項,請透過帳戶團隊要求容量,並指定未來的開始日期和時間。
日曆模式的未來預留項目:適用於 A4、A3 Ultra、A3 Mega 和 A3 High (僅限 8 個 GPU 的 VM) 機器類型,可密集分配資源,且 vCPU 和 GPU 最高可享 47% 折扣。日曆模式的未來預留項目可協助您預留資源,供執行時間最長 90 天且需要穩定性的工作負載使用,例如預先訓練或微調模型。不過,如要使用這項消耗選項,您必須建立預留要求,在未來日期和時間預留資源,且 Google Cloud 必須核准要求。
彈性啟動:適用於所有 GPU 機型,但 A4X Max 和 A4X 除外。彈性啟動模式可讓您建立最多可使用七天的短期密集叢集,並享有高達 53% 的折扣,適用於 A2 以上機型的 vCPU 和 GPU。您可以直接透過 Compute Engine、Cluster Director、Cluster Toolkit 或 GKE 建立彈性啟動叢集。不過,叢集不會立即提供,Google 會在資源可用時建立叢集。
Spot:適用於所有 GPU 機型,但 A4X Max 和 A4X 除外。 您可以根據可用性立即建立運算資源,但 Compute Engine 隨時可能會搶佔虛擬機器 (VM) 執行個體。Spot VM 的價格是 Compute Engine 提供的最大折扣 (介於 61% 至 90% 之間)。
如要進一步瞭解消耗選項,請參閱「消耗選項比較」。
選擇部署選項
視您對叢集部署作業的控管程度而定,您可以選擇高度受管理或較不受管理的部署作業,以便進一步控管基礎架構。
高度管理
如要讓 Google 部署及設定基礎架構,請使用 Cluster Director、Cluster Toolkit 或 GKE。
叢集導向器:這項產品可自動執行叢集的複雜設定和配置作業,協助您為叢集設定運算、網路和儲存空間資源,盡可能提升效能並減少停機時間。Google Cloud Cluster Director 專為 IT 管理員和 AI 研究人員設計,可避免管理叢集的額外負擔,讓他們專心執行工作負載。
Cluster Toolkit:Google 提供的開放原始碼工具,可簡化 GKE 或 Compute Engine 的叢集設定和部署作業。您可以使用預先定義的藍圖部署常見設定,例如搭配 Slurm 的 A4 機型。您可以修改藍圖,自訂部署作業和軟體堆疊。
GKE: 代管式 Kubernetes 服務和開放原始碼容器自動化調度管理平台。GKE 提供自動調度資源和高可用性等功能。此外,它還能自動化調度管理容器化應用程式、支援專用硬體,並與 Google Cloud生態系統相容,因此非常適合部署及管理 AI 或機器學習工作負載。您可以直接使用 GKE 或 Cluster Toolkit 部署 GKE 叢集。你可以選擇 GKE Standard 或 Autopilot 模式。
減少管理工作,控管更全面
如要更精細地控管叢集和安裝在叢集上的軟體,請使用代管 Compute Engine 執行個體群組 (MIG) 建立 Compute Engine 叢集,或大量建立執行個體。然後在執行個體上手動安裝所需的重要軟體。
選擇自動調度管理工具
自動調度管理工具可自動管理叢集。有了協調器,您就不必管理叢集中的每個運算執行個體。Slurm 或 GKE 等協調器會處理工作排隊、資源分配、自動調度 (如果是 GKE) 等工作,以及其他日常叢集管理工作。
Slurm:Slurm 是開放原始碼的自動調度管理工具,通常用於 HPC、AI 或 ML 工作負載。如要使用 Slurm,您可以透過 Cluster Toolkit (提供叢集藍圖,自動在叢集上安裝 Slurm),或在 Compute Engine 叢集上安裝 Slurm。
GKE:GKE 是以 Kubernetes 為基礎建構的代管服務,Kubernetes 是一種開放原始碼容器自動化調度管理平台。GKE 能夠自動調度管理容器化應用程式、支援專用硬體,並在 Google Cloud生態系統中扮演重要角色,因此非常適合部署及管理 AI 或機器學習工作負載。您可以直接使用 GKE 或 Cluster Toolkit 部署 GKE 叢集。
自備自動調度管理工具:如要使用其他自動調度管理工具,必須在 Compute Engine 叢集上使用。不過,建立 Compute Engine 叢集是Google Cloud提供的管理負擔最少選項。選擇這個選項表示您要負責設定、維護及更新執行個體。
選擇作業系統映像檔
視您使用 GKE 或 Compute Engine 而定,選取包含所選作業系統的映像檔,例如 GKE 叢集的 Container-Optimized OS,或是 Compute Engine 叢集的加速器 OS 映像檔。此外,您也可以為容器選取 Deep Learning Software Layer (DSLS) 映像檔。
如需詳細資訊,請參閱 AI Hypercomputer 圖片。
GKE 叢集專用映像檔
如要建立 GKE 叢集,建議您在 Standard 和 Autopilot 模式中,都使用預設的容器 OS 映像檔。不過,在「標準」模式中,您也可以選擇使用其他可用的映像檔,例如 Ubuntu。
如果您使用 Cluster Toolkit 部署叢集,則只能使用容器 OS 映像檔,因為這些映像檔內建於叢集藍圖。如要進一步瞭解各個節點映像檔,請參閱 GKE 說明文件中的「節點映像檔」。
GKE 也提供深度學習軟體層 (DLSL) 容器映像檔,可安裝 NVIDIA CUDA 和 NCCL 等套件,以及 PyTorch 等機器學習架構,為深度學習工作負載提供即時可用的環境。這些預先建構的 DLSL 容器映像檔經過測試和驗證,可在 GKE 叢集上順暢運作。
Compute Engine 叢集的 OS 映像檔
AI Hypercomputer 提供經過最佳化的映像檔,可使用 Compute Engine 執行 AI 和 ML 工作負載。選擇你最熟悉的作業系統:
- Rocky Linux 9 加速器
- Rocky Linux 8 加速器
- Ubuntu 24.04 LTS 加速器
- Ubuntu 22.04 LTS 加速器
如果您使用 Cluster Toolkit,這些加速器映像檔已預先封裝至 Cluster Toolkit 藍圖中,因為 Cluster Toolkit 會建立擴充 Ubuntu LTS Accelerator OS 映像檔的自訂映像檔。
如要進一步瞭解各個 OS 映像檔,請參閱 Compute Engine 說明文件中的「作業系統詳細資料」。
建立叢集
檢視叢集建立程序並為工作負載做出初步決定後,請使用下列其中一個選項建立叢集:
- 建立 GKE 叢集:
- 使用 Cluster Toolkit 建立 Slurm 叢集
- 使用 Compute Engine 建立叢集: