叢集建立機制簡介

本文將摘要說明如何在 AI Hypercomputer 上為 AI 工作負載建立叢集。具體來說,這份文件會引導您完成啟動叢集時的程序和選擇。

事前準備

  • 您必須有要支援的現有工作負載。

  • 您必須熟悉 AI 和 ML 工作負載的常用術語,例如模型訓練和推論。

啟動叢集

啟動叢集需要執行下列步驟:

  1. 判斷工作負載並選擇機器類型
  2. 選擇使用選項並取得容量
  3. 選擇部署選項
  4. 選擇自動調度管理工具
  5. 選擇作業系統和叢集映像檔
  6. 建立叢集

判斷工作負載並選擇機型

為 AI 工作負載選取機器類型。AI Hypercomputer 支援使用 A4X Max、A4X、A4 和 A3 系列機型建立叢集。請參考下列機器使用建議:

  • 基礎模型訓練和推論:A4X Max 或 A4X

  • 大型模型訓練、微調和推論:A4 或 A3 Ultra

  • 主流模型推論和微調:A3 Mega 或 A3 High (8 個 GPU)

  • 提供推論:A3 Edge

如要進一步瞭解各個機器系列,請參閱「GPU 機器類型」。如要進一步瞭解各機器的建議工作負載,請參閱「建議設定」。

選擇用量方案並取得容量

根據工作負載可用性和所選機器類型,為 GPU 資源選取用量選項。舉例來說,如要使用 A4X Max 或 A4X 機型,請務必使用未來預留項目消耗模式,預留特定日期和時間的容量。以下選項匯總了計費模式:

  • 未來預訂:適用於 A4X Max、A4X、A4 和 A3 Ultra 機器類型,資源分配密集,vCPU 和 GPU 最高可享 53% 折扣。未來預訂項目非常適合需要長期穩定性的工作負載,例如預先訓練基礎模型或多主機基礎模型推論。如要使用這項消耗量選項,請透過帳戶團隊要求容量,並指定未來的開始日期和時間。

  • 日曆模式的未來預留項目:適用於 A4、A3 Ultra、A3 Mega 和 A3 High (僅限 8 個 GPU 的 VM) 機器類型,可密集分配資源,且 vCPU 和 GPU 最高可享 47% 折扣。日曆模式的未來預留項目可協助您預留資源,供執行時間最長 90 天且需要穩定性的工作負載使用,例如預先訓練或微調模型。不過,如要使用這項消耗選項,您必須建立預留要求,在未來日期和時間預留資源,且 Google Cloud 必須核准要求。

  • 彈性啟動:適用於所有 GPU 機型,但 A4X Max 和 A4X 除外。彈性啟動模式可讓您建立最多可使用七天的短期密集叢集,並享有高達 53% 的折扣,適用於 A2 以上機型的 vCPU 和 GPU。您可以直接透過 Compute Engine、Cluster Director、Cluster Toolkit 或 GKE 建立彈性啟動叢集。不過,叢集不會立即提供,Google 會在資源可用時建立叢集。

  • Spot:適用於所有 GPU 機型,但 A4X Max 和 A4X 除外。 您可以根據可用性立即建立運算資源,但 Compute Engine 隨時可能會搶佔虛擬機器 (VM) 執行個體。Spot VM 的價格是 Compute Engine 提供的最大折扣 (介於 61% 至 90% 之間)。

如要進一步瞭解消耗選項,請參閱「消耗選項比較」。

選擇部署選項

視您對叢集部署作業的控管程度而定,您可以選擇高度受管理或較不受管理的部署作業,以便進一步控管基礎架構。

高度管理

如要讓 Google 部署及設定基礎架構,請使用 Cluster Director、Cluster Toolkit 或 GKE。

  • 叢集導向器:這項產品可自動執行叢集的複雜設定和配置作業,協助您為叢集設定運算、網路和儲存空間資源,盡可能提升效能並減少停機時間。Google Cloud Cluster Director 專為 IT 管理員和 AI 研究人員設計,可避免管理叢集的額外負擔,讓他們專心執行工作負載。

  • Cluster Toolkit:Google 提供的開放原始碼工具,可簡化 GKE 或 Compute Engine 的叢集設定和部署作業。您可以使用預先定義的藍圖部署常見設定,例如搭配 Slurm 的 A4 機型。您可以修改藍圖,自訂部署作業和軟體堆疊。

  • GKE: 代管式 Kubernetes 服務和開放原始碼容器自動化調度管理平台。GKE 提供自動調度資源和高可用性等功能。此外,它還能自動化調度管理容器化應用程式、支援專用硬體,並與 Google Cloud生態系統相容,因此非常適合部署及管理 AI 或機器學習工作負載。您可以直接使用 GKE 或 Cluster Toolkit 部署 GKE 叢集。你可以選擇 GKE Standard 或 Autopilot 模式。

減少管理工作,控管更全面

如要更精細地控管叢集和安裝在叢集上的軟體,請使用代管 Compute Engine 執行個體群組 (MIG) 建立 Compute Engine 叢集,或大量建立執行個體。然後在執行個體上手動安裝所需的重要軟體。

選擇自動調度管理工具

自動調度管理工具可自動管理叢集。有了協調器,您就不必管理叢集中的每個運算執行個體。Slurm 或 GKE 等協調器會處理工作排隊、資源分配、自動調度 (如果是 GKE) 等工作,以及其他日常叢集管理工作。

  • Slurm:Slurm 是開放原始碼的自動調度管理工具,通常用於 HPC、AI 或 ML 工作負載。如要使用 Slurm,您可以透過 Cluster Toolkit (提供叢集藍圖,自動在叢集上安裝 Slurm),或在 Compute Engine 叢集上安裝 Slurm。

  • GKE:GKE 是以 Kubernetes 為基礎建構的代管服務,Kubernetes 是一種開放原始碼容器自動化調度管理平台。GKE 能夠自動調度管理容器化應用程式、支援專用硬體,並在 Google Cloud生態系統中扮演重要角色,因此非常適合部署及管理 AI 或機器學習工作負載。您可以直接使用 GKE 或 Cluster Toolkit 部署 GKE 叢集。

  • 自備自動調度管理工具:如要使用其他自動調度管理工具,必須在 Compute Engine 叢集上使用。不過,建立 Compute Engine 叢集是Google Cloud提供的管理負擔最少選項。選擇這個選項表示您要負責設定、維護及更新執行個體。

選擇作業系統映像檔

視您使用 GKE 或 Compute Engine 而定,選取包含所選作業系統的映像檔,例如 GKE 叢集的 Container-Optimized OS,或是 Compute Engine 叢集的加速器 OS 映像檔。此外,您也可以為容器選取 Deep Learning Software Layer (DSLS) 映像檔。

如需詳細資訊,請參閱 AI Hypercomputer 圖片

GKE 叢集專用映像檔

如要建立 GKE 叢集,建議您在 Standard 和 Autopilot 模式中,都使用預設的容器 OS 映像檔。不過,在「標準」模式中,您也可以選擇使用其他可用的映像檔,例如 Ubuntu。

如果您使用 Cluster Toolkit 部署叢集,則只能使用容器 OS 映像檔,因為這些映像檔內建於叢集藍圖。如要進一步瞭解各個節點映像檔,請參閱 GKE 說明文件中的「節點映像檔」。

GKE 也提供深度學習軟體層 (DLSL) 容器映像檔,可安裝 NVIDIA CUDA 和 NCCL 等套件,以及 PyTorch 等機器學習架構,為深度學習工作負載提供即時可用的環境。這些預先建構的 DLSL 容器映像檔經過測試和驗證,可在 GKE 叢集上順暢運作。

Compute Engine 叢集的 OS 映像檔

AI Hypercomputer 提供經過最佳化的映像檔,可使用 Compute Engine 執行 AI 和 ML 工作負載。選擇你最熟悉的作業系統:

  • Rocky Linux 9 加速器
  • Rocky Linux 8 加速器
  • Ubuntu 24.04 LTS 加速器
  • Ubuntu 22.04 LTS 加速器

如果您使用 Cluster Toolkit,這些加速器映像檔已預先封裝至 Cluster Toolkit 藍圖中,因為 Cluster Toolkit 會建立擴充 Ubuntu LTS Accelerator OS 映像檔的自訂映像檔。

如要進一步瞭解各個 OS 映像檔,請參閱 Compute Engine 說明文件中的「作業系統詳細資料」。

建立叢集

檢視叢集建立程序並為工作負載做出初步決定後,請使用下列其中一個選項建立叢集: