Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

叢集建立總覽

本文將摘要說明如何在 AI Hypercomputer 上建立叢集，以執行 AI 工作負載。具體來說，本文會引導您完成啟動叢集時的程序，並說明可用的選項。

事前準備

您必須有要支援的現有工作負載。
您必須熟悉 AI 和 ML 工作負載的常用術語，例如模型訓練和推論。

啟動叢集

啟動叢集需要執行下列步驟：

判斷工作負載並選擇機型
選擇使用選項並取得容量
選擇部署選項
選擇自動調度管理工具
選擇作業系統和叢集映像檔
建立叢集
為工作負載佈建儲存空間

判斷工作負載並選擇機型

為 AI 工作負載選取機型。AI Hypercomputer 支援使用 A4X Max、A4X、A4 和 A3 機器系列建立叢集。請參考下列機器使用建議：

基礎模型訓練和推論：A4X Max 或 A4X

注意： Compute Engine 服務水準協議 (SLA)不適用於 A4X Max 和 A4X 機器系列。
大型模型訓練、微調和推論：A4 或 A3 Ultra
主流模型推論和微調：A3 Mega 或 A3 High (8 個 GPU)
提供推論：A3 Edge

如要進一步瞭解各個機器系列，請參閱「GPU 機器類型」。如要進一步瞭解各機器的建議工作負載，請參閱「建議設定」。

選擇用量方案並取得容量

請根據工作負載可用性與所選機型，選擇 GPU 資源的計費方案。舉例來說，如要使用 A4X Max 或 A4X 機型，您必須使用未來預留項目消耗模式，預留特定日期和時間的容量。以下選項匯總了計費模式：

未來預留：適用於 A4X Max、A4X、A4 和 A3 Ultra 機器類型，資源分配密集，vCPU 和 GPU 最高可享 53% 折扣。未來預訂項目非常適合需要長期穩定性的工作負載，例如預先訓練基礎模型或多主機基礎模型推論。如要使用這項消耗量選項，請透過帳戶團隊要求日後開始日期和時間的容量。
日曆模式的未來預留項目：適用於 A4、A3 Ultra、A3 Mega 和 A3 High (僅限 8 個 GPU 的 VM) 機型，可密集分配資源，並享有高達 53% 的 vCPU 和 GPU 折扣。日曆模式的未來預留項目可協助您預留資源，供執行時間最長 90 天且需要穩定性的工作負載使用，例如預先訓練或微調模型。不過，如要使用這項消耗量選項，您必須提出預留要求，在未來日期和時間預留資源，且 Google Cloud 必須核准要求。
彈性啟動：適用於所有 GPU 機型，但 A4X Max 和 A4X 除外。彈性啟動模式可讓您建立短期密集叢集，最多可使用七天，且 A2 以上機型的 vCPU 和 GPU 可享高達 53% 的折扣。您可以直接透過 Compute Engine、Cluster Director、Cluster Toolkit 或 GKE 建立彈性啟動叢集。不過，叢集不會立即提供，Google 會在資源可用時建立叢集。
Spot：適用於所有 GPU 機型，但 A4X Max 和 A4X 除外。 Spot VM 可讓您根據可用性立即建立運算資源，但 Compute Engine 隨時可能先占虛擬機器 (VM) 執行個體。Spot VM 的價格是 Compute Engine 盡可能最高的折扣 (介於 61% 和 90% 之間)。

如要進一步瞭解消耗選項，請參閱「消耗選項比較」。

選擇部署選項

視您對叢集部署作業的控管程度需求，選擇高度管理或較少管理的部署作業，以便更全面掌控基礎架構。

高度管理

如要讓 Google 部署及設定基礎架構，請使用 Cluster Director、Cluster Toolkit 或 GKE。

Cluster Director：這項產品可自動執行叢集的複雜設定和配置作業，協助您為叢集設定運算、網路和儲存空間資源，盡量提升效能並減少停機時間。Google Cloud Cluster Director 專為 IT 管理員和 AI 研究人員設計，可避免管理叢集的額外負擔，讓他們專心執行工作負載。
Cluster Toolkit：Google 提供的開放原始碼工具，可簡化 GKE 或 Compute Engine 的叢集設定和部署作業。您可以使用預先定義的藍圖部署常見設定，例如搭配 Slurm 的 A4 機型。您可以修改藍圖，自訂部署作業和軟體堆疊。
GKE：代管式 Kubernetes 服務和開放原始碼容器自動化調度管理平台。GKE 提供自動調度資源和高可用性等功能。此外，它還能自動化調度管理容器化應用程式、支援專用硬體，並與 Google Cloud生態系統相容，因此非常適合部署及管理 AI 或機器學習工作負載。您可以直接使用 GKE 或 Cluster Toolkit 部署 GKE 叢集。你可以選擇 GKE Standard 或 Autopilot 模式。

減少管理，增加控制權

如要更精細地控管叢集和安裝在叢集上的軟體，請使用代管 Compute Engine 執行個體群組 (MIG) 建立 Compute Engine 叢集，或大量建立執行個體。然後在執行個體上手動安裝所需的重要軟體。

選擇自動調度管理工具

自動調度管理工具可自動管理叢集。有了協調器，您就不必管理叢集中的每個運算執行個體。自動調度管理工具 (例如 Slurm 或 GKE) 會處理工作佇列、資源分配、自動調度資源 (適用於 GKE) 等工作，以及其他日常叢集管理工作。

Slurm：Slurm 是開放原始碼協調器，通常用於 HPC、AI 或 ML 工作負載。如要使用 Slurm，您可以透過 Cluster Toolkit (提供叢集藍圖，自動在叢集上安裝 Slurm)，或在 Compute Engine 叢集上安裝 Slurm。
GKE：GKE 是以 Kubernetes 為基礎建構的代管服務，Kubernetes 是一種開放原始碼容器自動化調度管理平台。GKE 能夠自動化調度管理容器化應用程式、支援專用硬體，並在 Google Cloud 生態系統中扮演重要角色，因此非常適合部署及管理 AI 或機器學習工作負載。您可以直接使用 GKE 或 Cluster Toolkit 部署 GKE 叢集。
自備協調器：如要使用其他協調器，必須在 Compute Engine 叢集上使用。不過，建立 Compute Engine 叢集是Google Cloud提供的管理負擔最少選項。選擇這個選項表示您要負責設定、維護及更新執行個體。

選擇作業系統映像檔

視您使用 GKE 或 Compute Engine 而定，選取包含所選作業系統的映像檔，例如 GKE 叢集的 Container-Optimized OS，或是 Compute Engine 叢集的加速器 OS 映像檔。此外，您也可以為容器選取 Deep Learning Software Layer (DSLS) 映像檔。

如需詳細資訊，請參閱 AI Hypercomputer 圖片。

GKE 叢集適用的映像檔

如要建立 GKE 叢集，建議您在 Standard 和 Autopilot 模式中，都使用預設的容器 OS 映像檔。不過，在標準模式中，您也可以選擇使用其他可用的映像檔，例如 Ubuntu。

如果使用 Cluster Toolkit 部署叢集，則只能使用容器 OS 映像檔，因為這些映像檔內建於叢集藍圖。如要進一步瞭解各個節點映像檔，請參閱 GKE 說明文件中的「節點映像檔」。

GKE 也提供深度學習軟體層 (DLSL) 容器映像檔，可安裝 NVIDIA CUDA 和 NCCL 等套件，以及 PyTorch 等機器學習框架，為深度學習工作負載提供即時可用的環境。這些預先建構的 DLSL 容器映像檔經過測試和驗證，可順暢地在 GKE 叢集上運作。

Compute Engine 叢集適用的 OS 映像檔

AI Hypercomputer 提供最佳化映像檔，可使用 Compute Engine 執行 AI 和 ML 工作負載。選擇你最熟悉的作業系統：

Rocky Linux 9 加速器
Rocky Linux 8 加速器
Ubuntu 24.04 LTS 加速器
Ubuntu 22.04 LTS 加速器

如果您使用 Cluster Toolkit，這些加速器映像檔已併入 Cluster Toolkit 藍圖，因為 Cluster Toolkit 會建立擴充 Ubuntu LTS Accelerator OS 映像檔的自訂映像檔。

如要進一步瞭解各個 OS 映像檔，請參閱 Compute Engine 說明文件中的「作業系統詳細資料」。

建立叢集

檢視叢集建立程序並為工作負載做出初步決定後，請使用下列其中一個選項建立叢集：

建立 GKE 叢集：
- 使用 Cluster Toolkit 建立 GKE 叢集
- 建立自訂 GKE 叢集
建立 Slurm 叢集：
- 使用 Cluster Director 建立全代管叢集
- 使用 Cluster Toolkit 建立自我管理的叢集
使用 Compute Engine 建立叢集：

為工作負載佈建儲存空間

根據效能、成本和儲存空間架構需求，選擇要佈建的儲存空間服務。