建立 AI 適用的 Slurm 叢集

本文將說明如何設定及部署使用 A4X、A4、A3 Ultra、A3 Mega 或 A3 High 機型的 Slurm 叢集。如要進一步瞭解這些加速器最佳化機器類型，請參閱「GPU 機器類型」一文。

如要瞭解在 Google Cloud中建立 AI 適用的 Slurm 叢集的其他方法，請參閱下列文章：

如要使用代管 Slurm 環境簡化叢集設定和管理作業，請參閱「Cluster Director」。
如要在 Slurm 上部署兩個 A4 虛擬機器 (VM) 執行個體，請參閱建立 AI 適用的 Slurm 叢集快速入門導覽課程。

限制

視 Slurm 叢集中的 VM 所用機器系列而定，適用下列限制：

A4X

使用這些機器類型的執行個體無法享有續用折扣或彈性承諾使用折扣。此外，A4X Max 機型不支援依資源計算的承諾使用折扣。
您只能在特定區域和可用區建立執行個體。
您無法使用永久磁碟 (區域或可用區)。只能使用 Google Cloud Hyperdisk。
這些機器類型僅適用於 NVIDIA Grace 平台。
A4X Max 或 A4X 不支援變更機器類型。如要切換至或切換出這些機器類型，您必須建立新的 A4X Max 或 A4X 執行個體。
您無法在這些機器類型上執行 Windows 作業系統。
如果是 A4X 執行個體，使用 ethtool -S 監控 GPU 網路時，結尾為 _phy 的實體連接埠計數器不會更新。如果執行個體使用 MRDMA 虛擬函式 (VF) 架構，就會出現這種預期行為。詳情請參閱「MRDMA functions and network monitoring tools」。
A4X Max 和 A4X 執行個體不支援下列項目：
您無法將 2026 年 2 月 4 日前建立的 Hyperdisk ML 磁碟附加至 A4X 機器類型。

A4

使用 A4 機器類型的執行個體不適用續用折扣和彈性承諾使用折扣。
A4 機型只能在特定區域和可用區使用。
您無法使用永久磁碟 (區域或可用區)。只能使用 Google Cloud Hyperdisk。
A4 機型僅適用於 Emerald Rapids CPU 平台。
您無法將執行個體的機型變更為 A4 機型，也無法從 A4 機型變更為其他機型。您必須使用這個機型建立新的執行個體。
A4 機器類型不支援單一租戶。
您無法在 A4 機器類型上執行 Windows 作業系統。
如果是 A4 執行個體，使用 ethtool -S 監控 GPU 網路時，結尾為 _phy 的實體連接埠計數器不會更新。這是使用 MRDMA 虛擬函式 (VF) 架構的執行個體預期會發生的行為。詳情請參閱「MRDMA functions and network monitoring tools」。
您無法將 2026 年 2 月 4 日前建立的 Hyperdisk ML 磁碟連結至 A4 機器類型。

A3 Ultra

使用 A3 Ultra 機型的執行個體不適用續用折扣和彈性承諾使用折扣。
您只能在特定區域和可用區使用 A3 Ultra 機器類型。
您無法使用永久磁碟 (區域或可用區)。只能使用 Google Cloud Hyperdisk。
A3 Ultra 機型僅適用於 Emerald Rapids CPU 平台。
A3 Ultra 機型不支援變更機型。如要改用或停用這類機器類型，必須建立新的執行個體。
您無法在 A3 Ultra 機型上執行 Windows 作業系統。
A3 Ultra 機型不支援單一租戶。
如果是 A3 Ultra 執行個體，使用 ethtool -S 監控 GPU 網路時，結尾為 _phy 的實體連接埠計數器不會更新。如果執行個體使用 MRDMA 虛擬函式 (VF) 架構，就會出現這種預期行為。詳情請參閱「MRDMA functions and network monitoring tools」。

A3 Mega

使用 A3 Mega 機型的執行個體無法享有續用折扣和彈性承諾使用折扣。
A3 Mega 機器類型只能在特定區域和可用區使用。
您無法在採用 A3 Mega 機型的執行個體上使用區域永久磁碟。
A3 Mega 機器類型僅適用於 Sapphire Rapids CPU 平台。
A3 Mega 機型不支援變更機器類型。如要改用或停用這類機器類型，必須建立新的執行個體。
您無法在 A3 Mega 機器類型上執行 Windows 作業系統。

A3 High

使用 A3 High 機器類型的執行個體不適用續用折扣和彈性承諾使用折扣。
您只能在特定區域和可用區使用 A3 High 機型。
您無法在採用 A3 High 機型的執行個體上使用區域性永久磁碟。
A3 High 機型僅適用於 Sapphire Rapids CPU 平台。
A3 High 機型不支援變更機器類型。如要改用或停用這類機器類型，必須建立新的執行個體。
您無法在 A3 High 機型上執行 Windows 作業系統。
如要使用 a3-highgpu-1g、a3-highgpu-2g 和 a3-highgpu-4g 機器類型，請使用 Spot VM 或彈性啟動 VM 建立執行個體。如需這些選項的詳細操作說明，請參閱下列文章：
- 如要建立 Spot VM，請在建立加速器最佳化 VM 時，將佈建模式設為 SPOT。
- 如要建立彈性啟動 VM，請使用下列任一方法：
  - 建立獨立 VM，並在建立加速器最佳化 VM 時，將佈建模式設為 FLEX_START。
  - 在代管執行個體群組 (MIG) 中建立規模調整要求。如需操作說明，請參閱建立含 GPU VM 的 MIG。
您只能在有限的區域和可用區，使用 a3-highgpu-1g 機型搭配機密 VM，且在 A3 High 機型上執行機密 VM 的所有限制都適用。

事前準備

建立 Slurm 叢集前，請先完成下列步驟 (如尚未完成)：

選擇使用選項：您選擇的使用選項會決定取得及使用 GPU 資源的方式。
詳情請參閱「選擇消耗量選項」。
取得容量：取得容量的程序因消費選項而異。
如要瞭解如何取得所選用量方案的容量，請參閱容量總覽。
確認 Filestore 容量配額充足：部署前，目標區域必須有足夠的 Filestore 配額。所需最低容量取決於叢集中的機器類型：
- A4、A4X、A3 Ultra 和 A3 Mega：需要至少 10 TiB (10,240 GiB) 的 HIGH_SCALE_SSD (可用區) 容量。
- A3 High：至少需要 2.5 TiB (2,560 GiB) 的 BASIC_SSD (標準) 容量。
如要查看配額或申請提高配額，請參閱下列文章：
- 如要查看配額，請參閱「查看 API 專屬配額」一節。
- 如果配額不足，請申請提高配額。
安裝 Cluster Toolkit：如要佈建 Slurm 叢集，您必須使用 Cluster Toolkit v1.62.0 以上版本。
如要安裝 Cluster Toolkit，請參閱「設定 Cluster Toolkit」。

In the Google Cloud console, activate Cloud Shell.

Activate Cloud Shell

At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.

必要的角色

為確保 Compute Engine 預設服務帳戶具備部署 Slurm 叢集所需的權限，請要求管理員將下列 IAM 角色授予 Compute Engine 預設服務帳戶：

Storage 物件檢視者 (roles/storage.objectViewer) 專案
專案的「Compute 執行個體管理員 (v1)」 (roles/compute.instanceAdmin.v1)
服務帳戶使用者 (roles/iam.serviceAccountUser) 服務帳戶本身

如要進一步瞭解如何授予角色，請參閱「管理專案、資料夾和組織的存取權」。

管理員或許也能透過自訂角色或其他預先定義的角色，將必要權限授予 Compute Engine 預設服務帳戶。

設定儲存空間 bucket

叢集藍圖會使用 Terraform 模組佈建雲端基礎架構。使用 Terraform 時的最佳做法，是在已啟用版本的檔案中遠端儲存狀態。在 Google Cloud上，您可以建立已啟用版本管理的 Cloud Storage bucket。

如要透過 CLI 建立這個值區並啟用版本管理功能，請執行下列指令：

gcloud storage buckets create gs://BUCKET_NAME \
    --project=PROJECT_ID \
    --default-storage-class=STANDARD --location=BUCKET_REGION \
    --uniform-bucket-level-access
gcloud storage buckets update gs://BUCKET_NAME --versioning

更改下列內容：

BUCKET_NAME：Cloud Storage bucket 的名稱，必須符合 bucket 命名規定。
PROJECT_ID：您的專案 ID。
BUCKET_REGION：任何可用位置。

開啟 Cluster Toolkit 目錄

如要搭配使用 Slurm 和 Google Cloud，請務必安裝 Cluster Toolkit。安裝工具包後，請執行下列指令，確保您位於 Cluster Toolkit 目錄中：

cd cluster-toolkit

這個叢集部署作業需要使用 Cluster Toolkit v1.62.0 或更新版本。如要查看版本，請執行下列指令：

./gcluster --version

建立部署檔案

建立部署檔案，可用於指定 Cloud Storage bucket、設定網路和子網路的名稱，以及設定專案 ID、地區和區域等部署變數。

如要建立部署作業檔案，請按照所需機器類型和用量選項的步驟操作。

A4X

如要建立部署檔案，請使用文字編輯器建立名為 a4xhigh-slurm-deployment.yaml 的 YAML 檔案，並加入下列內容。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a4x_cluster_size: NUMBER_OF_VMS
  a4x_reservation_name: RESERVATION_NAME

更改下列內容：

BUCKET_NAME：Cloud Storage bucket 的名稱，您已在上一個章節中建立這個 bucket。
DEPLOYMENT_NAME：部署作業的名稱。如要建立多個叢集，請務必為每個叢集選取不重複的名稱。
PROJECT_ID：您的專案 ID。
REGION：預留機器的區域。
ZONE：您要佈建叢集的可用區。如果您使用以預訂為準的用量選項，帳戶團隊會在容量交付時提供區域和地帶資訊。
NUMBER_OF_VMS：叢集中的 A4X VM 數量。您可以指定任意數量的 VM。不過，A4X VM 會以 18 個 VM (72 個 GPU) 為一組，透過多節點 NVLink 系統實體互連，形成 NVLink 網域。
為獲得最佳網路效能，建議您指定 18 部 VM 的倍數值 (例如 18、36 或 54)。建立 A4X 叢集時，A4X 藍圖會自動建立並套用緊湊放置政策，每個 18 個 VM 的群組都會採用 1x72 GPU 拓撲。如要進一步瞭解 A4X 拓撲，請參閱 A4X 基礎概念。
RESERVATION_NAME：預訂名稱。

A4

您需要在部署檔案中加入的參數，取決於部署作業使用的消耗量選項。選取與用量選項的佈建模式對應的分頁。

取決於預留項目

如要建立部署檔案，請使用文字編輯器建立名為 a4high-slurm-deployment.yaml 的 YAML 檔案，並加入下列內容。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a4h_cluster_size: NUMBER_OF_VMS
  a4h_reservation_name: RESERVATION_NAME

更改下列內容：

BUCKET_NAME：Cloud Storage bucket 的名稱，您已在上一個章節中建立這個 bucket。
DEPLOYMENT_NAME：部署作業的名稱。如要建立多個叢集，請務必為每個叢集選取不重複的名稱。
PROJECT_ID：您的專案 ID。
REGION：預留機器的區域。
ZONE：您要佈建叢集的可用區。如果您使用以預訂為準的用量選項，帳戶團隊會在容量交付時提供區域和地帶資訊。
NUMBER_OF_VMS：叢集所需的 VM 數量。
RESERVATION_NAME：預訂名稱。

彈性啟動

如要建立部署檔案，請使用文字編輯器建立名為 a4high-slurm-deployment.yaml 的 YAML 檔案，並加入下列內容。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a4h_cluster_size: NUMBER_OF_VMS
  a4h_dws_flex_enabled: true

更改下列內容：

BUCKET_NAME：Cloud Storage bucket 的名稱，您已在上一個章節中建立這個 bucket。
DEPLOYMENT_NAME：部署作業的名稱。如要建立多個叢集，請務必為每個叢集選取不重複的名稱。
PROJECT_ID：您的專案 ID。
REGION：您要佈建叢集的區域。
ZONE：要佈建叢集的可用區。
NUMBER_OF_VMS：叢集所需的 VM 數量。

這項部署作業會佈建靜態運算節點，也就是說，叢集隨時都會有固定數量的節點。如要改為啟用叢集的自動調度資源功能，請使用 examples/machine-learning/a4-highgpu-8g/a4high-slurm-blueprint.yaml 檔案，並編輯 node_count_static 和 node_count_dynamic_max 的值，使其符合下列條件：

      node_count_static: 0
      node_count_dynamic_max: $(vars.a4h_cluster_size)

Spot

如要建立部署檔案，請使用文字編輯器建立名為 a4high-slurm-deployment.yaml 的 YAML 檔案，並加入下列內容。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a4h_cluster_size: NUMBER_OF_VMS
  a4h_enable_spot_vm: true

更改下列內容：

BUCKET_NAME：Cloud Storage bucket 的名稱，您已在上一個章節中建立這個 bucket。
DEPLOYMENT_NAME：部署作業的名稱。如要建立多個叢集，請務必為每個叢集選取不重複的名稱。
PROJECT_ID：您的專案 ID。
REGION：您要佈建叢集的區域。
ZONE：要佈建叢集的可用區。
NUMBER_OF_VMS：叢集所需的 VM 數量。

A3 Ultra

您需要在部署檔案中加入的參數，取決於部署作業使用的消耗量選項。選取與用量選項的佈建模式對應的分頁。

取決於預留項目

如要建立部署檔案，請使用文字編輯器建立名為 a3ultra-slurm-deployment.yaml 的 YAML 檔案，並加入下列內容。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3u_cluster_size: NUMBER_OF_VMS
  a3u_reservation_name: RESERVATION_NAME

更改下列內容：

BUCKET_NAME：Cloud Storage bucket 的名稱，您已在上一個章節中建立這個 bucket。
DEPLOYMENT_NAME：部署作業的名稱。如要建立多個叢集，請務必為每個叢集選取不重複的名稱。
PROJECT_ID：您的專案 ID。
REGION：預留機器的區域。
ZONE：您要佈建叢集的可用區。如果您使用以預訂為準的用量選項，帳戶團隊會在容量交付時提供區域和地帶資訊。
NUMBER_OF_VMS：叢集所需的 VM 數量。
RESERVATION_NAME：預訂名稱。

彈性啟動

如要建立部署檔案，請使用文字編輯器建立名為 a3ultra-slurm-deployment.yaml 的 YAML 檔案，並加入下列內容。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3u_cluster_size: NUMBER_OF_VMS
  a3u_dws_flex_enabled: true

更改下列內容：

BUCKET_NAME：Cloud Storage bucket 的名稱，您已在上一個章節中建立這個 bucket。
DEPLOYMENT_NAME：部署作業的名稱。如要建立多個叢集，請務必為每個叢集選取不重複的名稱。
PROJECT_ID：您的專案 ID。
REGION：您要佈建叢集的區域。
ZONE：要佈建叢集的可用區。
NUMBER_OF_VMS：叢集所需的 VM 數量。

這項部署作業會佈建靜態運算節點，也就是說，叢集隨時都會有固定數量的節點。如要改為啟用叢集的自動調度資源功能，請使用 examples/machine-learning/a3-ultragpu-8g/a3ultra-slurm-blueprint.yaml 檔案，並編輯 node_count_static 和 node_count_dynamic_max 的值，使其符合下列條件：

      node_count_static: 0
      node_count_dynamic_max: $(vars.a3u_cluster_size)

Spot

如要建立部署檔案，請使用文字編輯器建立名為 a3ultra-slurm-deployment.yaml 的 YAML 檔案，並加入下列內容。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3u_cluster_size: NUMBER_OF_VMS
  a3u_enable_spot_vm: true

更改下列內容：

BUCKET_NAME：Cloud Storage bucket 的名稱，您已在上一個章節中建立這個 bucket。
DEPLOYMENT_NAME：部署作業的名稱。如要建立多個叢集，請務必為每個叢集選取不重複的名稱。
PROJECT_ID：您的專案 ID。
REGION：您要佈建叢集的區域。
ZONE：要佈建叢集的可用區。
NUMBER_OF_VMS：叢集所需的 VM 數量。

A3 Mega

您需要在部署檔案中加入的參數，取決於部署作業使用的消耗量選項。選取與用量選項的佈建模式對應的分頁。

取決於預留項目

如要建立部署檔案，請建立名為 a3mega-slurm-deployment.yaml 的 YAML 檔案，並新增下列內容。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3m_cluster_size: NUMBER_OF_VMS
  a3m_reservation_name: RESERVATION_NAME

更改下列內容：

BUCKET_NAME：Cloud Storage bucket 的名稱，您已在上一個章節中建立這個 bucket。
DEPLOYMENT_NAME：部署作業的名稱。如要建立多個叢集，請務必為每個叢集選取不重複的名稱。
PROJECT_ID：您的專案 ID。
REGION：預留機器的區域。
ZONE：您要佈建叢集的可用區。如果您使用以預訂為準的用量選項，帳戶團隊會在容量交付時提供區域和地帶資訊。
NUMBER_OF_VMS：叢集所需的 VM 數量。
RESERVATION_NAME：預訂名稱。

彈性啟動

如要建立部署檔案，請建立名為 a3mega-slurm-deployment.yaml 的 YAML 檔案，並新增下列內容。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3m_cluster_size: NUMBER_OF_VMS
  a3m_dws_flex_enabled: true

更改下列內容：

BUCKET_NAME：Cloud Storage bucket 的名稱，您已在上一個章節中建立這個 bucket。
DEPLOYMENT_NAME：部署作業的名稱。如要建立多個叢集，請務必為每個叢集選取不重複的名稱。
PROJECT_ID：您的專案 ID。
REGION：您要佈建叢集的區域。
ZONE：要佈建叢集的可用區。
NUMBER_OF_VMS：叢集所需的 VM 數量。

這項部署作業會佈建靜態運算節點，也就是說，叢集隨時都會有固定數量的節點。如要改為啟用叢集的自動調度資源功能，請使用 examples/machine-learning/a3-megagpu-8g/a3mega-slurm-blueprint.yaml 檔案，並編輯 node_count_static 和 node_count_dynamic_max 的值，使其符合下列條件：

      node_count_static: 0
      node_count_dynamic_max: $(vars.a3m_cluster_size)

Spot

如要建立部署檔案，請建立名為 a3mega-slurm-deployment.yaml 的 YAML 檔案，並新增下列內容。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3m_cluster_size: NUMBER_OF_VMS
  a3m_enable_spot_vm: true

更改下列內容：

BUCKET_NAME：Cloud Storage bucket 的名稱，您已在上一個章節中建立這個 bucket。
DEPLOYMENT_NAME：部署作業的名稱。如要建立多個叢集，請務必為每個叢集選取不重複的名稱。
PROJECT_ID：您的專案 ID。
REGION：您要佈建叢集的區域。
ZONE：要佈建叢集的可用區。
NUMBER_OF_VMS：叢集所需的 VM 數量。

A3 High

您需要在部署檔案中加入的參數，取決於部署作業使用的消耗量選項。選取與用量選項的佈建模式對應的分頁。

取決於預留項目

如要建立部署檔案，請建立名為 a3high-slurm-deployment.yaml 的 YAML 檔案，並新增下列內容。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3h_cluster_size: NUMBER_OF_VMS
  a3h_reservation_name: RESERVATION_NAME

更改下列內容：

BUCKET_NAME：Cloud Storage bucket 的名稱，您已在上一個章節中建立這個 bucket。
DEPLOYMENT_NAME：部署作業的名稱。如要建立多個叢集，請務必為每個叢集選取不重複的名稱。
PROJECT_ID：您的專案 ID。
REGION：預留機器的區域。
ZONE：您要佈建叢集的可用區。如果您使用以預訂為準的用量選項，帳戶團隊會在容量交付時提供區域和地帶資訊。
NUMBER_OF_VMS：叢集所需的 VM 數量。
RESERVATION_NAME：預訂名稱。

彈性啟動

如要建立部署檔案，請建立名為 a3high-slurm-deployment.yaml 的 YAML 檔案，並新增下列內容。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3h_cluster_size: NUMBER_OF_VMS
  a3h_dws_flex_enabled: true

更改下列內容：

BUCKET_NAME：Cloud Storage bucket 的名稱，您已在上一個章節中建立這個 bucket。
DEPLOYMENT_NAME：部署作業的名稱。如要建立多個叢集，請務必為每個叢集選取不重複的名稱。
PROJECT_ID：您的專案 ID。
REGION：您要佈建叢集的區域。
ZONE：要佈建叢集的可用區。
NUMBER_OF_VMS：叢集所需的 VM 數量。

這項部署作業會佈建靜態運算節點，也就是說，叢集隨時都會有固定數量的節點。如要改為啟用叢集的自動調度資源功能，請使用 examples/machine-learning/a3-highgpu-8g/a3high-slurm-blueprint.yaml 檔案，並編輯 node_count_static 和 node_count_dynamic_max 的值，使其符合下列條件：

      node_count_static: 0
      node_count_dynamic_max: $(vars.a3h_cluster_size)

Spot

如要建立部署檔案，請建立名為 a3high-slurm-deployment.yaml 的 YAML 檔案，並新增下列內容。


terraform_backend_defaults:
  type: gcs
  configuration:
    bucket: BUCKET_NAME

vars:
  deployment_name: DEPLOYMENT_NAME
  project_id: PROJECT_ID
  region: REGION
  zone: ZONE
  a3h_cluster_size: NUMBER_OF_VMS
  a3h_enable_spot_vm: true

更改下列內容：

BUCKET_NAME：Cloud Storage bucket 的名稱，您已在上一個章節中建立這個 bucket。
DEPLOYMENT_NAME：部署作業的名稱。如要建立多個叢集，請務必為每個叢集選取不重複的名稱。
PROJECT_ID：您的專案 ID。
REGION：您要佈建叢集的區域。
ZONE：要佈建叢集的可用區。
NUMBER_OF_VMS：叢集所需的 VM 數量。

佈建 Slurm 叢集

Cluster Toolkit 會根據您在上一個步驟中建立的部署檔案和預設叢集藍圖，佈建叢集。如要進一步瞭解藍圖安裝的軟體 (包括 NVIDIA 驅動程式和 CUDA)，請參閱 Slurm 自訂映像檔。

如要佈建叢集，請從 Cluster Toolkit 目錄執行適用於機器類型的指令。這個步驟大約需要 20 到 30 分鐘。

A4X

./gcluster deploy -d a4xhigh-slurm-deployment.yaml examples/machine-learning/a4x-highgpu-4g/a4xhigh-slurm-blueprint.yaml --auto-approve

A4

./gcluster deploy -d a4high-slurm-deployment.yaml examples/machine-learning/a4-highgpu-8g/a4high-slurm-blueprint.yaml --auto-approve

A3 Ultra

./gcluster deploy -d a3ultra-slurm-deployment.yaml examples/machine-learning/a3-ultragpu-8g/a3ultra-slurm-blueprint.yaml --auto-approve

A3 Mega

./gcluster deploy -d a3mega-slurm-deployment.yaml examples/machine-learning/a3-megagpu-8g/a3mega-slurm-blueprint.yaml --auto-approve

A3 High

./gcluster deploy -d a3high-slurm-deployment.yaml examples/machine-learning/a3-highgpu-8g/a3high-slurm-blueprint.yaml --auto-approve

連線至 Slurm 叢集

如要存取叢集，請登入 Slurm 登入節點。如要登入，可以使用 Google Cloud 控制台或 Google Cloud CLI。

控制台

前往「Compute Engine」>「VM instances」(VM 執行個體) 頁面。

前往 VM 執行個體頁面
找出登入節點。名稱應符合「DEPLOYMENT_NAME +login-001」格式。
在登入節點的「連線」欄中，按一下「SSH」。

gcloud

如要連線至登入節點，請完成下列步驟：

使用 gcloud compute instances list 指令找出登入節點。
```
gcloud compute instances list \
  --zones=ZONE \
  --filter="name ~ login" --format "value(name)"
```
如果輸出內容列出多個 Slurm 叢集，您可以根據指定的 DEPLOYMENT_NAME 找出登入節點。
使用 gcloud compute ssh 指令連線至登入節點。
```
gcloud compute ssh LOGIN_NODE \
  --zone=ZONE --tunnel-through-iap
```
更改下列內容：
- ZONE：叢集 VM 所在的可用區。
- LOGIN_NODE：登入節點的名稱，也就是您在上一個步驟中識別的名稱。

測試 Slurm 叢集的網路效能

建議您驗證已佈建叢集的功能。如要執行這項操作，請使用 NCCL 測試，也就是針對 Google 環境最佳化的 NVIDIA Collective Communications Library (NCCL) 測試。

重新部署 Slurm 叢集

如要增加運算節點數量或在叢集中新增分割區，可能需要重新部署，藉此更新 Slurm 叢集的設定。使用先前部署作業的現有映像檔，可加快重新部署作業。如要避免在重新部署期間建立新映像檔，請指定 --only 標記。

如要使用現有映像檔重新部署叢集，請執行下列操作：

連線至叢集

請針對所需機型執行指令：

A4X

./gcluster deploy -d a4xhigh-slurm-deployment.yaml examples/machine-learning/a4x-highgpu-4g/a4xhigh-slurm-blueprint.yaml --only cluster-env,cluster -w --auto-approve

A4

./gcluster deploy -d a4high-slurm-deployment.yaml examples/machine-learning/a4-highgpu-8g/a4high-slurm-blueprint.yaml --only cluster-env,cluster -w --auto-approve

A3 Ultra

./gcluster deploy -d a3ultra-slurm-deployment.yaml examples/machine-learning/a3-ultragpu-8g/a3ultra-slurm-blueprint.yaml --only cluster-env,cluster -w --auto-approve

A3 Mega

./gcluster deploy -d a3mega-slurm-deployment.yaml examples/machine-learning/a3-megagpu-8g/a3mega-slurm-blueprint.yaml --only cluster-env,cluster -w --auto-approve

A3 High

./gcluster deploy -d a3high-slurm-deployment.yaml examples/machine-learning/a3-highgpu-8g/a3high-slurm-blueprint.yaml --only cluster-env,cluster -w --auto-approve

這項指令僅適用於已存在映像檔的重新部署作業，只會重新部署叢集及其基礎架構。

刪除 Slurm 叢集

根據預設，A4X、A4 和 A3 Ultra 藍圖會在 Filestore 執行個體上，啟用防刪除功能。如要在刪除 Slurm 叢集時刪除 Filestore 執行個體，請先停用防刪除功能，再執行刪除指令。如需操作說明，請參閱「為現有執行個體設定或移除防刪除功能」。

如果尚未中斷與叢集的連線，請中斷連線。
執行刪除指令前，請前往 Cluster Toolkit 目錄的根層級。根據預設，DEPLOYMENT_FOLDER 位於 Cluster Toolkit 目錄的根層級。
執行下列指令，即可刪除叢集：

./gcluster destroy DEPLOYMENT_FOLDER --auto-approve

更改下列內容：

DEPLOYMENT_FOLDER：部署資料夾的名稱。通常與 DEPLOYMENT_NAME 相同。

刪除作業完成後，畫面上會顯示類似如下的訊息：

  Destroy complete! Resources: xx destroyed.

如要瞭解如何徹底毀損基礎架構，以及進階的手動部署操作說明，請參閱 Cluster Toolkit 目錄根層級的部署資料夾：DEPLOYMENT_FOLDER/instructions.txt

後續步驟

確認預留項目使用情形
查看運算執行個體的拓撲
瞭解如何管理主機事件：
- 管理所有 VM 的主機事件
- 管理所有預留項目的主機事件
監控 Slurm 叢集中的 VM
使用 NCCL/gIB 進行測試及最佳化
回報出錯的主機

建立 AI 適用的 Slurm 叢集 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

限制

A4X

A4

A3 Ultra

A3 Mega

A3 High

事前準備

必要的角色

設定儲存空間 bucket

開啟 Cluster Toolkit 目錄

建立部署檔案

A4X

A4

取決於預留項目

彈性啟動

Spot

A3 Ultra

取決於預留項目

彈性啟動

Spot

A3 Mega

取決於預留項目

彈性啟動

Spot

A3 High

取決於預留項目

彈性啟動

Spot

佈建 Slurm 叢集

A4X

A4

A3 Ultra

A3 Mega

A3 High

連線至 Slurm 叢集

控制台

gcloud

測試 Slurm 叢集的網路效能

重新部署 Slurm 叢集

A4X

A4

A3 Ultra

A3 Mega

A3 High

刪除 Slurm 叢集

後續步驟

建立 AI 適用的 Slurm 叢集