本文說明如何設定及部署全代管的 Slurm 叢集,並使用 A4X、A4、A3 Ultra、A3 Mega 或 A3 High 機型。如要進一步瞭解這些加速器最佳化機型,請參閱「GPU 機型」一文。
本文的步驟說明如何使用 Cluster Director 建立 Slurm 叢集。Cluster Director 是一項產品,可自動設定及配置 Slurm 叢集。 Google Cloud這項服務專為 IT 管理員和 AI 研究人員設計,可避免管理叢集的開銷,讓他們專心執行工作負載。如要進一步控管叢集的部署和管理作業,請使用 Cluster Toolkit 建立叢集。
限制
視叢集中 Compute Engine 執行個體使用的機型而定,適用下列限制:
A4X
- 使用這類機型的執行個體無法享有續用折扣或彈性承諾使用折扣。
- 您只能在特定區域和可用區建立執行個體。
- 您無法使用永久磁碟 (區域或可用區)。只能使用 Google Cloud Hyperdisk。
- 這個機型僅適用於 NVIDIA Grace 平台。
- A4X 不支援變更機型。如要改用或切換這個機型,必須建立新的執行個體。
- 您無法在這個機型上執行 Windows 作業系統。如需支援的 Linux 作業系統清單,請參閱 GPU 執行個體支援的作業系統。
- 如果是 A4X 執行個體,使用
ethtool -S監控 GPU 網路時,結尾為_phy的實體連接埠計數器不會更新。如果執行個體使用 MRDMA 虛擬函式 (VF) 架構,這是預期行為。詳情請參閱「MRDMA functions and network monitoring tools」。 - A4X 執行個體不支援下列項目:
- 2026 年 2 月 4 日前建立的 Hyperdisk ML 磁碟無法附加至 A4X 機器類型。
A4
- 使用 A4 機型的執行個體無法享有續用折扣和彈性承諾使用折扣。
- A4 機型只能在特定區域和可用區使用。
- 您無法使用永久磁碟 (區域或可用區)。只能使用 Google Cloud Hyperdisk。
- A4 機型僅適用於 Emerald Rapids CPU 平台。
- 您無法將執行個體的機型變更為 A4 機型,也無法從 A4 機型變更為其他機型。您必須使用這個機型建立新的執行個體。
- A4 機器類型不支援單一租戶。
- 您無法在 A4 機型上執行 Windows 作業系統。
- 如果是 A4 執行個體,使用
ethtool -S監控 GPU 網路時,結尾為_phy的實體連接埠計數器不會更新。這是使用 MRDMA 虛擬函式 (VF) 架構的執行個體預期會發生的行為。詳情請參閱「MRDMA functions and network monitoring tools」。 - 您無法將 2026 年 2 月 4 日前建立的 Hyperdisk ML 磁碟連結至 A4 機器類型。
A3 Ultra
- 使用 A3 Ultra 機型的執行個體不適用續用折扣和彈性承諾使用折扣。
- A3 Ultra 機型僅適用於特定區域和可用區。
- 您無法使用永久磁碟 (區域或可用區)。只能使用 Google Cloud Hyperdisk。
- A3 Ultra 機型僅適用於 Emerald Rapids CPU 平台。
- A3 Ultra 機型不支援變更機型。如要改用或停用這類機器類型,必須建立新的執行個體。
- 您無法在 A3 Ultra 機型上執行 Windows 作業系統。
- A3 Ultra 機型不支援單一租戶。
- 如果是 A3 Ultra 執行個體,使用
ethtool -S監控 GPU 網路時,結尾為_phy的實體連接埠計數器不會更新。如果執行個體使用 MRDMA 虛擬函式 (VF) 架構,這是預期行為。詳情請參閱「MRDMA functions and network monitoring tools」。
A3 Mega
- 使用 A3 Mega 機型的執行個體無法享有續用折扣和彈性承諾使用折扣。
- A3 Mega 機型只能在特定區域和可用區使用。
- 如果執行個體使用 A3 Mega 機型,就無法使用區域永久磁碟。
- A3 Mega 機型僅適用於 Sapphire Rapids CPU 平台。
- A3 Mega 機型不支援變更機器類型。如要改用或停用這類機器類型,必須建立新的執行個體。
- 您無法在 A3 Mega 機型上執行 Windows 作業系統。
A3 High
- 使用 A3 High 機型 的執行個體不適用續用折扣和彈性承諾使用折扣。
- 您只能在特定區域和可用區使用 A3 High 機型。
- 您無法在採用 A3 High 機型的執行個體上使用區域永久磁碟。
- A3 High 機型僅適用於 Sapphire Rapids CPU 平台。
- A3 High 機型不支援變更機器類型。如要改用或停用這類機器類型,必須建立新的執行個體。
- 您無法在 A3 High 機型上執行 Windows 作業系統。
- 你只能使用
a3-highgpu-8g。不支援 GPU 數量少於 8 個的 A3 High 機器類型。
事前準備
建立 Slurm 叢集前,請先完成下列步驟 (如尚未完成):
- 選擇計費方案:您選擇的計費方案會決定取得及使用 GPU 資源的方式。詳情請參閱「選擇消耗量選項」。
- 取得容量:取得容量的程序會因消費選項而異。如要瞭解如何為所選用量方案取得容量,請參閱「容量總覽」。
- 確認您有足夠的 Filestore 容量配額:部署前,您必須在目標區域中擁有足夠的 Filestore 配額。所需最低容量取決於叢集中的機器類型:
- A4X Max、A4X、A4、A3 Ultra 和 A3 Mega:需要至少 10 TiB (10,240 GiB) 的 HIGH_SCALE_SSD (可用區) 容量。
- A3 High:至少需要 2.5 TiB (2,560 GiB) 的 BASIC_SSD (標準) 容量。
如要查看配額或申請提高配額,請參閱下列文章:
- 如要查看專案的配額,請參閱「查看 API 專屬配額」一節。
- 如果配額不足,請申請提高配額。
- 驗證可信映像檔政策:如果專案所屬的機構設有可信映像檔政策 (
constraints/compute.trustedImageProjects),請確認clusterdirector-public-images專案已列入允許的專案清單。詳情請參閱「設定可信映像檔政策」。
必要的角色
如要建立 Slurm 叢集,您必須具備下列 IAM 角色和權限:
-
如要取得完成本快速入門導覽課程所需的權限,請要求管理員在專案中授予您下列 IAM 角色:
-
如要建立及管理叢集:
Cluster Director 編輯者 (
roles/hypercomputecluster.editor) -
如要在叢集中建立及管理 VM:
Compute 執行個體管理員 (v1) (
roles/compute.instanceAdmin.v1) -
如要連線至叢集中的登入節點,請按照下列步驟操作:
-
Compute OS 登入 (
roles/compute.osLogin) -
受 IAP 保護的通道使用者 (
roles/iap.tunnelResourceAccessor)
-
Compute OS 登入 (
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。
-
如要建立及管理叢集:
Cluster Director 編輯者 (
-
如要取得完成本快速入門導覽課程所需的權限,請要求管理員在 Compute Engine 預設服務帳戶中,授予您下列 IAM 角色:
-
如要建立叢集,請按照下列步驟操作:
服務帳戶使用者 (
roles/iam.serviceAccountUser) -
如要管理叢集中的資源:
-
記錄寫入者 (
roles/logging.logWriter) -
Monitoring 指標寫入者 (
roles/monitoring.metricWriter) -
Storage 物件檢視者 (
roles/storage.objectViewer)
-
記錄寫入者 (
-
如要建立叢集,請按照下列步驟操作:
服務帳戶使用者 (
建立 Slurm 叢集
如要使用 Cluster Director 建立 AI 適用叢集,請完成下列步驟:
設定運算資源設定
如要在建立叢集時設定運算資源設定,請完成下列步驟:
前往 Google Cloud 控制台的「Cluster Director」頁面。
按一下「建立叢集」。
在隨即顯示的對話方塊中,按一下「參考架構」。「建立叢集」頁面隨即開啟。
按一下其中一個可用範本。您可以視需要編輯範本,以符合工作負載需求。
點按「自訂」。
在「Compute」(運算) 部分的「Cluster name」(叢集名稱) 欄位中,輸入叢集名稱。名稱最多可包含 10 個字元,且只能使用數字或小寫字母 (
a-z)。如要為預先設定的運算資源設定新增資訊,或編輯設定指定的運算執行個體數量和類型,請按照下列步驟操作:
在「Compute」(運算) 部分,按一下 「Edit resource configuration」(編輯資源設定)。「新增資源設定」窗格隨即顯示。
選用:如要變更運算資源設定名稱,請在「名稱」欄位中輸入新名稱。
選用:如要變更叢集使用的運算執行個體數量和類型,請在「機器設定」部分中,按照提示更新運算資源。
在「Consumption options」(用量方案) 部分,指定要用來取得資源的用量方案:
如要使用預留項目建立運算執行個體,請按照下列步驟操作:
如要建立彈性啟動 VM,請按照下列步驟操作:
按一下「彈性啟動」分頁標籤。
在「Time limit for the VM」(VM 的時間限制) 區段中,指定運算執行個體的執行時間。這個值必須介於 10 分鐘至 7 天之間。
在「Location」(位置) 專區中,選取要建立彈性啟動 VM 的區域。Google Cloud 控制台會自動篩選可用區域,只顯示所選機型支援彈性啟動型 VM 的區域。
如要建立 Spot VM,請按照下列步驟操作:
按一下「使用點數」分頁標籤。
在「On VM termination」(在 VM 終止時) 清單中,選取下列其中一個選項:
如要在先占時刪除 Spot VM,請選取「Delete」(刪除)。
如要在先占時停止 Spot VM,請選取「停止」。
在「Location」(位置) 部分,選取要建立 Spot VM 的「Region」(區域) 和「Zone」(可用區)。Google Cloud 控制台會自動篩選可用區域,只顯示所選機型支援 Spot VM 的區域。
按一下 [完成]。
選用步驟:如要為分割區建立其他運算資源設定,請按一下「新增資源設定」,然後按照提示指定運算資源。
按一下「繼續」。
設定網路
如要設定叢集使用的網路,請完成下列步驟:
在「選擇虛擬私有雲 (VPC) 網路」部分中,執行下列其中一項操作:
建議:如要讓 AI Hypercomputer 自動為叢集建立預先設定的虛擬私有雲網路,請執行下列操作:
選取「建立新的虛擬私有雲網路」。
在「網路名稱」欄位中,輸入虛擬私有雲網路的名稱。
如要使用現有的虛擬私有雲或 Shared VPC 網路,請按照下列步驟操作:
選取「使用目前專案的虛擬私有雲網路」或「使用託管於其他專案的 Shared VPC 網路」。
在「選取虛擬私有雲網路」或「選取 Shared VPC 網路」清單中,選取符合必要設定的虛擬私有雲或 Shared VPC 網路。
在「選取子網路」清單中,選取現有子網路。
按一下「繼續」。
設定儲存空間資源
如要設定叢集使用的儲存空間資源,請在「儲存空間」部分完成下列步驟:
選用:如要編輯儲存空間資源,請按一下「編輯儲存空間方案」,然後按照提示更新儲存空間資源的設定。
選用:如要將儲存空間資源新增至叢集,請按一下 「Add storage configuration」(新增儲存空間設定),然後按照提示指定儲存空間資源的設定。
按一下「繼續」。
設定 Slurm 環境
如要在叢集中設定 Slurm 環境,請完成下列步驟:
選用:如要編輯登入節點使用的運算執行個體數量和類型,請展開「登入節點」部分,然後按照提示更新運算資源。
選用:如要編輯叢集的分區,以便整理運算資源,請展開「分區」部分,然後執行下列任一操作:
如要新增分區,請按一下「新增分區」,然後執行下列操作:
在「Partition name」(分割區名稱) 欄位中,輸入分割區名稱。
如要編輯節點集,請按一下「切換節點集」。否則,如要新增節點集,請按一下「新增節點集」。
在「節點集名稱」欄位中,輸入節點集的名稱。
在「資源設定」欄位中,選取您在前述步驟中建立的運算資源設定。
在「Source image」清單中,選取其中一個 AI Hypercomputer 支援的作業系統映像檔。
在「Static node count」(靜態節點數量) 欄位中,輸入叢集中必須一律執行的運算執行個體數量下限。
在「Dynamic node count」(動態節點計數) 欄位中,輸入 AI Hypercomputer 可在流量增加時,將叢集擴充至的運算執行個體數量上限。
在「Boot disk type」(開機磁碟類型) 清單和「Boot disk size」(開機磁碟大小) 欄位中,輸入運算執行個體要使用的開機磁碟類型和大小。
按一下 [完成]。
如要移除磁碟分割區,請按一下 「刪除磁碟分割區」。
選用:如要將序幕或尾聲指令碼新增至 Slurm 環境,請按照下列步驟操作:
展開「進階自動化調度管理設定」部分。
在「腳本」部分中,按照提示新增腳本。
點按「Create」(建立)。「Clusters」(叢集) 頁面隨即顯示。叢集可能需要一段時間才會建立完畢。完成時間取決於您要求的運算執行個體數量,以及運算執行個體可用區的資源可用性。如果要求的資源無法使用,AI Hypercomputer 會保留建立要求,直到資源可用為止。如要查看叢集建立作業的狀態,請查看叢集的詳細資料。
連線至 Slurm 叢集
AI Hypercomputer 建立登入節點後,叢集狀態會變更為「Ready」(就緒)。然後您就能連線至叢集,但只有在 AI Hypercomputer 於叢集中建立運算節點後,您才能執行工作負載。
如要使用Google Cloud 控制台,透過 SSH 連線至叢集的登入節點,請完成下列步驟:
前往 Google Cloud 控制台的「Clusters」(叢集) 頁面。
在「Clusters」(叢集) 資料表的「Name」(名稱) 欄中,按一下您在前一節建立的叢集名稱。系統會顯示叢集詳細資料頁面,並選取「Details」(詳細資料) 分頁。
按一下「Nodes」(節點) 分頁標籤。
在「Login nodes」(登入節點) 部分中,於「Connect」(連線) 欄找出叢集的登入節點,名稱為
CLUSTER_NAME-login-001。在登入節點的「Connect」(連線) 欄中,按一下「SSH」按鈕。 「SSH-in-browser」(直接透過瀏覽器進行 SSH 連線) 視窗隨即開啟。
如果出現提示訊息,請點選「Authorize」(授權)。系統會在 1 分鐘內連線至節點。
確認 Slurm 叢集健康狀態
在運算節點上執行工作前,Slurm 會自動對節點執行快速的 GPU 健康狀態檢查。如果節點未通過檢查,Slurm 會排空節點,並禁止在該節點上安排新工作。
如要更徹底地測試叢集分割區中運算節點的 GPU 健康狀態和網路頻寬,可以手動執行 NVIDIA Collective Communications Library (NCCL) 測試。如果 NCCL 測試發現任何健康狀態不良的節點,您可以修復節點或修改叢集。執行重要工作負載前,請先進行 NCCL 測試,確認叢集健康狀態。詳情請參閱「驗證叢集健康狀態」。
刪除 Slurm 叢集
如要刪除專案中的 Slurm 叢集,請選取下列其中一個選項:
前往 Google Cloud 控制台的「Clusters」(叢集) 頁面。
在「Clusters」(叢集) 資料表的「Name」(名稱) 欄中,按一下要刪除的叢集名稱。系統會顯示叢集詳細資料頁面,並選取「Details」(詳細資料) 分頁。
按一下「刪除」圖示 。
在隨即顯示的對話方塊中輸入叢集名稱,然後按一下「Delete」(刪除) 確認操作。「Clusters」(叢集) 頁面隨即顯示。叢集可能需要一段時間才會刪除完畢。