建立全代管 Slurm 叢集,用於 AI 工作負載

本文說明如何設定及部署全代管的 Slurm 叢集,並使用 A4X、A4、A3 Ultra、A3 Mega 或 A3 High 機型。如要進一步瞭解這些加速器最佳化機型,請參閱「GPU 機型」一文。

本文的步驟說明如何使用 Cluster Director 建立 Slurm 叢集。Cluster Director 是一項產品,可自動設定及配置 Slurm 叢集。 Google Cloud這項服務專為 IT 管理員和 AI 研究人員設計,可避免管理叢集的開銷,讓他們專心執行工作負載。如要進一步控管叢集的部署和管理作業,請使用 Cluster Toolkit 建立叢集

限制

視叢集中 Compute Engine 執行個體使用的機型而定,適用下列限制:

A4X

A4

  • 使用 A4 機型的執行個體無法享有續用折扣彈性承諾使用折扣
  • A4 機型只能在特定區域和可用區使用。
  • 您無法使用永久磁碟 (區域或可用區)。只能使用 Google Cloud Hyperdisk
  • A4 機型僅適用於 Emerald Rapids CPU 平台
  • 您無法將執行個體的機型變更為 A4 機型,也無法從 A4 機型變更為其他機型。您必須使用這個機型建立新的執行個體。
  • A4 機器類型不支援單一租戶
  • 您無法在 A4 機型上執行 Windows 作業系統。
  • 如果是 A4 執行個體,使用 ethtool -S 監控 GPU 網路時,結尾為 _phy 的實體連接埠計數器不會更新。這是使用 MRDMA 虛擬函式 (VF) 架構的執行個體預期會發生的行為。詳情請參閱「MRDMA functions and network monitoring tools」。
  • 您無法將 2026 年 2 月 4 日前建立的 Hyperdisk ML 磁碟連結至 A4 機器類型。

A3 Ultra

  • 使用 A3 Ultra 機型的執行個體不適用續用折扣彈性承諾使用折扣
  • A3 Ultra 機型僅適用於特定區域和可用區
  • 您無法使用永久磁碟 (區域或可用區)。只能使用 Google Cloud Hyperdisk
  • A3 Ultra 機型僅適用於 Emerald Rapids CPU 平台
  • A3 Ultra 機型不支援變更機型。如要改用或停用這類機器類型,必須建立新的執行個體。
  • 您無法在 A3 Ultra 機型上執行 Windows 作業系統。
  • A3 Ultra 機型不支援單一租戶
  • 如果是 A3 Ultra 執行個體,使用 ethtool -S 監控 GPU 網路時,結尾為 _phy 的實體連接埠計數器不會更新。如果執行個體使用 MRDMA 虛擬函式 (VF) 架構,這是預期行為。詳情請參閱「MRDMA functions and network monitoring tools」。

A3 Mega

A3 High

  • 使用 A3 High 機型 的執行個體不適用續用折扣彈性承諾使用折扣
  • 您只能在特定區域和可用區使用 A3 High 機型。
  • 您無法在採用 A3 High 機型的執行個體上使用區域永久磁碟
  • A3 High 機型僅適用於 Sapphire Rapids CPU 平台
  • A3 High 機型不支援變更機器類型。如要改用或停用這類機器類型,必須建立新的執行個體。
  • 您無法在 A3 High 機型上執行 Windows 作業系統。
  • 你只能使用 a3-highgpu-8g。不支援 GPU 數量少於 8 個的 A3 High 機器類型。

事前準備

建立 Slurm 叢集前,請先完成下列步驟 (如尚未完成):

  1. 選擇計費方案:您選擇的計費方案會決定取得及使用 GPU 資源的方式。詳情請參閱「選擇消耗量選項」。
  2. 取得容量:取得容量的程序會因消費選項而異。如要瞭解如何為所選用量方案取得容量,請參閱「容量總覽」。
  3. 確認您有足夠的 Filestore 容量配額:部署前,您必須在目標區域中擁有足夠的 Filestore 配額。所需最低容量取決於叢集中的機器類型:
    • A4X Max、A4X、A4、A3 Ultra 和 A3 Mega:需要至少 10 TiB (10,240 GiB) 的 HIGH_SCALE_SSD (可用區) 容量。
    • A3 High:至少需要 2.5 TiB (2,560 GiB) 的 BASIC_SSD (標準) 容量。

    如要查看配額或申請提高配額,請參閱下列文章:

  4. 驗證可信映像檔政策:如果專案所屬的機構設有可信映像檔政策 (constraints/compute.trustedImageProjects),請確認 clusterdirector-public-images 專案已列入允許的專案清單。詳情請參閱「設定可信映像檔政策」。

必要的角色

如要建立 Slurm 叢集,您必須具備下列 IAM 角色和權限:

建立 Slurm 叢集

如要使用 Cluster Director 建立 AI 適用叢集,請完成下列步驟:

  1. 設定運算資源設定

  2. 設定網路

  3. 設定儲存空間資源

  4. 設定 Slurm 環境

設定運算資源設定

如要在建立叢集時設定運算資源設定,請完成下列步驟:

  1. 前往 Google Cloud 控制台的「Cluster Director」頁面。

    前往 Cluster Director

  2. 按一下「建立叢集」

  3. 在隨即顯示的對話方塊中,按一下「參考架構」。「建立叢集」頁面隨即開啟。

  4. 按一下其中一個可用範本。您可以視需要編輯範本,以符合工作負載需求。

  5. 點按「自訂」

  6. 在「Compute」(運算) 部分的「Cluster name」(叢集名稱) 欄位中,輸入叢集名稱。名稱最多可包含 10 個字元,且只能使用數字或小寫字母 (a-z)。

  7. 如要為預先設定的運算資源設定新增資訊,或編輯設定指定的運算執行個體數量和類型,請按照下列步驟操作:

    1. 在「Compute」(運算) 部分,按一下 「Edit resource configuration」(編輯資源設定)。「新增資源設定」窗格隨即顯示。

    2. 選用:如要變更運算資源設定名稱,請在「名稱」欄位中輸入新名稱。

    3. 選用:如要變更叢集使用的運算執行個體數量和類型,請在「機器設定」部分中,按照提示更新運算資源。

    4. 在「Consumption options」(用量方案) 部分,指定要用來取得資源的用量方案:

      • 如要使用預留項目建立運算執行個體,請按照下列步驟操作:

        1. 按一下「使用預留項目」分頁標籤。

        2. 按一下「選取預留項目」。「選擇預留項目」窗格隨即顯示。如要使用 A4X VM 的預留項目,您可以選擇區塊子區塊,控制 VM 的放置位置。

        3. 選取要使用的預訂。然後按一下「選擇」。這項操作會自動設定運算資源的「區域」和「可用區」

      • 如要建立彈性啟動 VM,請按照下列步驟操作:

        1. 按一下「彈性啟動」分頁標籤。

        2. 在「Time limit for the VM」(VM 的時間限制) 區段中,指定運算執行個體的執行時間。這個值必須介於 10 分鐘至 7 天之間。

        3. 在「Location」(位置) 專區中,選取要建立彈性啟動 VM 的區域。Google Cloud 控制台會自動篩選可用區域,只顯示所選機型支援彈性啟動型 VM 的區域。

      • 如要建立 Spot VM,請按照下列步驟操作:

        1. 按一下「使用點數」分頁標籤。

        2. 在「On VM termination」(在 VM 終止時) 清單中,選取下列其中一個選項:

          • 如要在先占時刪除 Spot VM,請選取「Delete」(刪除)

          • 如要在先占時停止 Spot VM,請選取「停止」

        3. 在「Location」(位置) 部分,選取要建立 Spot VM 的「Region」(區域) 和「Zone」(可用區)。Google Cloud 控制台會自動篩選可用區域,只顯示所選機型支援 Spot VM 的區域。

    5. 按一下 [完成]

    6. 選用步驟:如要為分割區建立其他運算資源設定,請按一下「新增資源設定」,然後按照提示指定運算資源。

  8. 按一下「繼續」

設定網路

如要設定叢集使用的網路,請完成下列步驟:

  1. 在「選擇虛擬私有雲 (VPC) 網路」部分中,執行下列其中一項操作:

    • 建議:如要讓 AI Hypercomputer 自動為叢集建立預先設定的虛擬私有雲網路,請執行下列操作:

      1. 選取「建立新的虛擬私有雲網路」

      2. 在「網路名稱」欄位中,輸入虛擬私有雲網路的名稱。

    • 如要使用現有的虛擬私有雲或 Shared VPC 網路,請按照下列步驟操作:

      1. 選取「使用目前專案的虛擬私有雲網路」或「使用託管於其他專案的 Shared VPC 網路」

      2. 在「選取虛擬私有雲網路」或「選取 Shared VPC 網路」清單中,選取符合必要設定的虛擬私有雲或 Shared VPC 網路。

      3. 在「選取子網路」清單中,選取現有子網路。

  2. 按一下「繼續」

設定儲存空間資源

如要設定叢集使用的儲存空間資源,請在「儲存空間」部分完成下列步驟:

  1. 選用:如要編輯儲存空間資源,請按一下「編輯儲存空間方案」,然後按照提示更新儲存空間資源的設定。

  2. 選用:如要將儲存空間資源新增至叢集,請按一下 「Add storage configuration」(新增儲存空間設定),然後按照提示指定儲存空間資源的設定。

  3. 按一下「繼續」

設定 Slurm 環境

如要在叢集中設定 Slurm 環境,請完成下列步驟:

  1. 選用:如要編輯登入節點使用的運算執行個體數量和類型,請展開「登入節點」部分,然後按照提示更新運算資源。

  2. 選用:如要編輯叢集的分區,以便整理運算資源,請展開「分區」部分,然後執行下列任一操作:

    • 如要新增分區,請按一下「新增分區」,然後執行下列操作:

      1. 在「Partition name」(分割區名稱) 欄位中,輸入分割區名稱。

      2. 如要編輯節點集,請按一下「切換節點集」。否則,如要新增節點集,請按一下「新增節點集」

      3. 在「節點集名稱」欄位中,輸入節點集的名稱。

      4. 在「資源設定」欄位中,選取您在前述步驟中建立的運算資源設定。

      5. 在「Source image」清單中,選取其中一個 AI Hypercomputer 支援的作業系統映像檔

      6. 在「Static node count」(靜態節點數量) 欄位中,輸入叢集中必須一律執行的運算執行個體數量下限。

      7. 在「Dynamic node count」(動態節點計數) 欄位中,輸入 AI Hypercomputer 可在流量增加時,將叢集擴充至的運算執行個體數量上限。

      8. 在「Boot disk type」(開機磁碟類型) 清單和「Boot disk size」(開機磁碟大小) 欄位中,輸入運算執行個體要使用的開機磁碟類型和大小。

      9. 按一下 [完成]

    • 如要移除磁碟分割區,請按一下 「刪除磁碟分割區」

  3. 選用:如要將序幕或尾聲指令碼新增至 Slurm 環境,請按照下列步驟操作:

    1. 展開「進階自動化調度管理設定」部分。

    2. 在「腳本」部分中,按照提示新增腳本。

  4. 點按「Create」(建立)。「Clusters」(叢集) 頁面隨即顯示。叢集可能需要一段時間才會建立完畢。完成時間取決於您要求的運算執行個體數量,以及運算執行個體可用區的資源可用性。如果要求的資源無法使用,AI Hypercomputer 會保留建立要求,直到資源可用為止。如要查看叢集建立作業的狀態,請查看叢集的詳細資料

連線至 Slurm 叢集

AI Hypercomputer 建立登入節點後,叢集狀態會變更為「Ready」(就緒)。然後您就能連線至叢集,但只有在 AI Hypercomputer 於叢集中建立運算節點後,您才能執行工作負載。

如要使用Google Cloud 控制台,透過 SSH 連線至叢集的登入節點,請完成下列步驟:

  1. 前往 Google Cloud 控制台的「Clusters」(叢集) 頁面。

    前往叢集

  2. 在「Clusters」(叢集) 資料表的「Name」(名稱) 欄中,按一下您在前一節建立的叢集名稱。系統會顯示叢集詳細資料頁面,並選取「Details」(詳細資料) 分頁。

  3. 按一下「Nodes」(節點) 分頁標籤。

  4. 在「Login nodes」(登入節點) 部分中,於「Connect」(連線) 欄找出叢集的登入節點,名稱為 CLUSTER_NAME-login-001

  5. 在登入節點的「Connect」(連線) 欄中,按一下「SSH」按鈕。 「SSH-in-browser」(直接透過瀏覽器進行 SSH 連線) 視窗隨即開啟。

  6. 如果出現提示訊息,請點選「Authorize」(授權)。系統會在 1 分鐘內連線至節點。

確認 Slurm 叢集健康狀態

在運算節點上執行工作前,Slurm 會自動對節點執行快速的 GPU 健康狀態檢查。如果節點未通過檢查,Slurm 會排空節點,並禁止在該節點上安排新工作。

如要更徹底地測試叢集分割區中運算節點的 GPU 健康狀態和網路頻寬,可以手動執行 NVIDIA Collective Communications Library (NCCL) 測試。如果 NCCL 測試發現任何健康狀態不良的節點,您可以修復節點或修改叢集。執行重要工作負載前,請先進行 NCCL 測試,確認叢集健康狀態。詳情請參閱「驗證叢集健康狀態」。

刪除 Slurm 叢集

如要刪除專案中的 Slurm 叢集,請選取下列其中一個選項:

  1. 前往 Google Cloud 控制台的「Clusters」(叢集) 頁面。

    前往叢集

  2. 在「Clusters」(叢集) 資料表的「Name」(名稱) 欄中,按一下要刪除的叢集名稱。系統會顯示叢集詳細資料頁面,並選取「Details」(詳細資料) 分頁。

  3. 按一下「刪除」圖示

  4. 在隨即顯示的對話方塊中輸入叢集名稱,然後按一下「Delete」(刪除) 確認操作。「Clusters」(叢集) 頁面隨即顯示。叢集可能需要一段時間才會刪除完畢。

後續步驟