建立內含兩個 A4 VM 的全代管 Slurm 叢集

本快速入門導覽課程說明如何使用 Cluster Director 建立及連線至 Slurm 叢集。您建立的叢集會使用兩個 A4 虛擬機器 (VM) 執行個體,這些執行個體經過精心設計,可協助 Slurm 叢集有效處理大規模模型訓練和推論工作負載。

Cluster Director 是一項代管服務,可簡化及自動化叢集部署作業,減少作業負擔,讓您專心執行工作負載。如要進一步控管叢集的部署和管理作業,請使用 Cluster Toolkit 建立 Slurm 叢集


如要直接在 Google Cloud 控制台中,按照這項工作的逐步指南操作,請按一下「Guide me」(逐步引導)

「Guide me」(逐步引導)


事前準備

  1. 登入 Google Cloud 帳戶。如果您是 Google Cloud新手,歡迎 建立帳戶,親自評估產品在實際工作環境中的成效。新客戶還能獲得價值 $300 美元的免費抵免額,可用於執行、測試及部署工作負載。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. 啟用 Hypercompute Cluster API、Compute Engine API、Filestore API、Google Cloud Managed Lustre API、Cloud Logging API 和 Cloud Monitoring API:

    啟用 API
  7. 確認專案和 Compute Engine 預設服務帳戶具備下列身分與存取權管理 (IAM) 角色:
  8. 如果專案所屬的機構設有可信映像檔政策 (constraints/compute.trustedImageProjects),請確認 clusterdirector-public-images 專案已列入允許的專案清單。如要查看貴機構的可信映像檔政策,請參閱「設定映像檔存取限制」。

費用

本快速入門導覽課程會使用下列計費 Google Cloud 資源:

  • Compute Engine

    • 兩部採用 A4 機型的 VM

    • Slurm 登入節點的一個永久磁碟區,大小為 100 GB

    • 一個 100 GB 的 Google Cloud Hyperdisk Balanced 磁碟區,適用於 A4 VM

  • Filestore:容量為 10 TiB (10,240 GiB) 的 Filestore 執行個體

您可以使用 Pricing Calculator 根據預測用量估算費用。

建立 Slurm 叢集

如要建立 Slurm 叢集,請完成下列步驟:

  1. 前往 Google Cloud 控制台的「Cluster Director」頁面。

    前往 Cluster Director

  2. 按一下 「建立叢集」

  3. 在隨即顯示的對話方塊中,按一下「Step-by-step configuration」(逐步設定)。「Create cluster」(建立叢集) 頁面隨即顯示。

  4. 在「Cluster name」(叢集名稱) 欄位中輸入 cluster001

  5. 在「Compute」(運算) 部分,按一下「Configure resources」(設定資源)。在隨即顯示的「Add resource configuration」(新增資源設定) 窗格中,完成下列步驟:

    1. 在「GPU type」(GPU 類型) 清單中,選取「NVIDIA B200 180GB」

    2. 在「Number of instances」(執行個體數量) 欄位中,輸入 2

    3. 在「Consumption options」(用量方案) 部分,選取要用來取得資源的用量方案。

    4. 在「Location」(位置) 部分中,指定要建立 A4 VM 的「Region」(區域) 和「Zone」(可用區),或是要用來建立 VM 的預訂項目所在位置。

    5. 按一下 [完成]

  6. 按一下導覽選單中的「儲存空間」

  7. 在「儲存空間」部分,按一下 「編輯儲存空間設定」。在隨即顯示的「Add storage configuration」(新增儲存空間設定) 窗格中,完成下列步驟:

    1. 在「容量」部分,選取「10 至 100 TiB,以 2.5 TiB 為單位調整」

    2. 按一下 [完成]

  8. 點按「Create」(建立)。「Clusters」(叢集) 頁面隨即顯示。

    叢集可能需要一段時間才會建立完畢。完成時間取決於您要求的 VM 數量,以及 VM 所在可用區的資源可用性。如果要求的資源無法使用,Cluster Director 會保留建立要求,直到資源可用為止。

查看叢集建立要求

如要查看叢集建立要求,請完成下列步驟:

  1. 在「Clusters」(叢集) 資料表的「Name」(名稱) 欄中,按一下「cluster001」。系統會顯示叢集詳細資料頁面,並選取「Details」(詳細資料) 分頁。

  2. 在「Compute」(運算) 部分,找到「Status」(狀態) 列。當 AI Hypercomputer 將值設為「Ready」(已就緒) 時,即可繼續下一個步驟。

透過 SSH 連線至叢集

如要透過 SSH 連線至叢集,請完成下列步驟:

  1. 按一下「Nodes」(節點) 分頁標籤。

  2. 在「Login nodes」(登入節點) 表格中,找出含有「cluster001-login-001」節點的資料列。在該列的「Connect」(連線) 欄中,按一下「SSH」按鈕。系統會顯示「SSH-in-browser」(直接透過瀏覽器進行 SSH 連線) 視窗。

  3. 如果出現提示訊息,請點選「Authorize」(授權)。系統會在一段時間內連線至叢集。終端機準備就緒後,請繼續前往下一節。

執行範例工作

在「SSH-in-browser」(透過瀏覽器進行 SSH 連線) 視窗中,完成下列步驟:

  1. 執行下列指令,確認 Slurm 正在運作:

    sinfo
    
  2. 執行下列指令來提交測試工作,系統就會傳回節點的主機名稱:

    srun hostname
    
  3. 如要提交休眠 30 秒的批次工作,請執行下列指令:

    sbatch --wrap="sleep 30"
    
  4. 執行下列指令,檢查佇列中的工作狀態:

    squeue
    
  5. 執行下列指令,查看工作的統計資料:

    sacct
    

您已成功建立及連線至 Slurm 叢集,並執行範例工作!如果 AI Hypercomputer 仍未建立 A4 VM,您可以等待叢集建立 VM、修改叢集來新增或移除 VM,或刪除叢集,以免產生不必要的費用。

清除所用資源

為了避免系統向您的 Google Cloud 帳戶收取本頁面所用資源的費用,請按照下列步驟操作。

刪除專案

如要避免付費,最簡單的方法就是刪除您為了本教學課程所建立的專案。

刪除專案的方法如下:

  1. 前往 Google Cloud 控制台的「Manage resources」(管理資源) 頁面。

    前往「Manage resources」(管理資源)

  2. 在專案清單中選取要刪除的專案,然後點選「Delete」(刪除)
  3. 在對話方塊中輸入專案 ID,然後按一下 [Shut down] (關閉) 以刪除專案。

刪除叢集

如要刪除您在本快速入門導覽課程中建立的叢集和相關聯資源,請完成下列步驟:

  1. 在包含叢集詳細資料的頁面中,按一下 「Delete」(刪除)

  2. 在出現的對話方塊中輸入 cluster001,然後按一下「Delete」(刪除) 以進行確認。

後續步驟