建立內含兩個 A4 VM 的全代管 Slurm 叢集
本快速入門導覽課程說明如何使用 Cluster Director 建立及連線至 Slurm 叢集。您建立的叢集會使用兩個 A4 虛擬機器 (VM) 執行個體,這些執行個體經過精心設計,可協助 Slurm 叢集有效處理大規模模型訓練和推論工作負載。
Cluster Director 是一項代管服務,可簡化及自動化叢集部署作業,減少作業負擔,讓您專心執行工作負載。如要進一步控管叢集的部署和管理作業,請使用 Cluster Toolkit 建立 Slurm 叢集。
如要直接在 Google Cloud 控制台中,按照這項工作的逐步指南操作,請按一下「Guide me」(逐步引導):
事前準備
- 登入 Google Cloud 帳戶。如果您是 Google Cloud新手,歡迎 建立帳戶,親自評估產品在實際工作環境中的成效。新客戶還能獲得價值 $300 美元的免費抵免額,可用於執行、測試及部署工作負載。
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
啟用 Hypercompute Cluster API、Compute Engine API、Filestore API、Google Cloud Managed Lustre API、Cloud Logging API 和 Cloud Monitoring API:
啟用 API- 確認專案和 Compute Engine 預設服務帳戶具備下列身分與存取權管理 (IAM) 角色:
-
如要取得完成本快速入門導覽課程所需的權限,請要求管理員在專案中授予您下列 IAM 角色:
-
如要建立及管理叢集:Cluster Director 編輯者 (
roles/hypercomputecluster.editor) -
如要在叢集中建立及管理 VM:
Compute 執行個體管理員 (v1) (
roles/compute.instanceAdmin.v1) -
如要連線至叢集中的登入節點,請按照下列步驟操作:
- Compute OS 登入 (
roles/compute.osLogin) - 受 IAP 保護的通道使用者 (
roles/iap.tunnelResourceAccessor)
- Compute OS 登入 (
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。
-
如要建立及管理叢集:Cluster Director 編輯者 (
-
如要取得完成本快速入門導覽課程所需的權限,請要求管理員在 Compute Engine 預設服務帳戶中,授予您下列 IAM 角色:
-
如要建立叢集:
服務帳戶使用者 (
roles/iam.serviceAccountUser) -
如要管理叢集中的資源:
- 記錄寫入者 (
roles/logging.logWriter) - Monitoring 指標寫入者 (
roles/monitoring.metricWriter) - Storage 物件檢視者 (
roles/storage.objectViewer)
- 記錄寫入者 (
-
如要建立叢集:
服務帳戶使用者 (
-
- 如果專案所屬的機構設有可信映像檔政策 (
constraints/compute.trustedImageProjects),請確認clusterdirector-public-images專案已列入允許的專案清單。如要查看貴機構的可信映像檔政策,請參閱「設定映像檔存取限制」。
費用
本快速入門導覽課程會使用下列計費 Google Cloud 資源:
Compute Engine:
兩部採用 A4 機型的 VM
Slurm 登入節點的一個永久磁碟區,大小為 100 GB
一個 100 GB 的 Google Cloud Hyperdisk Balanced 磁碟區,適用於 A4 VM
Filestore:容量為 10 TiB (10,240 GiB) 的 Filestore 執行個體
您可以使用 Pricing Calculator 根據預測用量估算費用。
建立 Slurm 叢集
如要建立 Slurm 叢集,請完成下列步驟:
前往 Google Cloud 控制台的「Cluster Director」頁面。
按一下 「建立叢集」。
在隨即顯示的對話方塊中,按一下「Step-by-step configuration」(逐步設定)。「Create cluster」(建立叢集) 頁面隨即顯示。
在「Cluster name」(叢集名稱) 欄位中輸入
cluster001。在「Compute」(運算) 部分,按一下「Configure resources」(設定資源)。在隨即顯示的「Add resource configuration」(新增資源設定) 窗格中,完成下列步驟:
在「GPU type」(GPU 類型) 清單中,選取「NVIDIA B200 180GB」。
在「Number of instances」(執行個體數量) 欄位中,輸入
2。在「Consumption options」(用量方案) 部分,選取要用來取得資源的用量方案。
在「Location」(位置) 部分中,指定要建立 A4 VM 的「Region」(區域) 和「Zone」(可用區),或是要用來建立 VM 的預訂項目所在位置。
按一下 [完成]。
按一下導覽選單中的「儲存空間」。
在「儲存空間」部分,按一下 「編輯儲存空間設定」。在隨即顯示的「Add storage configuration」(新增儲存空間設定) 窗格中,完成下列步驟:
在「容量」部分,選取「10 至 100 TiB,以 2.5 TiB 為單位調整」。
按一下 [完成]。
點按「Create」(建立)。「Clusters」(叢集) 頁面隨即顯示。
叢集可能需要一段時間才會建立完畢。完成時間取決於您要求的 VM 數量,以及 VM 所在可用區的資源可用性。如果要求的資源無法使用,Cluster Director 會保留建立要求,直到資源可用為止。
查看叢集建立要求
如要查看叢集建立要求,請完成下列步驟:
在「Clusters」(叢集) 資料表的「Name」(名稱) 欄中,按一下「cluster001」。系統會顯示叢集詳細資料頁面,並選取「Details」(詳細資料) 分頁。
在「Compute」(運算) 部分,找到「Status」(狀態) 列。當 AI Hypercomputer 將值設為「Ready」(已就緒) 時,即可繼續下一個步驟。
透過 SSH 連線至叢集
如要透過 SSH 連線至叢集,請完成下列步驟:
按一下「Nodes」(節點) 分頁標籤。
在「Login nodes」(登入節點) 表格中,找出含有「cluster001-login-001」節點的資料列。在該列的「Connect」(連線) 欄中,按一下「SSH」按鈕。系統會顯示「SSH-in-browser」(直接透過瀏覽器進行 SSH 連線) 視窗。
如果出現提示訊息,請點選「Authorize」(授權)。系統會在一段時間內連線至叢集。終端機準備就緒後,請繼續前往下一節。
執行範例工作
在「SSH-in-browser」(透過瀏覽器進行 SSH 連線) 視窗中,完成下列步驟:
執行下列指令,確認 Slurm 正在運作:
sinfo執行下列指令來提交測試工作,系統就會傳回節點的主機名稱:
srun hostname如要提交休眠 30 秒的批次工作,請執行下列指令:
sbatch --wrap="sleep 30"執行下列指令,檢查佇列中的工作狀態:
squeue執行下列指令,查看工作的統計資料:
sacct
您已成功建立及連線至 Slurm 叢集,並執行範例工作!如果 AI Hypercomputer 仍未建立 A4 VM,您可以等待叢集建立 VM、修改叢集來新增或移除 VM,或刪除叢集,以免產生不必要的費用。
清除所用資源
為了避免系統向您的 Google Cloud 帳戶收取本頁面所用資源的費用,請按照下列步驟操作。
刪除專案
如要避免付費,最簡單的方法就是刪除您為了本教學課程所建立的專案。
刪除專案的方法如下:
- 前往 Google Cloud 控制台的「Manage resources」(管理資源) 頁面。
- 在專案清單中選取要刪除的專案,然後點選「Delete」(刪除)。
- 在對話方塊中輸入專案 ID,然後按一下 [Shut down] (關閉) 以刪除專案。
刪除叢集
如要刪除您在本快速入門導覽課程中建立的叢集和相關聯資源,請完成下列步驟:
在包含叢集詳細資料的頁面中,按一下 「Delete」(刪除)。
在出現的對話方塊中輸入
cluster001,然後按一下「Delete」(刪除) 以進行確認。