如要使用 Vertex AI 訓練叢集,請與業務代表聯絡以取得存取權。
如要在 Vertex AI 訓練叢集上部署第一個叢集,必須先設定Google Cloud 專案和環境。本指南涵蓋所有必要條件,主要分為三類:
專案存取權:取得服務存取權 (僅限受邀者)。
資源設定:啟用 API,並設定必要的 VPC 網路和儲存服務。
使用者權限:授予叢集管理和資源存取權所需的 IAM 角色。
完成這些步驟後,專案就能順利部署。
必要條件
如要使用訓練叢集,必須符合下列條件:
- 如要存取,請將專案加入許可清單,並與業務代表聯絡。
- 在支援的區域中取得 GPU 叢集的容量。
- 啟用必要 API,包括 Compute Engine、Filestore、Cloud Storage、Managed Lustre (選用)、Hypercomputer Configuration Service 和 Vertex AI API。
- 設定網路:確認現有網路符合特定條件 (例如 Google 私人存取權、防火牆規則),或建立新的 VPC 網路和子網路。
- 設定儲存空間:建立區域或地區性 Filestore 執行個體做為
/home目錄,並視需要設定Google Cloud 代管 Lustre 執行個體。 - 如身分與存取權管理權限一節所述,授予使用者身分與存取權管理權限,以便管理叢集、存取儲存空間,以及透過 SSH 存取叢集節點。
支援的地區
us-central1us-east1us-east4us-east5us-south1us-west1us-west4asia-southeast1europe-west1europe-west4europe-north1
IAM 權限
- 將
roles/aiplatform.admin角色授予要管理訓練叢集的使用者。 - 如果使用者只需要查看叢集及其設定,請授予
roles/aiplatform.viewer角色。 將下列 IAM 角色授予將管理 (建立、刪除及更新) Managed Training 叢集的使用者或服務帳戶:
角色名稱 角色 ID Compute 執行個體管理員 (v1) roles/compute.instanceAdmin.v1記錄寫入者 roles/logging.logWriterMonitoring 指標寫入者 roles/monitoring.metricWriter服務帳戶使用者 roles/iam.serviceAccountUser服務網路管理員 roles/servicenetworking.networksAdmin如要允許叢集的節點使用 Google Cloud Storage FUSE 從 Cloud Storage 值區讀取及寫入資料,請將 Storage 物件使用者角色 (
roles/storage.objectUser) 授予 VM 使用的服務帳戶。如要透過 SSH 存取 Slurm 登入節點,請授予下列權限:
權限 說明 目的 Compute OS 登入 以標準 (非管理員) 使用者身分登入 VM。如果需要 sudo,請改用 Compute OS 管理員登入。透過 SSH 連線至已部署的登入節點 受 IAP 保護的通道使用者 可存取使用 Identity-Aware Proxy 的通道資源。 透過 SSH 連線至已部署的登入節點
啟用 API
啟用 Google Compute Engine API:
gcloud services enable compute.googleapis.com啟用服務聯網,因為必須先部署 Filestore,才能建立叢集。
gcloud services enable servicenetworking.googleapis.com啟用 Cloud Storage API:
gcloud services enable storage.googleapis.com啟用 Lustre API (如要使用 Lustre):
gcloud services enable lustre.googleapis.com啟用 HCS API:
gcloud services enable hypercomputecluster.googleapis.com啟用 Vertex AI API:
gcloud services enable aiplatform.googleapis.com啟用 Cloud Resource Manager API:
gcloud services enable cloudresourcemanager.googleapis.com
後續步驟
如需建立訓練叢集及執行 AI/機器學習工作負載的詳細指南,請洽詢業務代表。