開始使用訓練叢集

如要使用 Vertex AI 訓練叢集,請與業務代表聯絡以取得存取權。

如要在 Vertex AI 訓練叢集上部署第一個叢集,必須先設定Google Cloud 專案和環境。本指南涵蓋所有必要條件,主要分為三類:

  • 專案存取權:取得服務存取權 (僅限受邀者)。

  • 資源設定:啟用 API,並設定必要的 VPC 網路和儲存服務。

  • 使用者權限:授予叢集管理和資源存取權所需的 IAM 角色。

完成這些步驟後,專案就能順利部署。

必要條件

如要使用訓練叢集,必須符合下列條件:

  1. 如要存取,請將專案加入許可清單,並與業務代表聯絡。
  2. 在支援的區域中取得 GPU 叢集的容量。
  3. 啟用必要 API,包括 Compute Engine、Filestore、Cloud Storage、Managed Lustre (選用)、Hypercomputer Configuration Service 和 Vertex AI API。
  4. 設定網路:確認現有網路符合特定條件 (例如 Google 私人存取權、防火牆規則),或建立新的 VPC 網路和子網路。
  5. 設定儲存空間:建立區域或地區性 Filestore 執行個體做為 /home 目錄,並視需要設定Google Cloud 代管 Lustre 執行個體
  6. 身分與存取權管理權限一節所述,授予使用者身分與存取權管理權限,以便管理叢集、存取儲存空間,以及透過 SSH 存取叢集節點。

支援的地區

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

IAM 權限

  1. roles/aiplatform.admin 角色授予要管理訓練叢集的使用者。
  2. 如果使用者只需要查看叢集及其設定,請授予 roles/aiplatform.viewer 角色。
  3. 將下列 IAM 角色授予將管理 (建立、刪除及更新) Managed Training 叢集的使用者或服務帳戶:

    角色名稱 角色 ID
    Compute 執行個體管理員 (v1) roles/compute.instanceAdmin.v1
    記錄寫入者 roles/logging.logWriter
    Monitoring 指標寫入者 roles/monitoring.metricWriter
    服務帳戶使用者 roles/iam.serviceAccountUser
    服務網路管理員 roles/servicenetworking.networksAdmin
  4. 如要允許叢集的節點使用 Google Cloud Storage FUSE 從 Cloud Storage 值區讀取及寫入資料,請將 Storage 物件使用者角色 (roles/storage.objectUser) 授予 VM 使用的服務帳戶。

  5. 如要透過 SSH 存取 Slurm 登入節點,請授予下列權限:

    權限 說明 目的
    Compute OS 登入 以標準 (非管理員) 使用者身分登入 VM。如果需要 sudo,請改用 Compute OS 管理員登入。 透過 SSH 連線至已部署的登入節點
    受 IAP 保護的通道使用者 可存取使用 Identity-Aware Proxy 的通道資源。 透過 SSH 連線至已部署的登入節點

啟用 API

  1. 啟用 Google Compute Engine API:

       gcloud services enable compute.googleapis.com
    
    
  2. 啟用服務聯網,因為必須先部署 Filestore,才能建立叢集。

       gcloud services enable servicenetworking.googleapis.com
    
  3. 啟用 Cloud Storage API:

        gcloud services enable storage.googleapis.com
    
  4. 啟用 Lustre API (如要使用 Lustre):

    gcloud services enable lustre.googleapis.com
    
    
  5. 啟用 HCS API:

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. 啟用 Vertex AI API

    gcloud services enable aiplatform.googleapis.com
    
    
  7. 啟用 Cloud Resource Manager API

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

後續步驟

如需建立訓練叢集及執行 AI/機器學習工作負載的詳細指南,請洽詢業務代表。