开始使用训练集群

如果您对 Vertex AI 训练集群感兴趣,请与您的销售代表联系以获取访问权限。

在您可以在 Vertex AI 训练集群上部署第一个集群之前,您必须配置您的Google Cloud 项目和环境。本指南涵盖了所有必要的前提条件,主要分为以下三类:

  • 项目访问权限:获得对该服务的访问权限(仅限受邀用户)。

  • 资源配置:启用 API 并设置所需的 VPC 网络和存储服务。

  • 用户权限:授予进行集群管理和资源访问所需的 IAM 角色。

完成这些步骤可为您的项目成功部署做好准备。

前提条件

如需使用训练集群,您必须:

  1. 联系您的销售代表获取访问权限,将您的项目列入许可名单
  2. 在受支持的区域中获取 GPU 集群容量
  3. 启用必要的 API,包括 Compute Engine、Filestore、Cloud Storage、Managed Lustre(可选)、Hypercomputer Configuration Service 和 Vertex AI API。
  4. 配置网络,确保现有网络满足特定条件(例如,Google 专用访问通道、防火墙规则),或者创建新的 VPC 网络和子网。
  5. 通过创建可用区级或区域级 Filestore 实例作为 /home 目录来配置存储空间,并可以选择性地配置Google Cloud 管理的 Lustre 实例
  6. 按照 IAM 权限部分所述,向用户授予 IAM 权限,以便用户管理集群、访问存储空间以及通过 SSH 访问集群节点。

支持的区域

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

IAM 权限

  1. 向将要管理训练集群的用户授予 roles/aiplatform.admin 角色。
  2. 向仅需查看集群及其配置的用户授予 roles/aiplatform.viewer 角色。
  3. 向将管理(创建、删除和更新)托管式训练集群的用户或服务账号授予以下 IAM 角色:

    角色名称 角色 ID
    Compute Instance Admin (v1) roles/compute.instanceAdmin.v1
    Logs Writer roles/logging.logWriter
    Monitoring Metric Writer roles/monitoring.metricWriter
    服务账号用户 roles/iam.serviceAccountUser
    Service Networking Admin roles/servicenetworking.networksAdmin
  4. 如需允许集群的节点使用 Google Cloud Storage FUSE 从 Cloud Storage 存储桶读取数据和向其中写入数据,请向虚拟机使用的服务账号授予 Storage Object User 角色 (roles/storage.objectUser)。

  5. 如需通过 SSH 访问 Slurm 登录节点,请授予以下权限:

    权限 广告内容描述 用途
    Compute OS Login 以标准(非管理员)用户身份登录虚拟机。如果需要 sudo,请改用 Compute OS Admin Login。 通过 SSH 连接到已部署的登录节点
    IAP-secured Tunnel User 可访问使用 Identity-Aware Proxy 的隧道资源。 通过 SSH 连接到已部署的登录节点

启用 API

  1. 启用 Google Compute Engine API:

       gcloud services enable compute.googleapis.com
    
    
  2. 启用服务网络,因为必须先部署 Filestore,然后才能创建集群。

       gcloud services enable servicenetworking.googleapis.com
    
  3. 启用 Cloud Storage API:

        gcloud services enable storage.googleapis.com
    
  4. 启用 Lustre API(如果使用 Lustre):

    gcloud services enable lustre.googleapis.com
    
    
  5. 启用 HCS API:

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. 启用 Vertex AI API:

    gcloud services enable aiplatform.googleapis.com
    
    
  7. 启用 Cloud Resource Manager API:

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

后续步骤

如需获取有关创建训练集群和运行 AI/机器学习工作负载的详细指南,请与您的销售代表联系。