在您可以在 Vertex AI 训练集群上部署第一个集群之前,您必须配置您的Google Cloud 项目和环境。本指南涵盖了所有必要的前提条件,主要分为以下三类:
项目访问权限:获得对该服务的访问权限(仅限受邀用户)。
资源配置:启用 API 并设置所需的 VPC 网络和存储服务。
用户权限:授予进行集群管理和资源访问所需的 IAM 角色。
完成这些步骤可为您的项目成功部署做好准备。
前提条件
如需使用训练集群,您必须:
- 联系您的销售代表获取访问权限,将您的项目列入许可名单。
- 在受支持的区域中获取 GPU 集群的容量。
- 启用必要的 API,包括 Compute Engine、Filestore、Cloud Storage、Managed Lustre(可选)、Hypercomputer Configuration Service 和 Vertex AI API。
- 配置网络,确保现有网络满足特定条件(例如,Google 专用访问通道、防火墙规则),或者创建新的 VPC 网络和子网。
- 通过创建可用区级或区域级 Filestore 实例作为
/home目录来配置存储空间,并可以选择性地配置Google Cloud 管理的 Lustre 实例。 - 按照 IAM 权限部分所述,向用户授予 IAM 权限,以便用户管理集群、访问存储空间以及通过 SSH 访问集群节点。
支持的区域
us-central1us-east1us-east4us-east5us-south1us-west1us-west4asia-southeast1europe-west1europe-west4europe-north1
IAM 权限
- 向将要管理训练集群的用户授予
roles/aiplatform.admin角色。 - 向仅需查看集群及其配置的用户授予
roles/aiplatform.viewer角色。 向将管理(创建、删除和更新)托管式训练集群的用户或服务账号授予以下 IAM 角色:
角色名称 角色 ID Compute Instance Admin (v1) roles/compute.instanceAdmin.v1Logs Writer roles/logging.logWriterMonitoring Metric Writer roles/monitoring.metricWriter服务账号用户 roles/iam.serviceAccountUserService Networking Admin roles/servicenetworking.networksAdmin如需允许集群的节点使用 Google Cloud Storage FUSE 从 Cloud Storage 存储桶读取数据和向其中写入数据,请向虚拟机使用的服务账号授予 Storage Object User 角色 (
roles/storage.objectUser)。如需通过 SSH 访问 Slurm 登录节点,请授予以下权限:
权限 广告内容描述 用途 Compute OS Login 以标准(非管理员)用户身份登录虚拟机。如果需要 sudo,请改用 Compute OS Admin Login。通过 SSH 连接到已部署的登录节点 IAP-secured Tunnel User 可访问使用 Identity-Aware Proxy 的隧道资源。 通过 SSH 连接到已部署的登录节点
启用 API
启用 Google Compute Engine API:
gcloud services enable compute.googleapis.com启用服务网络,因为必须先部署 Filestore,然后才能创建集群。
gcloud services enable servicenetworking.googleapis.com启用 Cloud Storage API:
gcloud services enable storage.googleapis.com启用 Lustre API(如果使用 Lustre):
gcloud services enable lustre.googleapis.com启用 HCS API:
gcloud services enable hypercomputecluster.googleapis.com启用 Vertex AI API:
gcloud services enable aiplatform.googleapis.com启用 Cloud Resource Manager API:
gcloud services enable cloudresourcemanager.googleapis.com
后续步骤
如需获取有关创建训练集群和运行 AI/机器学习工作负载的详细指南,请与您的销售代表联系。