Vertex AI 训练集群是一项托管式 Google Cloud服务,可在您的 VPC 中以 Compute Engine 实例的形式进行预配。这种部署模式让该服务能够安全地连接到 VPC 内的其他工作负载、Google 管理的服务或多云网络。
网络 MTU 要求
为了使训练基础设施实现最佳网络性能,您必须配置 VPC 网络的最大传输单元 (MTU)。
建议的 MTU 设置
建议的 MTU 值取决于集群中的 GPU 机器类型:
- 对于 A3 Ultra 和 A4 节点:使用 8896 的 MTU。
- 对于 A3 Mega 节点:使用 8244 的 MTU。
您可以创建新 VPC,也可以使用现有 VPC。
在新 VPC 中部署训练集群(推荐)
建议的方法是将训练集群部署到新的预配置 VPC 网络中。这样可确保系统自动应用正确的 MTU 设置,并避免影响现有工作负载。
在新 VPC 中部署训练集群有两个主要步骤:
创建 VPC 网络:创建新的 VPC 网络。如需启用巨型帧,请将其 MTU 设置为 8896。
部署集群:将训练集群部署到新配置的网络中。
按照此顺序,集群的虚拟机实例在首次启动时将自动继承正确的 MTU 设置。
创建和设置新的 VPC
- 创建 VPC 网络。 如需启用巨型帧,请将 NETWORK_MTU 设置为 8896。
# create VPC network gcloud compute networks create NETWORK \ --project=PROJECT_ID \ --subnet-mode=custom \ --mtu=NETWORK_MTU - 创建用于部署训练集群的子网,并根据环境要求更新范围。在此示例中,子网 192.168.0.0/19 用于训练集群部署。
# create VPC subnet gcloud compute networks subnets create SUBNETWORK \ --project=PROJECT_ID \ --network=NETWORK \ --region=REGION \ --enable-private-ip-google-access \ --range=192.168.0.0/19
- 创建一条 IAP 防火墙规则,允许通过 SSH 连接到训练集群。
gcloud compute firewall-rules create allow-ssh-ingress-from-iap \ --direction=INGRESS --action=allow --rules=tcp:22 \ --source-ranges=35.235.240.0/20 --network NETWORK - 创建一条入站防火墙规则,允许所有端口和协议访问训练集群子网。
gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \ --direction=INGRESS --priority=1000 --network=NETWORK \ --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \ --source-ranges=192.168.0.0/19 --enable-logging
在现有 VPC 中部署训练集群
如果您要将训练集群部署到包含 Cloud Storage 实例的现有网络中,强烈建议您使用巨型帧 (MTU 8896) 以确保最佳性能。开始之前,请验证现有虚拟机上的操作系统和应用是否支持此更改。
实现巨型帧需要更新 VPC 的 MTU,此操作必须在计划的维护窗口期间完成,以防止网络不稳定。
唯一安全的步骤是先停止相应网络中所有正在运行的虚拟机实例。在虚拟机处于活跃状态时更改 MTU 会导致设置不匹配和连接不可靠。
停止所有虚拟机后,您可以继续执行以下步骤:
- 将网络的 MTU 更改为所选设置(例如 8896)。
- 网络更新完成后,重启所有虚拟机。
- 手动更新非 Linux 虚拟机。请注意,对于某些操作系统,仅重启操作还不够。虽然基于公共 Linux 映像的虚拟机会自动采用新的 MTU,但您必须为所有 Windows 虚拟机以及任何不使用 DHCP 进行 MTU 配置的自定义镜像虚拟机手动更新操作系统内部的 MTU 设置。
其他要求:
- 在用于部署集群的子网中启用专用 Google 访问通道。
- 创建一条入站防火墙规则,授予 IAP 对集群的访问权限。
- 创建一条入站防火墙规则,允许所有流量进入集群。