部署的网络服务

本文档介绍了为 AI Hypercomputer 集群和虚拟机部署配置的网络服务。为 AI Hypercomputer 配置的特定网络服务取决于您为虚拟机或集群选择的部署选项。

本文档面向想要了解 AI 超算部署的网络服务的架构师、网络工程师和开发者。本文档假定您对云网络和分布式计算概念有基本的了解。如需详细了解部署选项,请参阅虚拟机和集群创建概览

本文档详细介绍了您为以下部署选项配置的网络服务:

为默认 GKE 部署配置网络

当您使用默认设置创建 AI 优化型 GKE 集群时,您可以在 Cluster Toolkit 蓝图中定义网络设置。蓝图会根据您选择的机器类型而变化。例如,Cluster Toolkit 蓝图会部署一个使用 A4 机器的 GKE 集群。

此蓝图会通过以下方式设置网络:

  • 使用默认 VPC:蓝图使用默认虚拟私有云网络作为主 GKE 集群。
  • 创建两个额外的 VPC:蓝图会设置两个不同的 Virtual Private Cloud 网络。一个用于第二主机网络接口卡 (NIC),另一个用于图形处理单元 (GPU) 到 GPU 远程直接内存访问 (RDMA) 流量。通过使用此多 VPC 设置,您可以提高网络隔离度。如需了解详情,请参阅多 VPC 环境
  • 定义 IP 地址范围:此蓝图为 GKE 节点设置专用 IP 地址空间。它用于为 Pod 和 Service 配置次要 IP 范围。GKE 使用 IP 地址别名来避免 IP 地址冲突。
  • 应用经过 RDMA 优化的网络配置文件:蓝图会将预设的 Google 托管的网络配置文件应用于用于 GPU 流量的 VPC。此配置文件会自动配置网络,以实现 RDMA 所需的高速和低延迟性能。如需了解详情,请参阅针对特定应用场景的网络配置文件
  • 自动为 RDMA 创建子网:为确保最佳性能,该蓝图会自动在 RDMA VPC 内创建八个专用子网。它会为加速器虚拟机上的每个 RDMA NIC 创建一个子网。
  • 配置防火墙规则:蓝图设置防火墙规则,以允许集群中节点之间的所有传输控制协议 (TCP)、用户数据报协议 (UDP) 和互联网控制消息协议 (ICMP) 流量。这样,节点就可以自由通信。它还会配置授权的无类别域间路由 (CIDR) 范围,以限制对 GKE 集群控制平面的访问权限,从而提高安全性。

采用自定义配置的 GKE 部署的网络配置

如果您需要比默认 Cluster Toolkit 蓝图更精细的控制权,请手动为 AI 优化型 GKE 集群配置网络对象。这种方法可让您根据工作负载的特定需求定制网络设置。

您使用的配置取决于您是否计划运行分布式 AI 工作负载:

  • 对于非分布式工作负载:创建一个未启用 GPUDirect RDMA 的 GKE 集群。此方法使用单个 VPC 网络进行所有通信。
  • 对于分布式工作负载:创建一个启用了 GPUDirect RDMA 的 GKE 集群。启用 GPUDirect RDMA 对于大规模实现最佳性能至关重要。此配置涉及一个多 VPC 环境,可将通用流量与高带宽、低延迟的 GPU 间通信隔离开来。

如需详细了解上述两种场景下创建自定义 AI 优化型 GKE 集群的分步说明,请参阅创建自定义 AI 优化型 GKE 集群

Slurm 集群部署的网络配置

您可以使用集群工具包,通过高度可自定义和可扩展的蓝图在 Google Cloud 上部署高性能计算 (HPC)、AI 和机器学习工作负载。例如,当您使用 A4 机器类型创建 AI 优化型 Slurm 集群时。本部分将介绍 A4 蓝图中配置的网络服务,帮助您了解在创建 Slurm 集群时可以更改的网络设置。

在部署期间,集群工具包蓝图使用 Packer 自动构建自定义操作系统 (OS) 映像。Packer 通过启动临时虚拟机并运行脚本来创建映像,以自定义启动磁盘。您可以使用启动脚本、shell 脚本或 Ansible playbook 自定义映像。然后,蓝图会使用此自定义映像在 Slurm 节点上安装集群和工作负载管理所需的系统软件。

蓝图配置的网络组件如下:

  • 创建三个不同的 VPC:该蓝图会为 Slurm 控制平面创建一个主 VPC,为常规主机级流量创建一个辅助 VPC,并为 GPU 间通信创建一个专用高性能 VPC。这种分离可防止管理流量干扰工作负载数据平面。如需了解详情,请参阅多 VPC 环境
  • 应用经过 RDMA 优化的网络配置文件:对于 GPU 数据平面,蓝图会应用预配置的、经过 Google 管理的、针对 RoCE 优化的网络配置文件。它会自动创建八个子网,分别对应加速器虚拟机上的每个 RDMA NIC。如需了解详情,请参阅针对特定应用场景的网络配置文件
  • 为共享存储空间预留 IP 地址范围:此蓝图设置了 Filestore 服务所需的专用 IP 地址范围。Filestore 为集群提供共享 /home 目录。
  • 提供隔离的映像构建网络:蓝图会创建一个临时 VPC,该 VPC 仅在为集群节点构建自定义虚拟机映像的过程中使用。这为 Packer 操作提供了一个隔离的网络环境。

如需了解更多部署选项,请参阅集群工具包文档。

Compute Engine 实例的网络

借助 Compute Engine,您可以创建独立虚拟机、批量创建虚拟机实例,以及为各种加速器优化型机器类型创建托管式实例组 (MIG)。

这些机器类型需要多 VPC 网络配置才能处理不同类型的流量。此配置可将常规主机间流量与高带宽 GPU 间通信隔离开来。具体的网络要求因机器类型而异。

如需详细了解机器类型的网卡和网络配置,请参阅查看网络带宽和 NIC 配置

如需有关如何创建这些 VPC 网络的逐步说明,请参阅创建 VPC 网络

后续步骤