Vertex AI 训练集群概览

如果您对 Vertex AI 训练集群感兴趣,请与您的销售代表联系以获取访问权限。

训练集群是 Google Cloud 的一项服务,旨在简化和加速最大型、最复杂的 AI/机器学习工作负载。它专门用于解决大规模训练中的难题,例如复杂的集群配置、框架优化、处理硬件故障以及集成不同的工具集。

核心价值主张和功能

Model Development Service 具有以下几项核心优势:

  • 开源 Slurm 用户体验和集群透明度:训练集群通过开源 Slurm 用户体验提供熟悉的灵活工具来启动和管理作业。Slurm 是一种行业标准,以优化的 GPU 调度、自动容错和简化的并行作业启动而闻名。

  • 自动化的集群设置和配置:训练集群可自动设置和配置集群,旨在在数小时内从预留状态过渡到生产训练状态。用户可以使用 Google Cloud 控制台(使用参考架构或逐步配置)或通过使用 JSON 文件的 API 调用来创建集群。

  • 预配置的数据科学 recipe 和工作流:训练集群包含专门构建的工具和优化的训练 recipe,可快速开始 Llama 和 Gemma 模型等热门应用场景的训练,涵盖预训练、SFT(监督式微调)和强化学习 (RL)。这些配方已预配置为在 Google Cloud基础设施上实现最先进 (SOTA) 的性能,可带来显著的性能提升。

  • 硬件弹性和高正常运行时间:Vertex AI 训练集群在设计时考虑了硬件弹性,可提高集群正常运行时间。它会自动解决硬件问题,检测并分类各种故障模式(例如正确性检查、速度检查、纠错码 [ECC] 错误、NVIDIA 数据中心 GPU 管理器 [DCGM] 检查、磁盘空间容量),并触发补救措施,例如重启、重新映像或更换故障节点,以及从检查点恢复。这有助于缓解大规模训练中因作业中断和硬件故障而导致的大幅成本增加和延迟。

  • 架构和组件:训练集群在支持 GPU 和 CPU 的 Compute Engine 基础架构上运行。它利用受管理的 Slurm 编排器来部署和管理计算节点,包括登录节点和工作器节点。该服务与其他 Google Cloud 服务(例如网络和存储)集成。

  • MLOps 和可观测性:与 Vertex ML Ops 工具(例如 Vertex AI Model Registry)集成,可自动注册、跟踪和版本控制训练后的工作流;与 Vertex AI Inference 集成,可进行部署并实现自动扩缩和自动化指标。训练集群还具有自动可观测性功能,可与 Vertex AI TensorBoard 集成,以直观呈现训练流程、跟踪指标并尽早发现问题。

可以使用 Vertex AI 训练集群 API 创建、检索、列出、更新和删除训练集群。创建集群后,用户可以登录节点、运行基本的 Slurm 命令(例如 sinfosbatch)并执行与 GPU 相关的工作负载(例如 nvidia-smi),从而验证集群的功能。集群健康状况扫描器 (CHS) 工具已预安装,可用于运行诊断程序(例如 DCGM 和 NCCL 测试)来验证集群是否已准备就绪。

训练集群提供了一个 API,用于使用针对 Llama 和 Gemma 等模型优化的配方启动预构建的 LLM 作业,支持从检查点进行预训练和持续预训练。您可以登录到登录节点,检查输出文件和 Slurm 命令(如 squeue),从而监控作业。

术语

本部分提供了关键术语和概念的定义,这些术语和概念对于理解和有效利用 Vertex AI 训练集群至关重要。这些术语涵盖了核心服务组件、架构注意事项、集成式存储技术,以及作为训练环境基础的基本机器学习 (ML) 和 MLOps 概念。

核心服务概念

1 个节点
  • 集群中的单个虚拟机(Compute Engine 实例)。在预留集群上进行托管式训练的背景下,节点是指作为集群内单个计算单元的各个虚拟机 (VM)。您可以将其视为运行部分整体训练作业的专用工作器机器。每个节点都配备了特定的资源,例如 CPU、内存和加速器(例如 A3 或 A4 GPU),它们以协调的方式共同处理大规模分布式训练任务。
登录节点
  • 登录节点是用户访问集群、提交作业和管理文件的主要入口点。如需了解详情,请参阅什么是高性能计算?
分区
  • 在 Slurm 中,节点的逻辑分组,通常用于分隔具有不同硬件配置的节点。
配方
  • 在托管式训练的背景下,配方是一个全面且可重复使用的软件包,其中包含执行特定大规模训练工作负载所需的一切。
Slurm 集群
  • 由 Slurm 管理的 Compute Engine 实例集合,包含一个登录节点和多个配置为运行训练作业的工作器节点。如需了解详情,请参阅 Slurm 工作负载管理器
工作器节点
  • 工作器节点是指集群内负责执行任务或执行工作的各个机器或计算实例。在 Kubernetes 或 Ray 集群等系统中,节点是基本的计算单元。 如需了解详情,请参阅什么是高性能计算 (HPC)?

架构和网络

使用方 VPC 网络
  • 使用方 VPC 网络是一种 Google Cloud 虚拟私有云 (VPC),可私密访问托管在另一个 VPC(称为提供方 VPC)中的服务。如需了解详情,请参阅 Private Service Connect
最大传输单元 (MTU)
  • 网络连接设备可传输的最大数据包大小。较大的 MTU 大小(巨型帧)可以提高某些工作负载的网络性能。如需了解详情,请参阅最大传输单元
专用服务访问通道
  • 专用服务访问通道是虚拟私有云 (VPC) 网络与 Google 或第三方服务提供商拥有的网络之间的专用连接。这样一来,您 VPC 网络中的虚拟机 (VM) 实例便可以使用内部 IP 地址与这些服务进行通信,从而避免暴露在公共互联网上。如需了解详情,请参阅专用服务访问通道
VPC 网络对等互连
  • 一种网络连接,可让两个 VPC 网络以私密方式进行通信。在预留集群上进行受管训练的背景下,VPC 网络对等互连是集成基本服务的关键组件。例如,这是将集群的 VPC 连接到 Filestore 实例的必需方法,该实例可为集群中的所有节点提供必要的共享 `/home` 目录。
可用区
  • Google Cloud 区域内的特定部署位置。在预留集群上进行托管式训练时,为获得最佳性能,服务的所有组件(集群、Filestore 和 Managed Lustre 实例)都应在同一可用区中创建。

集成存储技术

Cloud Storage Fuse
  • 一种开源 FUSE 适配器,可让您将 Cloud Storage 存储桶作为文件系统装载到 Linux 或 macOS 系统上。如需了解详情,请参阅 Cloud Storage Fuse
Filestore
  • Google Cloud 提供的一项全托管式高性能文件存储服务,通常用于需要共享文件系统的应用。如需了解详情,请参阅 Filestore 概览
Managed Lustre
  • 一种专为高性能计算设计的并行分布式文件系统。Google Cloud 的 Managed Lustre 为要求苛刻的工作负载提供高吞吐量文件系统。如需了解详情,请参阅 Managed Lustre 概览
性能层
  • Managed Lustre 实例的配置设置,用于定义其吞吐速度(以 MBps/TiB 为单位),并影响其最小和最大容量。

关键的机器学习和 MLOps 概念

checkpoint
  • 用于捕获模型参数在训练期间或训练完成后的状态的数据。例如,在训练期间,您可以执行以下操作:1. 停止训练,可能是出于有意,也可能是由于某些错误。2. 捕获检查点。3. 稍后,重新加载检查点,可能是在不同的硬件上。4. 重新开始训练。在 Gemini 中,检查点是指基于特定数据集训练的 Gemini 模型的特定版本。
监督式微调 (SFT)
  • 一种机器学习技术,即在预训练模型的基础上,使用较小的带标签数据集进一步训练模型,使其适应特定任务。
Vertex AI Inference
  • 一种 Vertex AI 服务,可让您使用经过训练的机器学习 (ML) 模型从未见过的新数据中进行推理。Vertex AI 提供用于部署模型以进行推理的服务。如需了解详情,请参阅从自定义训练模型获取推理结果
Vertex AI Model Registry
  • Vertex AI Model Registry 是一个中央代码库,您可以在其中管理机器学习模型的生命周期。借助 Vertex AI Model Registry,您可以大致了解模型,以便更好地组织、跟踪和训练新版本。如果您想要部署模型版本,可以直接从存储库将其分配给端点,也可以使用别名将模型部署到端点。如需了解详情,请参阅 Vertex AI Model Registry 简介
Vertex AI TensorBoard
  • Vertex AI TensorBoard 是 Google Cloud 上的一项可扩缩的托管式服务,可让数据科学家和机器学习工程师使用熟悉的开源 TensorBoard 界面直观呈现机器学习实验、调试模型训练并跟踪性能指标。它可与 Vertex AI Training 和其他服务无缝集成,为实验数据提供持久性存储,并支持对模型开发进行协作分析。如需了解详情,请参阅 Vertex AI TensorBoard 简介