集群创建概览

本文档总结了如何在 AI Hypercomputer 上为 AI 工作负载创建集群。具体来说,本文档将引导您完成启动集群时需要执行的流程和做出的选择。

准备工作

  • 您必须有想要支持的现有工作负载。

  • 您必须熟悉 AI 和 ML 工作负载的常用术语,例如模型训练和推理。

启动集群

启动集群涉及以下步骤:

  1. 确定工作负载并选择机器类型
  2. 选择使用选项并获取容量
  3. 选择部署选项
  4. 选择编排器
  5. 选择操作系统和集群映像
  6. 创建您的集群

确定工作负载并选择机器类型

为 AI 工作负载选择机器类型。AI Hypercomputer 支持使用 A4X Max、A4X、A4 和 A3 机器系列创建集群。请考虑以下机器使用建议:

  • 对于基础模型训练和推理:A4X Max 或 A4X

  • 对于大型模型训练、微调和推理:A4 或 A3 Ultra

  • 对于主流模型推理和微调:A3 Mega 或 A3 High(8 个 GPU)

  • 用于提供推理服务:A3 Edge

如需详细了解每个机器系列,请参阅 GPU 机器类型。如需详细了解每种机器的工作负载建议,请参阅推荐配置

选择使用选项并获取容量

请根据您的工作负载可用性及所选的机器类型,为您的 GPU 资源选择合适的使用选项。 例如,如需使用 A4X Max 或 A4X 机器类型,您必须使用未来预留使用模式,预留特定日期和时间的容量。以下选项总结了消费模式:

  • 未来预留:适用于 A4X Max、A4X、A4 和 A3 Ultra 机器类型,资源分配密集,vCPU 和 GPU 的折扣高达 53%。未来预留非常适合需要长时间保持稳定的工作负载,例如预训练基础模型或多主机基础模型推理。如需使用此消费选项,您必须通过客户支持团队申请容量,并指定未来的开始日期和时间。

  • 日历模式下的未来预留:适用于 A4、A3 Ultra、A3 Mega 和 A3 High(仅限 8-GPU 虚拟机)机器类型,可实现密集的资源分配,并为 vCPU 和 GPU 提供高达 53% 的折扣。日历模式下的未来预留可帮助您为运行时间不超过 90 天且需要资源稳定的工作负载(例如预训练或微调模型)预留资源。不过,如需使用此消费选项,您必须创建预留请求,以在未来的日期和时间预留资源,并且 Google Cloud 必须批准您的请求。

  • 灵活启动:适用于所有 GPU 机器类型,但 A4X Max 和 A4X 除外。借助灵活启动,您可以创建短期密集型集群,使用时长最长为 7 天,并且 A2 及更新的机器类型的 vCPU 和 GPU 可享受高达 53% 的折扣。您可以直接通过 Compute Engine、Cluster Director、Cluster Toolkit 或 GKE 创建灵活启动集群。不过,集群不会立即提供;Google 会在资源到位后立即创建集群。

  • 竞价型:适用于所有 GPU 机器类型,但 A4X Max 和 A4X 除外。 借助 Spot 虚拟机,您可以根据可用性立即创建计算资源;不过,Compute Engine 可以随时抢占虚拟机 (VM) 实例。Spot 虚拟机可享受 Compute Engine 上最大幅度的折扣(介于 61% 和 90% 之间)。

如需详细了解使用选项,请参阅使用选项比较

选择部署选项

根据您对集群部署所需的控制级别,选择高度管理的部署或较少管理的部署,以便更好地控制您的基础架构。

高度管理

如果您希望 Google 部署和设置您的基础架构,请使用 Cluster Director、Cluster Toolkit 或 GKE。

  • Cluster Director:Google Cloud 产品,可自动执行复杂的集群设置和配置,帮助您为集群配置计算、网络和存储资源,以最大限度地提高性能并最大限度地减少停机时间。Cluster Director 专为希望避免管理集群的开销,而是专注于运行工作负载的 IT 管理员和 AI 研究人员而设计。

  • Cluster Toolkit:Google 提供的开源工具,可简化 GKE 或 Compute Engine 的集群配置和部署。您可以使用预定义的蓝图来部署常见配置,例如使用 Slurm 的 A4 机器类型。您可以修改蓝图,以自定义部署和软件栈。

  • GKE:一种托管式 Kubernetes 服务和开源容器编排平台。GKE 提供自动扩缩和高可用性等功能。它还能够编排容器化应用、支持专用硬件,并且与 Google Cloud生态系统兼容,因此非常适合部署和管理 AI 或 ML 工作负载。您可以使用 GKE 直接部署 GKE 集群,也可以使用 Cluster Toolkit 部署。您可以选择 GKE Standard 模式或 Autopilot 模式。

更少管理,更多控制

如需更精细地控制集群和安装在集群上的软件,请使用代管式 Compute Engine 实例组 (MIG) 或通过批量创建实例来创建 Compute Engine 集群。然后,在实例上手动安装所需的任何关键软件。

选择编排器

编排程序可自动管理集群。借助编排程序,您无需管理集群中的每个计算实例。Slurm 或 GKE 等编排器可处理作业排队、资源分配、自动扩缩(使用 GKE)等任务,以及其他日常集群管理任务。

  • Slurm:Slurm 是一种开源编排器,通常用于 HPC、AI 或 ML 工作负载。如需使用 Slurm,您可以使用 Cluster Toolkit(它提供可自动在集群上安装 Slurm 的集群蓝图),也可以在 Compute Engine 集群上手动安装 Slurm。

  • GKE:GKE 是一项以 Kubernetes(一种开源容器编排平台)为基础构建而成的代管式服务。GKE 非常适合部署和管理 AI 或机器学习工作负载,因为它能够编排容器化应用、支持专用硬件,并且在 Google Cloud生态系统中占据一席之地。您可以使用 GKE 直接部署 GKE 集群,也可以使用 Cluster Toolkit 部署。

  • 自带编排器:如果您想使用其他编排器,则必须在 Compute Engine 集群上使用它们。不过,创建 Compute Engine 集群是Google Cloud上提供的管理程度最低的选项。选择此选项意味着您需要负责设置、维护和更新实例。

选择操作系统映像

根据您使用的是 GKE 还是 Compute Engine,选择包含所选操作系统的映像,例如适用于 GKE 集群的 Container-Optimized OS,或适用于 Compute Engine 集群的加速器操作系统映像。此外,您还可以为容器选择深度学习软件层 (DSLS) 映像。

如需了解详情,请参阅 AI Hypercomputer 映像

GKE 集群的映像

为了创建 GKE 集群,我们建议您在 Standard 和 Autopilot 模式下都使用默认的容器操作系统映像。不过,在 Standard 模式下,您还可以选择使用其他可用的映像,例如 Ubuntu。

如果您使用 Cluster Toolkit 部署集群,则只能使用容器操作系统映像,因为这些映像内置于集群蓝图中。如需详细了解每种节点映像,请参阅 GKE 文档中的节点映像

GKE 还提供深度学习软件层 (DLSL) 容器映像,其中安装了 NVIDIA CUDA 和 NCCL 等软件包,以及 PyTorch 等机器学习框架,可为深度学习工作负载提供即用型环境。这些预构建的 DLSL 容器映像经过测试和验证,可在 GKE 集群上无缝运行。

Compute Engine 集群的操作系统映像

AI Hypercomputer 提供了经过优化的映像,可使用 Compute Engine 运行 AI 和 ML 工作负载。选择您最熟悉的操作系统:

  • Rocky Linux 9 加速器
  • Rocky Linux 8 加速器
  • Ubuntu 24.04 LTS 加速器
  • Ubuntu 22.04 LTS 加速器

如果您使用 Cluster Toolkit,这些加速器映像已捆绑到 Cluster Toolkit 蓝图中,因为 Cluster Toolkit 会创建扩展 Ubuntu LTS 加速器操作系统映像的自定义映像。

如需详细了解每个操作系统映像,请参阅 Compute Engine 文档中的操作系统详细信息

创建您的集群

在查看集群创建流程并为工作负载做出初步决定后,请使用以下选项之一创建集群: