集群创建概览

本文档总结了如何在 AI Hypercomputer 上为 AI 工作负载创建集群。具体来说,本文档将引导您完成启动集群时的流程并做出选择。

准备工作

  • 您必须有想要支持的现有工作负载。

  • 您必须熟悉 AI 和 ML 工作负载的常用术语,例如模型训练和推理。

启动集群

启动集群涉及以下步骤:

  1. 确定工作负载并选择机器类型
  2. 选择使用选项并获取容量
  3. 选择部署选项
  4. 选择编排器
  5. 选择操作系统和集群映像
  6. 创建您的集群

确定工作负载并选择机器类型

为 AI 工作负载选择机器类型。AI Hypercomputer 支持使用 A4X Max、A4X、A4 和 A3 机器系列创建集群。请考虑以下机器使用建议:

  • 对于基础模型训练和推理:A4X Max 或 A4X

  • 对于大型模型训练、微调和推理:A4 或 A3 Ultra

  • 对于主流模型推理和微调:A3 Mega 或 A3 High(8 个 GPU)

  • 用于提供推理服务:A3 Edge

如需详细了解每个机器系列,请参阅 GPU 机器类型。如需详细了解每种机器的工作负载建议,请参阅推荐配置

选择使用选项并获取容量

请根据您的工作负载可用性及所选的机器类型,为您的 GPU 资源选择合适的使用选项。 例如,如需使用 A4X Max 或 A4X 机器类型,您必须使用未来预留使用模式,预留特定日期和时间的容量。以下选项总结了各种消费模式:

  • 未来预留:适用于 A4X Max、A4X、A4 和 A3 Ultra 机器类型,资源分配密集,vCPU 和 GPU 的折扣高达 53%。 未来预留非常适合需要长时间保持稳定的工作负载,例如基础模型预训练或多主机基础模型推理。如需使用此消费选项,您必须通过客户支持团队申请容量,并指定未来的开始日期和时间。

  • 日历模式下的未来预留:适用于 A4、A3 Ultra、A3 Mega 和 A3 High(仅限 8-GPU 虚拟机)机器类型,可实现密集的资源分配,并为 vCPU 和 GPU 提供高达 53% 的折扣。日历模式下的未来预留可帮助您为运行时间不超过 90 天且需要稳定性的工作负载(例如预训练或微调模型)预留资源。不过,如需使用此消费选项,您必须创建预留请求,以在未来的日期和时间预留资源,并且 Google Cloud 必须批准您的请求。

  • 灵活启动:适用于所有 GPU 机器类型,但 A4X Max 和 A4X 除外。借助灵活启动,您可以创建短期存在的高密度集群,这些集群最多可存在 7 天,并且 A2 及更新的机器类型的 vCPU 和 GPU 可享受高达 53% 的折扣。您可以直接通过 Compute Engine、Cluster Director、Cluster Toolkit 或 GKE 创建灵活启动集群。不过,集群不会立即提供;Google 会在资源可用后立即创建集群。

  • 竞价型:适用于所有 GPU 机器类型,但 A4X Max 和 A4X 除外。 借助 Spot 虚拟机,您可以根据可用性立即创建计算资源;不过,Compute Engine 可以随时抢占虚拟机 (VM) 实例。Spot 虚拟机可享 Compute Engine 上最大幅度的折扣(介于 61% 和 90% 之间)。

如需详细了解使用选项,请参阅使用选项比较

选择部署选项

根据您对集群部署所需的控制级别,选择高度管理的部署或较少管理的部署,以便更好地控制您的基础架构。

高度管理

如果您希望 Google 部署和设置您的基础架构,请使用 Cluster Director、Cluster Toolkit 或 GKE。

  • Cluster Director:一款Google Cloud 产品,可自动执行复杂的集群设置和配置,帮助您为集群配置计算、网络和存储资源,以最大限度地提高性能并最大限度地减少停机时间。Cluster Director 专为希望避免管理集群开销并专注于运行工作负载的 IT 管理员和 AI 研究人员而设计。

  • Cluster Toolkit:Google 提供的开源工具,可简化 GKE 或 Compute Engine 的集群配置和部署。您可以使用预定义的蓝图来部署常见配置,例如使用 Slurm 的 A4 机器类型。您可以修改蓝图,以自定义部署和软件栈。

  • GKE:一种托管式 Kubernetes 服务和开源容器编排平台。GKE 提供自动扩缩和高可用性等功能。它还能够编排容器化应用、支持专用硬件,并且与 Google Cloud生态系统兼容,因此非常适合部署和管理 AI 或机器学习工作负载。您可以使用 GKE 直接部署 GKE 集群,也可以使用 Cluster Toolkit 部署。您可以选择 GKE Standard 模式或 Autopilot 模式。

更少管理,更多控制

如需更精细地控制集群和安装在集群上的软件,请使用代管式 Compute Engine 实例组 (MIG) 或通过批量创建实例来创建 Compute Engine 集群。然后,在实例上手动安装所需的任何关键软件。

选择编排器

编排程序可自动管理集群。借助编排程序,您无需管理集群中的每个计算实例。Slurm 或 GKE 等编排程序可处理作业排队、资源分配、自动伸缩(使用 GKE)等任务,以及其他日常集群管理任务。

  • Slurm:Slurm 是一款开源编排器,通常用于 HPC、AI 或 ML 工作负载。如需使用 Slurm,您可以使用 Cluster Toolkit(它提供可自动在集群上安装 Slurm 的集群蓝图),也可以在 Compute Engine 集群上手动安装 Slurm。

  • GKE:GKE 是一项以 Kubernetes(一种开源容器编排平台)为基础构建而成的代管式服务。GKE 非常适合部署和管理 AI 或机器学习工作负载,因为它能够编排容器化应用、支持专用硬件,并且在 Google Cloud生态系统中占据一席之地。您可以使用 GKE 直接部署 GKE 集群,也可以使用 Cluster Toolkit 部署。

  • 自带编排器:如果您想使用其他编排器,则必须在 Compute Engine 集群上使用它们。不过,创建 Compute Engine 集群是Google Cloud上提供的管理程度最低的选项。选择此选项意味着您需要负责设置、维护和更新实例。

选择操作系统映像

根据您使用的是 GKE 还是 Compute Engine,选择包含所选操作系统的映像,例如适用于 GKE 集群的 Container-Optimized OS,或适用于 Compute Engine 集群的加速器操作系统映像。此外,您还可以为容器选择深度学习软件层 (DSLS) 映像。

如需了解详情,请参阅 AI Hypercomputer 映像

GKE 集群的映像

为了创建 GKE 集群,我们建议您在 Standard 和 Autopilot 模式下都使用默认的容器操作系统映像。不过,在 Standard 模式下,您还可以选择使用其他可用的映像,例如 Ubuntu。

如果您使用 Cluster Toolkit 部署集群,则只能使用容器操作系统映像,因为这些映像内置于集群蓝图中。如需详细了解每种节点映像,请参阅 GKE 文档中的节点映像

GKE 还提供深度学习软件层 (DLSL) 容器映像,该映像可安装 NVIDIA CUDA 和 NCCL 等软件包,以及 PyTorch 等机器学习框架,从而为深度学习工作负载提供即用型环境。这些预构建的 DLSL 容器映像经过测试和验证,可在 GKE 集群上无缝运行。

Compute Engine 集群的操作系统映像

AI Hypercomputer 提供了经过优化的映像,可使用 Compute Engine 运行 AI 和 ML 工作负载。选择您最熟悉的操作系统:

  • Rocky Linux 9 加速器
  • Rocky Linux 8 加速器
  • Ubuntu 24.04 LTS 加速器
  • Ubuntu 22.04 LTS 加速器

如果您使用 Cluster Toolkit,这些加速器映像已捆绑到 Cluster Toolkit 蓝图中,因为 Cluster Toolkit 会创建扩展 Ubuntu LTS 加速器操作系统映像的自定义映像。

如需详细了解每个操作系统映像,请参阅 Compute Engine 文档中的操作系统详细信息

创建您的集群

在查看集群创建流程并为工作负载做出初步决定后,请使用以下选项之一创建集群: