建议的配置

本文档针对不同的人工智能 (AI)、机器学习 (ML) 和高性能计算 (HPC) 工作负载,建议选择最合适的加速器、消费类型、存储服务和部署工具。本文档可帮助您确定最适合工作负载的部署。

工作负载概览

AI Hypercomputer 架构支持以下用例:

工作负载 说明 建议
预训练基础模型 这涉及使用大型数据集构建语言模型。预训练基础模型的结果是获得一个擅长执行一般任务的新模型。
模型按大小分为以下几类:
  • 前沿模型:这些机器学习模型的参数数量从数千亿到数万亿不等,甚至更高。其中包括 Gemini 等大语言模型 (LLM)。
  • 大型模型:这些模型的参数数量从数百亿到数千亿甚至更多。
请参阅 预训练模型的建议
微调 这涉及使用专门的数据集或其他技术,将训练好的模型调整为执行特定任务。 微调通常在大型模型上进行。 请参阅 模型微调建议
推理或部署 这涉及使用经过训练或微调的模型,并使其可供用户或应用使用。
推理工作负载根据模型大小分为以下几类:
  • 多主机基础模型推理:使用已训练的机器学习模型执行推理,这些模型的参数数量从数千亿到数万亿甚至更高。对于这些推理工作负载,计算负载在多台宿主机之间共享。
  • 单主机基础模型推理:使用参数数量在数百亿到数千亿之间的已训练机器学习模型执行推理。对于这些推理工作负载,计算负荷仅限于单个宿主机。
  • 大型模型推理:使用参数数量在数百亿到数千亿之间的已训练或微调的机器学习模型执行推理。
请参阅 推理建议
中小型模型机器学习 这涉及训练和部署规模和复杂性较小的机器学习模型,通常用于更专业的任务。 请参阅 针对中小型模型机器学习的建议
HPC 这种做法用于聚合计算资源,获得的性能要优于单个工作站、服务器或计算机的性能。HPC 用于解决学术研究、科学、设计、模拟和商业智能方面的问题。 请参阅 有关 HPC 的建议

预训练模型的建议

预训练基础模型涉及使用大量加速器集群,持续读取大量数据,并通过前向和后向传递调整权重,以便从数据中学习。这些训练作业会运行数周甚至数月。

以下部分概述了预训练模型时要使用的加速器、建议的消费类型和存储服务。

推荐的加速器

如需在 Google Cloud上预训练基础模型,我们建议您使用A4XA4A3 加速器优化机器,并使用编排器部署这些机器。如需部署这些大型加速器集群,建议您使用 Cluster DirectorCluster Toolkit。如需了解详情,请参阅下表中您选择的集群对应的部署指南。

工作负载 建议 集群部署指南
机器类型 Orchestrator
  • 前沿模型训练
  • 大型模型训练
  • A4X
  • A4
  • A3 Ultra
GKE 创建具有默认配置的 AI 优化型 GKE 集群
Slurm
  • 前沿模型训练
  • 大型模型训练
A3 Mega GKE 在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm
  • 大型模型训练
A3 High GKE 在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm 部署 A3 High Slurm 集群

建议的消费类型

为了以最低成本获得大型加速器集群,我们建议您使用预留,并请求长时间预留这些资源。如需详细了解消费类型,请参阅选择消费选项

推荐的存储服务

对于预训练,训练数据需要持续快速地准备好。我们还建议对正在训练的模型进行频繁而快速的检查点保存。对于大多数此类需求,我们建议您使用 Google Cloud Managed Lustre。您也可以使用 Cloud Storage FUSE 和已启用 Anywhere Cache 的 Cloud Storage。如需详细了解存储选项,请参阅存储服务

微调模型的建议

对大型基础模型进行微调涉及使用较小的加速器集群,读取适量的数据,并调整模型以执行特定任务。这些微调作业会运行数天甚至数周。

以下部分概述了在微调模型时要使用的加速器、建议的消费类型和存储服务。

推荐的加速器

如需在 Google Cloud上微调模型,我们建议您使用A4XA4A3 加速器优化型机器,并使用编排器来部署这些机器。

如需部署这些加速器集群,我们还建议您使用 Cluster DirectorCluster Toolkit。如需了解详情,请参阅下表中您选择的机器类型对应的集群部署指南。

工作负载 建议 集群部署指南
机器类型 Orchestrator
微调大型模型
  • A4X
  • A4
GKE 创建具有默认配置的 AI 优化型 GKE 集群
Slurm
微调大型模型 A3 Mega GKE 在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm
微调大型模型 A3 High GKE 在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm 部署 A3 High Slurm 集群

建议的消费类型

对于微调工作负载,我们建议使用日历模式下的未来预留来预配资源。如需详细了解使用选项,请参阅选择使用选项

推荐的存储服务

对于微调模型,所需的数据量可能非常大,尤其是在微调性能的读取速度方面。建议对正在进行微调的模型进行频繁且快速的检查点设置。与预训练类似,对于大多数使用场景,我们建议使用 Google Cloud Managed Lustre。 或者,您也可以使用 Cloud Storage,并启用 Cloud Storage FUSE 和 Anywhere Cache。如需详细了解存储选项,请参阅存储服务

关于推理建议

以下部分概述了执行推理时要使用的加速器、建议的消耗类型和存储服务。

推荐的加速器

建议用于推理的加速器取决于您是执行多主机前沿模型或大型模型推理,还是单主机前沿模型推理。

推荐的加速器(多主机)

如需在 Google Cloud上执行多主机前沿模型或大型模型推理,建议您使用A4XA4A3 加速器优化机器,并使用编排器部署这些机器。为了部署这些加速器集群,我们还建议您使用 Cluster DirectorCluster Toolkit。为了帮助您开始使用这些集群,我们提供了指向每种推荐机器类型的集群部署指南的链接。

工作负载 建议 集群部署指南
机器类型 Orchestrator
多主机前沿推理
  • A4X
  • A4
  • A3 Ultra
GKE 创建具有默认配置的 AI 优化型 GKE 集群
Slurm
多主机前沿推理 A3 Mega GKE 在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm
大型模型推理 A3 High GKE 在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm 部署 A3 High Slurm 集群

推荐的加速器(单个主机)

下表列出了在执行单主机前沿推理时建议使用的加速器。为了帮助您开始使用这些虚拟机,我们提供了指向每种推荐机器类型的虚拟机部署指南的链接。

工作负载 建议 虚拟机部署指南
机器类型 Orchestrator
单主机前沿推理
  • A4
  • A3 Ultra
不适用 创建 AI 优化型实例
单主机前沿推理 A3 High 不适用 创建启用了 GPUDirect-TCPX 的 A3 虚拟机

建议的消费类型

对于推理,我们建议使用长期预留或日历模式下的未来预留。如需详细了解使用选项,请参阅选择使用选项

推荐的存储服务

对于推理,在许多服务器上快速加载推理二进制文件和权重需要快速读取数据。我们建议您使用 Cloud Storage,并启用 Cloud Storage FUSE 和 Anywhere Cache 来加载模型。Anywhere Cache 提供了一种可用区级数据缓存解决方案,可缩短模型加载时间并减少网络出站流量费用。与 Cloud Storage FUSE 搭配使用时,Anywhere Cache 对于跨多个可用区和多区域加载模型特别有用。如果您使用 Google Cloud Managed Lustre 进行训练,我们建议您也使用 Google Cloud Managed Lustre 进行模型加载,因为它可以快速读取数据,并且是一种持久性可用区存储解决方案。如需详细了解存储选项,请参阅存储服务

针对中小型模型机器学习的建议

对于涉及中小型模型的机器学习工作负载,在价格和性能之间实现最佳平衡是主要考虑因素。

推荐的加速器

下表概述了建议用于中小型模型机器学习工作负载的加速器。

工作负载 建议 虚拟机部署指南
机器类型 Orchestrator
中小型模型机器学习
  • G4
  • G2
不适用 创建 G2 或 G4 实例

HPC 建议

对于 HPC 工作负载,任何加速器优化机器系列计算优化机器系列都适合。 如果使用加速器优化机器系列,最佳选择取决于必须分流到 GPU 的计算量。如需详细了解针对 HPC 工作负载的建议,请参阅运行 HPC 工作负载的最佳实践

建议摘要

下表总结了针对不同工作负载,我们建议使用哪种加速器、消费类型和存储服务。


资源

建议
模型预训练
机器家族 使用以下任一加速器优化型机器类型:A4、A3 Ultra、A3 Mega 或 A3 High
消费类型 使用预留
存储 使用 Google Cloud 托管式服务,例如 Google Cloud Managed Lustre 或 Cloud Storage FUSE
模型微调
机器家族 使用 A4X、A4 或 A3 加速器优化型机器类型
消费类型 使用预留
存储 使用 Google Cloud 托管式服务,例如 Google Cloud Managed Lustre 或 Cloud Storage FUSE
推理
机器家族 使用以下任一加速器优化型机器类型:A4、A3 Ultra、A3 Mega 或 A3 High
消费类型 使用预留
存储 使用 Google Cloud 托管式服务,例如 Google Cloud Managed Lustre 或 Cloud Storage FUSE
HPC
请参阅运行 HPC 工作负载的最佳实践的摘要部分