建议的配置

本文档提供了有关加速器、使用类型和部署工具的建议,这些建议最适合不同的人工智能 (AI)、机器学习 (ML) 和高性能计算 (HPC) 工作负载。您可以使用本文档来帮助您确定最适合您的工作负载的部署。

如需了解有关 AI、ML 和 HPC 工作负载的基础架构支柱的信息和建议,请参阅以下文档:

工作负载概览

AI Hypercomputer 架构支持以下使用场景:

工作负载 说明 建议
预训练基础模型 这涉及使用大型数据集构建语言模型。预训练基础模型的结果是,新模型擅长执行一般任务。
模型按大小分为以下几类:
  • 前沿模型:这些是机器学习模型, 参数数量从数千亿到数万亿或更高。其中 包括大语言模型 (LLM),例如 Gemini。
  • 大型模型: 这些模型的参数数量从数百亿到数千亿或更高。
请参阅 预训练模型的建议
微调 这涉及使用训练好的模型,并使用专用数据集或其他技术来调整模型,使其能够执行 特定任务。 微调通常对大型模型执行。 请参阅 微调模型的建议
推理或部署 这涉及使用训练好的或微调的模型,并使其 可供用户或应用使用。
推理工作负载按模型大小分为以下几类:
  • 多主机基础模型推理: 使用训练好的机器学习模型执行推理,这些模型的参数数量从数千亿 到数万亿或更高。对于这些推理工作负载, 计算负载在多台宿主机之间共享。
  • **_单主机基础模型推理_**: 使用训练好的机器学习模型执行推理,这些模型的参数数量从数百亿到数千亿。对于这些推理工作负载,计算 负载仅限于一台宿主机。
  • 大型模型推理: 使用训练好的或微调的机器学习模型执行推理,这些模型的参数数量从数百亿到数千亿。
请参阅 推理建议
中小型模型机器学习 这涉及训练和部署规模和复杂性较小的机器学习模型,通常用于执行更专业的任务。 请参阅 中小型模型机器学习的建议
HPC 这是一种用于聚合计算资源的做法,这种做法获得的 性能要优于单个工作站、服务器或 计算机的性能。HPC 用于解决学术研究、 科学、设计、模拟和商业智能方面的问题。 请参阅 HPC 建议

预训练模型的建议

预训练基础模型涉及大型加速器集群,持续读取大量数据,并通过正向和反向传递调整权重,以便从数据中学习。这些训练作业一次运行数周,甚至数月。

以下部分概述了预训练模型时使用的加速器和建议的使用类型。

推荐的加速器

如需预训练基础模型,我们建议您使用 A4X MaxA4A3加速器优化机器类型,并使用编排器部署集群。 Google Cloud如需部署这些大型 加速器集群,我们建议您使用 Cluster DirectorCluster Toolkit。如需了解详情,请参阅下表中您选择的集群对应的部署指南。

工作负载 建议 集群部署指南
机器类型 编排器
  • 前沿模型训练
  • 大型模型训练
  • A4X Max
  • A4X
  • A4
  • A3 Ultra
GKE 创建具有默认配置的 AI 优化型 GKE 集群
Slurm
  • 前沿模型训练
  • 大型模型训练
A3 Mega GKE 在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm
  • 大型模型训练
A3 High GKE 在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm 部署 A3 High Slurm 集群

建议的使用类型

如需以最低成本获得大型加速器集群,并确保获得这些预留,我们建议您使用预留并请求长期预留。如需详细了解使用类型,请参阅 选择使用选项

微调模型的建议

微调大型基础模型涉及较小的加速器集群,读取适量数据,并调整模型以执行特定任务。这些微调作业运行数天,甚至数周。

以下部分概述了微调模型时建议使用的加速器和使用类型。

推荐的加速器

如需微调模型 Google Cloud,我们建议您使用 A4X MaxA4XA4A3 加速器优化机器类型,并 使用编排器部署集群。

如需部署这些加速器集群,我们还建议您使用 Cluster DirectorCluster Toolkit。如需了解详情,请参阅下表中您选择的机器类型对应的集群部署指南。

工作负载 建议 集群部署指南
机器类型 编排器
微调大型模型
  • A4X Max
  • A4X
  • A4
GKE 创建具有默认配置的 AI 优化型 GKE 集群
Slurm
微调大型模型 A3 Mega GKE 在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm
微调大型模型 A3 High GKE 在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm 部署 A3 High Slurm 集群

建议的使用类型

对于微调工作负载,我们建议在日历模式下使用未来预留来预配资源。如需详细了解使用选项,请参阅 选择使用选项

关于推理建议

以下部分概述了执行推理时建议使用的加速器和使用类型。

推荐的加速器

推理的推荐加速器取决于您是执行多主机前沿模型推理还是大型模型推理,还是单主机前沿模型推理。

推荐的加速器(多主机)

如需执行多主机前沿模型推理或大型模型推理 Google Cloud,我们 建议您使用 A4X MaxA4XA4A3 加速器优化机器类型,并使用 编排器部署机器。如需部署这些加速器集群,我们还建议您使用 Cluster DirectorCluster Toolkit。为了帮助您开始使用这些集群,我们提供了指向每个推荐机器类型的集群部署指南的链接。

工作负载 建议 集群部署指南
机器类型 编排器
多主机前沿模型推理
  • A4X Max
  • A4X
  • A4
  • A3 Ultra
GKE 创建具有默认配置的 AI 优化型 GKE 集群
Slurm
多主机前沿模型推理 A3 Mega GKE 在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm
大型模型推理 A3 High GKE 在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm 部署 A3 High Slurm 集群

推荐的加速器(单主机)

下表概述了执行单主机前沿模型推理时建议使用的加速器。为了帮助您开始使用这些虚拟机,我们提供了指向每个推荐机器类型的虚拟机部署指南的链接。

工作负载 建议 虚拟机部署指南
机器类型 编排器
单主机前沿模型推理
  • A4
  • A3 Ultra
不适用 创建 AI 优化型实例
单主机前沿模型推理 A3 High 不适用 创建启用了 GPUDirect-TCPX 的 A3 虚拟机

建议的使用类型

对于推理,我们建议使用长期预留或在日历模式下使用未来预留。如需详细了解使用选项,请参阅 选择使用选项

中小型模型机器学习的建议

对于涉及中小型模型的机器学习工作负载,主要考虑因素是在价格和性能之间实现最佳平衡。

推荐的加速器

下表概述了中小型模型机器学习工作负载建议使用的加速器。

工作负载 建议 虚拟机部署指南
机器类型 编排器
中小型模型机器学习
  • G4
  • G2
不适用 创建 G2 或 G4 实例

HPC 建议

对于 HPC 工作负载,任何 加速器优化机器系列计算优化机器系列 都适合。 如果使用加速器优化机器系列,最佳选择取决于必须分流到 GPU 的计算量。如需获取 HPC 工作负载的详细建议列表 ,请参阅 运行 HPC 工作负载的最佳实践

建议摘要

以下是针对不同工作负载建议使用的加速器和使用类型的摘要。


资源

建议
模型预训练
机器家族 使用以下加速器优化机器类型之一:A4X Max、A4X、A4、A3 Ultra、A3 Mega 或 A3 High
使用类型 使用预留
模型微调
机器家族 使用 A4X Max、A4X、A4 或 A3 加速器优化机器类型
使用类型 使用预留
推理
机器家族 使用以下加速器优化机器类型之一:A4X Max、A4X、A4、A3 Ultra、A3 Mega 或 A3 High
使用类型 使用预留
HPC
请参阅运行 HPC 工作负载的最佳实践的摘要部分