建议的配置

本文档提供了有关加速器、使用类型和部署工具的建议，这些建议最适合不同的人工智能 (AI)、机器学习 (ML) 和高性能计算 (HPC) 工作负载。您可以使用本文档来帮助您确定最适合您的工作负载的部署。

如需了解有关 AI、ML 和 HPC 工作负载的基础架构支柱的信息和建议，请参阅以下文档：

工作负载概览

AI Hypercomputer 架构支持以下使用场景：

工作负载	说明	建议
预训练基础模型	这涉及使用大型数据集构建语言模型。预训练基础模型的结果是，新模型擅长执行一般任务。模型按大小分为以下几类： *前沿模型：这些是机器学习模型，参数数量从数千亿到数万亿或更高。其中包括大语言模型 (LLM)，例如 Gemini。大型模型*: 这些模型的参数数量从数百亿到数千亿或更高。	请参阅预训练模型的建议
微调	这涉及使用训练好的模型，并使用专用数据集或其他技术来调整模型，使其能够执行特定任务。微调通常对大型模型执行。	请参阅微调模型的建议
推理或部署	这涉及使用训练好的或微调的模型，并使其可供用户或应用使用。推理工作负载按模型大小分为以下几类： *多主机基础模型推理：使用训练好的机器学习模型执行推理，这些模型的参数数量从数千亿到数万亿或更高。对于这些推理工作负载，计算负载在多台宿主机之间共享。 _单主机基础模型推理_：使用训练好的机器学习模型执行推理，这些模型的参数数量从数百亿到数千亿。对于这些推理工作负载，计算负载仅限于一台宿主机。大型模型推理*：使用训练好的或微调的机器学习模型执行推理，这些模型的参数数量从数百亿到数千亿。	请参阅推理建议
中小型模型机器学习	这涉及训练和部署规模和复杂性较小的机器学习模型，通常用于执行更专业的任务。	请参阅中小型模型机器学习的建议
HPC	这是一种用于聚合计算资源的做法，这种做法获得的性能要优于单个工作站、服务器或计算机的性能。HPC 用于解决学术研究、科学、设计、模拟和商业智能方面的问题。	请参阅 HPC 建议

预训练模型的建议

预训练基础模型涉及大型加速器集群，持续读取大量数据，并通过正向和反向传递调整权重，以便从数据中学习。这些训练作业一次运行数周，甚至数月。

以下部分概述了预训练模型时使用的加速器和建议的使用类型。

工作负载	建议	集群部署指南
前沿模型训练大型模型训练	A4X Max A4X A4 A3 Ultra	GKE	创建具有默认配置的 AI 优化型 GKE 集群
Slurm	为 AI 工作负载创建全代管式 Slurm 集群为 AI 工作负载创建自行管理的 Slurm 集群
前沿模型训练大型模型训练	A3 Mega	GKE	在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm	基于模板创建 AI 优化型集群部署 A3 Mega Slurm 集群以用作机器学习训练用途
大型模型训练	A3 High	GKE	在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm	部署 A3 High Slurm 集群

建议的使用类型

如需以最低成本获得大型加速器集群，并确保获得这些预留，我们建议您使用预留并请求长期预留。如需详细了解使用类型，请参阅选择使用选项。

微调模型的建议

微调大型基础模型涉及较小的加速器集群，读取适量数据，并调整模型以执行特定任务。这些微调作业运行数天，甚至数周。

以下部分概述了微调模型时建议使用的加速器和使用类型。

工作负载	建议	集群部署指南
微调大型模型	A4X Max A4X A4	GKE	创建具有默认配置的 AI 优化型 GKE 集群
Slurm	为 AI 工作负载创建全代管式 Slurm 集群为 AI 工作负载创建自行管理的 Slurm 集群
微调大型模型	A3 Mega	GKE	在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm	基于模板创建 AI 优化型集群部署 A3 Mega Slurm 集群以用作机器学习训练用途
微调大型模型	A3 High	GKE	在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm	部署 A3 High Slurm 集群

建议的使用类型

对于微调工作负载，我们建议在日历模式下使用未来预留来预配资源。如需详细了解使用选项，请参阅选择使用选项。

关于推理建议

以下部分概述了执行推理时建议使用的加速器和使用类型。

推荐的加速器

推理的推荐加速器取决于您是执行多主机前沿模型推理还是大型模型推理，还是单主机前沿模型推理。

工作负载	建议	集群部署指南
多主机前沿模型推理	A4X Max A4X A4 A3 Ultra	GKE	创建具有默认配置的 AI 优化型 GKE 集群
Slurm	为 AI 工作负载创建全代管式 Slurm 集群为 AI 工作负载创建自行管理的 Slurm 集群
多主机前沿模型推理	A3 Mega	GKE	在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm	基于模板创建 AI 优化型集群部署 A3 Mega Slurm 集群以用作机器学习训练用途
大型模型推理	A3 High	GKE	在 Standard 模式集群中最大限度地提高 GPU 网络带宽
Slurm	部署 A3 High Slurm 集群

工作负载	建议	虚拟机部署指南
单主机前沿模型推理	A4 A3 Ultra	不适用	创建 AI 优化型实例
单主机前沿模型推理	A3 High	不适用	创建启用了 GPUDirect-TCPX 的 A3 虚拟机

建议的使用类型

对于推理，我们建议使用长期预留或在日历模式下使用未来预留。如需详细了解使用选项，请参阅选择使用选项。

中小型模型机器学习的建议

对于涉及中小型模型的机器学习工作负载，主要考虑因素是在价格和性能之间实现最佳平衡。

工作负载	建议	虚拟机部署指南
中小型模型机器学习	G4 G2	不适用	创建 G2 或 G4 实例

HPC 建议

对于 HPC 工作负载，任何加速器优化机器系列或计算优化机器系列都适合。如果使用加速器优化机器系列，最佳选择取决于必须分流到 GPU 的计算量。如需获取 HPC 工作负载的详细建议列表，请参阅运行 HPC 工作负载的最佳实践。

建议摘要

以下是针对不同工作负载建议使用的加速器和使用类型的摘要。

资源	建议
模型预训练
机器家族	使用以下加速器优化机器类型之一：A4X Max、A4X、A4、A3 Ultra、A3 Mega 或 A3 High
使用类型	使用预留
模型微调
机器家族	使用 A4X Max、A4X、A4 或 A3 加速器优化机器类型
使用类型	使用预留
推理
机器家族	使用以下加速器优化机器类型之一：A4X Max、A4X、A4、A3 Ultra、A3 Mega 或 A3 High
使用类型	使用预留
HPC
请参阅运行 HPC 工作负载的最佳实践的摘要部分

建议的配置

工作负载概览

预训练模型的建议

推荐的加速器

建议的使用类型

微调模型的建议

推荐的加速器

建议的使用类型

关于推理建议

推荐的加速器

推荐的加速器（多主机）

推荐的加速器（单主机）

建议的使用类型

中小型模型机器学习的建议

推荐的加速器

HPC 建议

建议摘要

工作负载	建议		集群部署指南
	机器类型	编排器
前沿模型训练大型模型训练	A4X Max A4X A4 A3 Ultra	GKE	创建具有默认配置的 AI 优化型 GKE 集群
前沿模型训练大型模型训练	A4X Max A4X A4 A3 Ultra	Slurm	为 AI 工作负载创建全代管式 Slurm 集群为 AI 工作负载创建自行管理的 Slurm 集群
前沿模型训练大型模型训练	A3 Mega	GKE	在 Standard 模式集群中最大限度地提高 GPU 网络带宽
前沿模型训练大型模型训练	A3 Mega	Slurm	基于模板创建 AI 优化型集群部署 A3 Mega Slurm 集群以用作机器学习训练用途
大型模型训练	A3 High	GKE	在 Standard 模式集群中最大限度地提高 GPU 网络带宽
大型模型训练	A3 High	Slurm	部署 A3 High Slurm 集群

工作负载	建议		集群部署指南
	机器类型	编排器
微调大型模型	A4X Max A4X A4	GKE	创建具有默认配置的 AI 优化型 GKE 集群
微调大型模型	A4X Max A4X A4	Slurm	为 AI 工作负载创建全代管式 Slurm 集群为 AI 工作负载创建自行管理的 Slurm 集群
微调大型模型	A3 Mega	GKE	在 Standard 模式集群中最大限度地提高 GPU 网络带宽
微调大型模型	A3 Mega	Slurm	基于模板创建 AI 优化型集群部署 A3 Mega Slurm 集群以用作机器学习训练用途
微调大型模型	A3 High	GKE	在 Standard 模式集群中最大限度地提高 GPU 网络带宽
微调大型模型	A3 High	Slurm	部署 A3 High Slurm 集群

建议的配置 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

工作负载概览

预训练模型的建议

推荐的加速器

建议的使用类型

微调模型的建议

推荐的加速器

建议的使用类型

关于推理建议

推荐的加速器

推荐的加速器（多主机）

推荐的加速器（单主机）

建议的使用类型

中小型模型机器学习的建议

推荐的加速器

HPC 建议

建议摘要

建议的配置