本文档提供了有关加速器、使用类型和部署工具的建议,这些建议最适合不同的人工智能 (AI)、机器学习 (ML) 和高性能计算 (HPC) 工作负载。您可以使用本文档来帮助您确定最适合您的工作负载的部署。
如需了解有关 AI、ML 和 HPC 工作负载的基础架构支柱的信息和建议,请参阅以下文档:
工作负载概览
AI Hypercomputer 架构支持以下使用场景:
| 工作负载 | 说明 | 建议 |
|---|---|---|
| 预训练基础模型 | 这涉及使用大型数据集构建语言模型。预训练基础模型的结果是,新模型擅长执行一般任务。 模型按大小分为以下几类:
|
请参阅 预训练模型的建议 |
| 微调 | 这涉及使用训练好的模型,并使用专用数据集或其他技术来调整模型,使其能够执行 特定任务。 微调通常对大型模型执行。 | 请参阅 微调模型的建议 |
| 推理或部署 | 这涉及使用训练好的或微调的模型,并使其
可供用户或应用使用。 推理工作负载按模型大小分为以下几类:
|
请参阅 推理建议 |
| 中小型模型机器学习 | 这涉及训练和部署规模和复杂性较小的机器学习模型,通常用于执行更专业的任务。 | 请参阅 中小型模型机器学习的建议 |
| HPC | 这是一种用于聚合计算资源的做法,这种做法获得的 性能要优于单个工作站、服务器或 计算机的性能。HPC 用于解决学术研究、 科学、设计、模拟和商业智能方面的问题。 | 请参阅 HPC 建议 |
预训练模型的建议
预训练基础模型涉及大型加速器集群,持续读取大量数据,并通过正向和反向传递调整权重,以便从数据中学习。这些训练作业一次运行数周,甚至数月。
以下部分概述了预训练模型时使用的加速器和建议的使用类型。
推荐的加速器
如需预训练基础模型,我们建议您使用 A4X Max、A4或A3加速器优化机器类型,并使用编排器部署集群。 Google Cloud如需部署这些大型 加速器集群,我们建议您使用 Cluster Director 或 Cluster Toolkit。如需了解详情,请参阅下表中您选择的集群对应的部署指南。
| 工作负载 | 建议 | 集群部署指南 | |
|---|---|---|---|
| 机器类型 | 编排器 | ||
|
|
GKE | 创建具有默认配置的 AI 优化型 GKE 集群 |
| Slurm | |||
|
A3 Mega | GKE | 在 Standard 模式集群中最大限度地提高 GPU 网络带宽 |
| Slurm | |||
|
A3 High | GKE | 在 Standard 模式集群中最大限度地提高 GPU 网络带宽 |
| Slurm | 部署 A3 High Slurm 集群 | ||
建议的使用类型
如需以最低成本获得大型加速器集群,并确保获得这些预留,我们建议您使用预留并请求长期预留。如需详细了解使用类型,请参阅 选择使用选项。
微调模型的建议
微调大型基础模型涉及较小的加速器集群,读取适量数据,并调整模型以执行特定任务。这些微调作业运行数天,甚至数周。
以下部分概述了微调模型时建议使用的加速器和使用类型。
推荐的加速器
如需微调模型 Google Cloud,我们建议您使用 A4X Max、 A4X、A4 或 A3 加速器优化机器类型,并 使用编排器部署集群。
如需部署这些加速器集群,我们还建议您使用 Cluster Director 或 Cluster Toolkit。如需了解详情,请参阅下表中您选择的机器类型对应的集群部署指南。
| 工作负载 | 建议 | 集群部署指南 | |
|---|---|---|---|
| 机器类型 | 编排器 | ||
| 微调大型模型 |
|
GKE | 创建具有默认配置的 AI 优化型 GKE 集群 |
| Slurm | |||
| 微调大型模型 | A3 Mega | GKE | 在 Standard 模式集群中最大限度地提高 GPU 网络带宽 |
| Slurm | |||
| 微调大型模型 | A3 High | GKE | 在 Standard 模式集群中最大限度地提高 GPU 网络带宽 |
| Slurm | 部署 A3 High Slurm 集群 | ||
建议的使用类型
对于微调工作负载,我们建议在日历模式下使用未来预留来预配资源。如需详细了解使用选项,请参阅 选择使用选项。
关于推理建议
以下部分概述了执行推理时建议使用的加速器和使用类型。
推荐的加速器
推理的推荐加速器取决于您是执行多主机前沿模型推理还是大型模型推理,还是单主机前沿模型推理。
推荐的加速器(多主机)
如需执行多主机前沿模型推理或大型模型推理 Google Cloud,我们 建议您使用 A4X Max、A4X、A4 或 A3 加速器优化机器类型,并使用 编排器部署机器。如需部署这些加速器集群,我们还建议您使用 Cluster Director或 Cluster Toolkit。为了帮助您开始使用这些集群,我们提供了指向每个推荐机器类型的集群部署指南的链接。
| 工作负载 | 建议 | 集群部署指南 | |
|---|---|---|---|
| 机器类型 | 编排器 | ||
| 多主机前沿模型推理 |
|
GKE | 创建具有默认配置的 AI 优化型 GKE 集群 |
| Slurm | |||
| 多主机前沿模型推理 | A3 Mega | GKE | 在 Standard 模式集群中最大限度地提高 GPU 网络带宽 |
| Slurm | |||
| 大型模型推理 | A3 High | GKE | 在 Standard 模式集群中最大限度地提高 GPU 网络带宽 |
| Slurm | 部署 A3 High Slurm 集群 | ||
推荐的加速器(单主机)
下表概述了执行单主机前沿模型推理时建议使用的加速器。为了帮助您开始使用这些虚拟机,我们提供了指向每个推荐机器类型的虚拟机部署指南的链接。
| 工作负载 | 建议 | 虚拟机部署指南 | |
|---|---|---|---|
| 机器类型 | 编排器 | ||
| 单主机前沿模型推理 |
|
不适用 | 创建 AI 优化型实例 |
| 单主机前沿模型推理 | A3 High | 不适用 | 创建启用了 GPUDirect-TCPX 的 A3 虚拟机 |
建议的使用类型
对于推理,我们建议使用长期预留或在日历模式下使用未来预留。如需详细了解使用选项,请参阅 选择使用选项。
中小型模型机器学习的建议
对于涉及中小型模型的机器学习工作负载,主要考虑因素是在价格和性能之间实现最佳平衡。
推荐的加速器
下表概述了中小型模型机器学习工作负载建议使用的加速器。
| 工作负载 | 建议 | 虚拟机部署指南 | |
|---|---|---|---|
| 机器类型 | 编排器 | ||
| 中小型模型机器学习 |
|
不适用 | 创建 G2 或 G4 实例 |
HPC 建议
对于 HPC 工作负载,任何 加速器优化机器系列 或 计算优化机器系列 都适合。 如果使用加速器优化机器系列,最佳选择取决于必须分流到 GPU 的计算量。如需获取 HPC 工作负载的详细建议列表 ,请参阅 运行 HPC 工作负载的最佳实践。
建议摘要
以下是针对不同工作负载建议使用的加速器和使用类型的摘要。
资源 |
建议 |
|---|---|
| 模型预训练 | |
| 机器家族 | 使用以下加速器优化机器类型之一:A4X Max、A4X、A4、A3 Ultra、A3 Mega 或 A3 High |
| 使用类型 | 使用预留 |
| 模型微调 | |
| 机器家族 | 使用 A4X Max、A4X、A4 或 A3 加速器优化机器类型 |
| 使用类型 | 使用预留 |
| 推理 | |
| 机器家族 | 使用以下加速器优化机器类型之一:A4X Max、A4X、A4、A3 Ultra、A3 Mega 或 A3 High |
| 使用类型 | 使用预留 |
| HPC | |
| 请参阅运行 HPC 工作负载的最佳实践的摘要部分 | |