Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Goodput 优化方法

本文档可帮助您优化工作负载的有效吞吐量（即有用数据的传输速率）。为了实现这种优化，我们精心挑选了可重现的吞吐量配方，这些配方使用常见的机器学习 (ML) 框架和模型。如需查看这些 recipe，请参阅 AI Hypercomputer GitHub 组织。良好吞吐量配方在通过 Cluster Toolkit 创建的集群上进行了测试。

为帮助确保最佳工作负载可靠性并最大限度提高有效吞吐量，您还可以主动识别 Google Kubernetes Engine (GKE) 集群中可能在未来 5 小时内性能下降的节点。这种预警有助于您避免在有风险的虚拟机上安排新的工作负载，从而降低作业中断的风险。如需了解详情，请参阅启用节点健康状况预测。

准备工作

在使用本文档中的有效吞吐量配方之前，请先完成以下步骤（如果尚未完成）：

食谱

以下可重现的 goodput 配方可用于在 GKE 集群上进行预训练：

食谱名称	加速器	模型	Framework	工作负载类型
Llama3.1 70B - A3 Mega	A3 Mega	Llama3.1 70B	NeMo	在 GKE 上进行预训练

后续步骤

了解如何使用 NCCL/gIB 优化集群网络。
了解如何测试集群。

Goodput 优化方法 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

准备工作

食谱

后续步骤

Goodput 优化方法