Goodput 优化方法

本文档可帮助您优化工作负载的有效吞吐量(即有用数据的传输速率)。为了实现这种优化,我们精心挑选了可重现的吞吐量配方,这些配方使用常见的机器学习 (ML) 框架和模型。如需查看这些 recipe,请参阅 AI Hypercomputer GitHub 组织。 良好吞吐量配方已在通过 Cluster Toolkit 创建的集群上进行了测试。

为帮助确保最佳工作负载可靠性并最大限度提高有效吞吐量,您还可以主动识别 Google Kubernetes Engine (GKE) 集群中未来 5 小时内可能会降级的节点。此预警有助于您避免在有风险的虚拟机上安排新的工作负载,从而降低作业中断的风险。如需了解详情,请参阅启用节点健康状况预测

准备工作

在使用本文档中的有效吞吐量配方之前,请先完成以下步骤(如果尚未完成):

  1. 选择最适合您工作负载的加速器

  2. 根据所选加速器选择使用方法

  3. 创建您的集群

食谱

以下可重现的良好吞吐量配方可用于在 GKE 集群上进行预训练:

食谱名称 加速器 模型 Framework 工作负载类型
Llama3.1 70B - A3 Mega A3 Mega Llama3.1 70B NeMo 在 GKE 上进行预训练

后续步骤