Goodput 优化方法
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
本文档可帮助您优化工作负载的有效吞吐量(即有用数据的传输速率)。为了实现这种优化,我们精心挑选了可重现的吞吐量配方,这些配方使用常见的机器学习 (ML) 框架和模型。如需查看这些 recipe,请参阅 AI Hypercomputer GitHub 组织。
良好吞吐量配方已在通过 Cluster Toolkit 创建的集群上进行了测试。
为帮助确保最佳工作负载可靠性并最大限度提高有效吞吐量,您还可以主动识别 Google Kubernetes Engine (GKE) 集群中未来 5 小时内可能会降级的节点。此预警有助于您避免在有风险的虚拟机上安排新的工作负载,从而降低作业中断的风险。如需了解详情,请参阅启用节点健康状况预测。
准备工作
在使用本文档中的有效吞吐量配方之前,请先完成以下步骤(如果尚未完成):
选择最适合您工作负载的加速器
根据所选加速器选择使用方法
创建您的集群
食谱
以下可重现的良好吞吐量配方可用于在 GKE 集群上进行预训练:
后续步骤
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2026-03-14。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2026-03-14。"],[],[]]