Goodput 最佳化做法

這份文件可協助您針對工作負載，最佳化有用的資料傳輸速率 (即有效輸送量)。為達成這項最佳化目標，我們已精選出可重現的良好輸送量配方，這些配方使用常見的機器學習 (ML) 架構和模型。如要查看這些做法，請參閱 AI Hypercomputer GitHub 機構。我們在透過 Cluster Toolkit 建立的叢集上測試了有效輸送量配方。

為確保工作負載的可靠性達到最佳狀態，並盡可能提高有效輸送量，您也可以主動找出 Google Kubernetes Engine (GKE) 叢集中可能在未來五小時內效能降低的節點。這項預警功能可協助您避免在有風險的 VM 上排定新的工作負載，進而降低工作遭到中斷的風險。詳情請參閱「啟用節點健康狀態預測」。

事前準備

使用本文件中的有效輸送量配方前，請先完成下列步驟 (如尚未完成)：

食譜

您可以在 GKE 叢集上預先訓練，並使用下列可重現的良好輸送量配方：

食譜名稱	加速器	模型	Framework	工作負載類型
Llama3.1 70B - A3 Mega	A3 Mega	Llama3.1 70B	NeMo	在 GKE 上進行前訓練

後續步驟

瞭解如何運用 NCCL/gIB 最佳化調整叢集網路。
瞭解如何測試叢集。

Goodput 最佳化做法 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

事前準備

食譜

後續步驟

Goodput 最佳化做法