Goodput 最佳化做法

這份文件可協助您針對工作負載,最佳化有用的資料傳輸速率 (即有效輸送量)。為達成這項最佳化目標,我們已精選出可重現的良好輸送量配方,這些配方使用常見的機器學習 (ML) 架構和模型。如要查看這些做法,請參閱 AI Hypercomputer GitHub 機構。我們在透過 Cluster Toolkit 建立的叢集上測試了有效輸送量配方。

為確保工作負載的可靠性達到最佳狀態,並盡可能提高有效輸送量,您也可以主動找出 Google Kubernetes Engine (GKE) 叢集中可能在未來五小時內效能降低的節點。這項預警功能可協助您避免在有風險的 VM 上排定新的工作負載,進而降低工作遭到中斷的風險。詳情請參閱「啟用節點健康狀態預測」。

事前準備

使用本文件中的有效輸送量配方前,請先完成下列步驟 (如尚未完成):

  1. 選擇最適合工作負載的加速器

  2. 根據所選加速器選擇使用方式

  3. 建立叢集

食譜

您可以在 GKE 叢集上預先訓練,並使用下列可重現的良好輸送量配方:

食譜名稱 加速器 模型 Framework 工作負載類型
Llama3.1 70B - A3 Mega A3 Mega Llama3.1 70B NeMo 在 GKE 上進行前訓練

後續步驟