グッドプット最適化のレシピ

このドキュメントは、ワークロードのグッドプット(転送される有用なデータのレート)を最適化するうえで役立ちます。この最適化を実現するために、一般的な ML フレームワークとモデルを使用する再現可能なスループット レシピを厳選しました。これらのレシピを確認するには、AI Hypercomputer GitHub 組織をご覧ください。スループット レシピは、Cluster Toolkit を使用して作成されたクラスタでテストされました。

ワークロードの信頼性を最適化し、スループットを最大化するために、Google Kubernetes Engine(GKE)クラスタで、今後 5 時間以内にパフォーマンスが低下する可能性のあるノードを事前に特定することもできます。この早期警告により、リスクのある VM に新しいワークロードをスケジュール設定することを回避し、ジョブの中断のリスクを軽減できます。詳細については、ノードの健全性予測を有効にするをご覧ください。

始める前に

このドキュメントのグッドプット レシピを使用する前に、次の手順を完了します(まだ完了していない場合)。

  1. ワークロードに最適なアクセラレータを選択する

  2. 選択したアクセラレータに基づいて使用方法を選択する

  3. クラスタを作成する

レシピ

GKE クラスタでの事前トレーニングには、次の再現可能なスループット レシピを使用できます。

レシピ名 アクセラレータ モデル フレームワーク ワークロード タイプ
Llama3.1 70B - A3 Mega A3 Mega Llama3.1 70B NeMo GKE での事前トレーニング

次のステップ