Google は AI 技術を使用して、コンテンツをご希望の言語に翻訳しています。AI 翻訳には誤りが含まれる場合があります。

グッドプット最適化のレシピ

このドキュメントでは、ワークロードの有効なデータ転送速度であるグッドプットを最適化する方法について説明します。この最適化を実現するために、一般的な機械学習（ML）フレームワークとモデルを使用する再現可能なグッドプットレシピを厳選しました。これらのレシピを確認するには、 AI Hypercomputer GitHub 組織をご覧ください。グッドプットレシピは、Cluster Toolkit を使用して作成されたクラスタでテストされています。

ワークロードの信頼性を最適化し、グッドプットを最大化するために、今後 5 時間以内にパフォーマンスが低下する可能性のある Google Kubernetes Engine（GKE）クラスタ内のノードを事前に特定することもできます。この早期警告により、リスクのある VM に新しいワークロードをスケジュール設定することを回避できるため、ジョブの中断のリスクを軽減できます。詳細については、ノードのヘルス予測を有効にするをご覧ください。

始める前に

このドキュメントのグッドプットレシピを使用する前に、次の手順をまだ行っていない場合は完了してください。

レシピ

GKE クラスタでの事前トレーニングには、次の再現可能なグッドプットレシピを使用できます。

レシピ名	アクセラレータ	モデル	フレームワーク	ワークロードタイプ
Llama3.1 70B - A3 Mega	A3 Mega	Llama3.1 70B	NeMo	GKE での事前トレーニング

次のステップ

NCCL/gIB を使用してクラスタネットワーキングを最適化する方法を学習する。

グッドプット最適化のレシピ コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

始める前に

レシピ

次のステップ

グッドプット最適化のレシピ