このドキュメントは、ワークロードの有用なデータ転送率であるグッドプットを最適化するうえで役立ちます。この最適化を実現するために、一般的な ML フレームワークとモデルを使用する再現可能なスループット レシピを厳選しました。これらのレシピを確認するには、AI Hypercomputer GitHub 組織をご覧ください。スループット レシピは、Cluster Toolkit を使用して作成されたクラスタでテストされました。
ワークロードの信頼性を最適化し、スループットを最大化するために、今後 5 時間以内にパフォーマンスが低下する可能性のある Google Kubernetes Engine(GKE)クラスタ内のノードを事前に特定することもできます。この早期警告により、リスクのある VM で新しいワークロードをスケジュールすることを回避し、ジョブの中断のリスクを軽減できます。詳細については、ノードの健全性予測を有効にするをご覧ください。