このドキュメントでは、AI 最適化 VM またはクラスタで実行されるワークロードで特定されたパフォーマンスの低下をトラブルシューティングする方法について説明します。
パフォーマンスの低下を特定する方法については、Compute Engine インスタンスと Slurm クラスタをモニタリングするをご覧ください。
ワークロードの疑わしい遅延を特定して対処する: 次の手順を完了します。
ワークロードで straggler 検出を使用できるかどうかを確認します。遅延検出の使用に関する制限事項と要件を確認するには、Compute Engine インスタンスと Slurm クラスタをモニタリングするをご覧ください。
遅延検出を使用できない場合は、パフォーマンスの低下に関するトラブルシューティングの他のオプションを使用します。
ワークロードの VM に遅延の疑いがあるかどうかを確認するには、遅延検出指標を表示します。
たとえば、Cloud Monitoring でプロジェクトの疑わしい遅延をすべて可視化するには、次の手順を行います。
-
Google Cloud コンソールで [ダッシュボード] ページに移動します。
検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] である結果を選択します。
フィルタペインの [タイプ ] セクションで、[Google サービス] をクリックします。
[名前] 列で、[Cluster Director Health Monitoring] をクリックします。
ダッシュボードの詳細ページが開きます。
ツールバーの期間セレクタを使用して、パフォーマンスが低下した期間を選択します。通常、Straggler の検出には最長で 10 分かかります。
ワークロードの VM が遅延しているかどうかを確認するには、[Straggler Detection] セクションを確認します。このクエリを使用して、[Suspected Straggler Instances] テーブルにワークロードの VM がリストされているかどうかを確認します。
-
ワークロードの遅延 VM の疑いがある数に基づいて、次の手順を行います。
VM が遅延している疑いがない場合は、遅延検出が正しく実行されているかどうかを確認します。プロジェクトで straggler 検出サービスが実行されているかどうかを確認するには、straggler 検出ログを表示するの手順に沿って、プロジェクト内のすべての straggler 検出ログのクエリを指定します。次の手順に進みます。
VM が 10 分以上実行されているにもかかわらず、プロジェクトに straggler 検出ログがない場合、straggler 検出サービスはプロジェクトで実行されていません。この問題を解決するには、Cloud カスタマーケアにお問い合わせいただくか、後で再試行してください。
それ以外の場合、プロジェクトでストラグラー検出が実行されており、ワークロードがストラグラー検出をサポートしていることを確認した場合は、パフォーマンスの低下は別の問題が原因である可能性があります。パフォーマンスの低下に関するトラブルシューティングには、他のオプションを使用します。
ワークロード内の 少数の VM が遅延している疑いがある場合は、疑わしい VM からワークロードを移行するテストを行います。次の手順に進みます。
移行によってワークロードのパフォーマンスが回復した場合、疑わしい VM に障害が発生している可能性があります。これらの VM ごとに、障害のあるホストを報告する手順に沿って、
FAULT_REASONをPERFORMANCEに設定し、DESCRIPTIONをstraggler nodeに設定します。移行でパフォーマンスが復元されない場合は、疑わしい遅延 VM が他にもあるか、パフォーマンスの低下が別の問題によって発生している可能性があります。ワークロードの他の VM が遅延しているかどうかを確認するか、パフォーマンスの低下のトラブルシューティングに他のオプションを使用することができます。
ワークロード内の多数の VM が遅延の疑いがあると報告された場合は、パフォーマンスの低下のトラブルシューティングに他のオプションを使用します。
パフォーマンスの低下に関するトラブルシューティングに他のオプションを使用する: 報告された遅延 VM のリストが大きい場合や、報告された遅延 VM を削除してもパフォーマンスが回復しない場合は、次のような他のオプションを使用してパフォーマンスの低下に関するトラブルシューティングを行います。
- クラスタの健全性スキャナを使用してクラスタをテストする。
- パフォーマンスに関する他の指標を確認します。
- その他のトラブルシューティングに関するドキュメントを確認します。たとえば、Compute Engine ドキュメントの GPU VM のトラブルシューティングをご覧ください。