Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

パフォーマンスの低下に関するトラブルシューティング

このドキュメントでは、AI 最適化 VM またはクラスタで実行されるワークロードで特定されたパフォーマンスの低下のトラブルシューティング方法について説明します。

パフォーマンスの低下を特定する方法については、Compute Engine インスタンスと Slurm クラスタをモニタリングするをご覧ください。

ワークロードの疑わしい遅延を特定して対処する: 次の手順を完了します。
1. ワークロードで遅延検出を使用できるかどうかを確認します。遅延検出の使用に関する制限事項と要件を確認するには、Compute Engine インスタンスと Slurm クラスタをモニタリングするをご覧ください。
  
  遅延検出を使用できない場合は、パフォーマンスの低下に関するトラブルシューティングの他のオプションを使用してください。
2. ワークロードの VM に遅延の疑いがあるかどうかを確認するには、遅延検出指標を表示します。
  
  たとえば、Cloud Monitoring でプロジェクトの疑わしい遅延をすべて可視化するには、次の操作を行います。
  
  ヒント: プロジェクトで疑わしいストラグラーをフィルタリングする場合は、ストラグラー検出ログを表示するの手順に沿って、特定の VM で疑わしいストラグラーを含むログのクエリを指定します。
  1. Google Cloud コンソールで [ダッシュボード] ページに移動します。
    [ダッシュボード] に移動
    
    検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] である結果を選択します。
  2. フィルタペインの [タイプ ] セクションで、[Google サービス] をクリックします。
  3. [名前] 列で、[Cluster Director Health Monitoring] をクリックします。
    
    ダッシュボードの詳細ページが開きます。
  4. ツールバーの期間選択ツールを使用して、パフォーマンスが低下した期間を選択します。通常、ストラグラーの検出には最長で 10 分かかります。
  5. ワークロードの VM が遅延しているかどうかを確認するには、[Straggler Detection] セクションを確認します。このクエリを使用して、[Suspected Straggler Instances] テーブルにワークロードの VM がリストされているかどうかを確認します。
3. ワークロードの遅延 VM の疑いがある数に基づいて、次の手順を行います。
  - VM が遅延している疑いがない場合は、遅延検出が正しく実行されているかどうかを確認します。プロジェクトでストラグラー検出サービスが実行されているかどうかを確認するには、ストラグラー検出ログを表示するの手順に沿って、プロジェクト内のすべてのストラグラー検出ログのクエリを指定します。次の手順に進みます。
    - VM が 10 分以上実行されているにもかかわらず、プロジェクトに遅延検出ログがない場合、遅延検出サービスはプロジェクトで実行されていません。この問題を解決するには、Cloud カスタマーケアにお問い合わせいただくか、後で再試行してください。
    - それ以外の場合で、プロジェクトでストラグラー検出が実行されており、ワークロードがストラグラー検出をサポートしていることを確認した場合は、パフォーマンスの低下は別の問題が原因である可能性があります。パフォーマンスの低下のトラブルシューティングには、他のオプションを使用します。
  - ワークロード内の 少数の VM が遅延している疑いがある場合は、ワークロードを疑わしい VM から移行することをテストします。次の手順に進みます。
    - 移行によってワークロードのパフォーマンスが復元された場合は、疑わしい VM に障害が発生している可能性があります。これらの VM ごとに、障害のあるホストを報告する手順に沿って、FAULT_REASON を PERFORMANCE に設定し、DESCRIPTION を straggler node に設定します。
    - 移行でパフォーマンスが復元されない場合は、疑わしい遅延 VM が他にもあるか、パフォーマンスの低下が別の問題によって発生している可能性があります。ワークロードの他の VM が遅延しているかどうかを確認するか、パフォーマンスの低下のトラブルシューティングに他のオプションを使用することができます。
  - ワークロード内の多数の VM が遅延の疑いがあると報告された場合は、パフォーマンスの低下のトラブルシューティングに他のオプションを使用します。
パフォーマンスの低下のトラブルシューティングに他のオプションを使用する: 報告された遅延 VM のリストが大きい場合や、報告された遅延 VM を削除してもパフォーマンスが回復しない場合は、次のような他のオプションを使用してパフォーマンスの低下のトラブルシューティングを行います。
- クラスタの健全性スキャナを使用してクラスタをテストする。
- パフォーマンスに関する他の指標を確認します。
- 他のトラブルシューティングドキュメントを確認します。たとえば、Compute Engine ドキュメントの GPU VM のトラブルシューティングをご覧ください。

パフォーマンスの低下に関するトラブルシューティング コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

パフォーマンスの低下に関するトラブルシューティング