パフォーマンスの低下に関するトラブルシューティング

このドキュメントでは、AI 最適化 VM またはクラスタで実行されるワークロードで特定されたパフォーマンスの低下をトラブルシューティングする方法について説明します。

パフォーマンスの低下を特定する方法については、Compute Engine インスタンスと Slurm クラスタをモニタリングするをご覧ください。

  1. ワークロードの疑わしい遅延を特定して対処する: 次の手順を完了します。

    1. ワークロードで straggler 検出を使用できるかどうかを確認します。遅延検出の使用に関する制限事項と要件を確認するには、Compute Engine インスタンスと Slurm クラスタをモニタリングするをご覧ください。

      遅延検出を使用できない場合は、パフォーマンスの低下に関するトラブルシューティングの他のオプションを使用します。

    2. ワークロードの VM に遅延の疑いがあるかどうかを確認するには、遅延検出指標を表示します。

      たとえば、Cloud Monitoring でプロジェクトの疑わしい遅延をすべて可視化するには、次の手順を行います。

      1. Google Cloud コンソールで [ダッシュボード] ページに移動します。

        [ダッシュボード] に移動

        検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] である結果を選択します。

      2. フィルタペインの [タイプ ] セクションで、[Google サービス] をクリックします。

      3. [名前] 列で、[Cluster Director Health Monitoring] をクリックします。

        ダッシュボードの詳細ページが開きます。

      4. ツールバーの期間セレクタを使用して、パフォーマンスが低下した期間を選択します。通常、Straggler の検出には最長で 10 分かかります。

      5. ワークロードの VM が遅延しているかどうかを確認するには、[Straggler Detection] セクションを確認します。このクエリを使用して、[Suspected Straggler Instances] テーブルにワークロードの VM がリストされているかどうかを確認します。

    3. ワークロードの遅延 VM の疑いがある数に基づいて、次の手順を行います。

  2. パフォーマンスの低下に関するトラブルシューティングに他のオプションを使用する: 報告された遅延 VM のリストが大きい場合や、報告された遅延 VM を削除してもパフォーマンスが回復しない場合は、次のような他のオプションを使用してパフォーマンスの低下に関するトラブルシューティングを行います。