Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Compute Engine インスタンスと Slurm クラスタをモニタリングする

このドキュメントでは、Cloud Monitoring ダッシュボードを使用して、予約容量を使用して作成した A4X Max、A4X、A4、A3 Ultra、A3 Mega インスタンスをモニタリングする方法について説明します。これらのダッシュボードを使用すると、スタンドアロンの Compute Engine インスタンスまたは Slurm クラスタのパフォーマンスのボトルネックを特定してトラブルシューティングを行い、ワークロードのダウンタイムを最小限に抑えることができます。

カスタムダッシュボードを作成するか、事前構築済みの Monitoring ダッシュボードを使用すると、次のことをモニタリングできます。

コンピューティングインスタンスの健全性
GPU パフォーマンス
ネットワーク伝送効率
ブロックとサブブロック間のネットワーク効率
機械学習（ML）ワークロードの効率
ストラグラー検出
応答しないワークロードの検出

Cluster Director でクラスタをモニタリングするには、事前構築されたダッシュボードでクラスタのパフォーマンスをモニタリングするをご覧ください。

始める前に

ワークロードをモニタリングする前に、次の手順を完了します（まだ完了していない場合）。

モニタリング可能なワークロードをデプロイします。サポートされているワークロードについては、このドキュメントの制限事項をご覧ください。ワークロードをデプロイする方法については、デプロイオプションの概要をご覧ください。
ワークロードのモニタリング用の Google Cloud サービスについて学習する:
- このドキュメントの指標は、Monitoring ダッシュボードを使用します。モニタリングダッシュボード、モニタリングの保持期間、モニタリングの料金について学習する。
- Straggler 検出では、Cloud Logging にログエントリも提供されます。Logging インターフェース、Logging の保持期間、Logging の料金について学習する。

Google Cloud コンソールを使用して Google Cloud サービスと API にアクセスする場合、認証を設定する必要はありません。

制限事項

このドキュメントの指標は、次のすべての条件を満たすコンピューティングインスタンスで実行されるワークロードでのみサポートされます。

コンピューティングインスタンスは、スタンドアロンの Compute Engine インスタンスとして作成するか、Slurm クラスタの一部として作成する必要があります。
コンピューティングインスタンスは、予約済み容量を使用して作成されている必要があります。
コンピューティングインスタンスは、A4X Max、A4X、A4、A3 Ultra、A3 Mega のマシンシリーズを使用する必要があります。

ML ワークロードの指標をモニタリングするには、ワークロードのモニタリングを設定する必要があります。

ストラグラー検出の制限事項

遅延検出指標には、次の追加の制限があります。

A3 Mega 以外のサポートされているマシンシリーズの場合、遅延検出は、Collective Communication Analyzer（CoMMA）ライブラリを有効にして NCCL テレメトリーを Google Cloud サービスにエクスポートするコンピューティングインスタンスのみをサポートします。詳細については、CoMMA の概要をご覧ください。
通常、ストラグラーの検出には最長で 10 分ほどかかります。
このドキュメントの他の指標とは異なり、プロジェクトの遅延検出指標をクラスタ、ブロック、サブブロック、コンピューティングインスタンスでフィルタリングすることはできません。ただし、遅延検出ログのクエリは、遅延の疑いがある 1 つ以上のコンピューティングインスタンスの ID でフィルタできます。

注意: 次のような遅延検出を使用すると、偽陽性または偽陰性が表示されることがあります。

遅延検出ログは、遅延検出をサポートしていないコンピューティングインスタンスが遅延の疑いがないことを報告します。
多くの ML ワークロードではストラグラー検出の精度は高いですが、複雑な通信パターンを持つワークロードでは精度が低くなる可能性があります。

したがって、他の指標でワークロードに問題が発生していることが示されている場合にのみ、疑わしい遅延タスクに対処することをおすすめします。ワークロードの全体的なパフォーマンスが満足のいくものである場合は、対応は推奨されません。

応答しないワークロードの検出の制限事項

応答しないワークロード検出指標は、Collective Communication Analyzer（CoMMA）ライブラリを使用して NCCL テレメトリーを Google Cloud サービスにエクスポートするコンピューティングインスタンスのみをサポートします。詳細については、CoMMA の概要をご覧ください。

必要なロール

AI Hypercomputer ワークロードの指標をモニタリングするために必要な権限を取得するには、次の IAM ロールを付与するよう管理者に依頼してください。

Cloud Monitoring で指標を表示するには: プロジェクトに対するモニタリング編集者（roles/monitoring.editor）
Logging で遅延検出ログを表示するには: プロジェクトに対するログビューア（roles/logging.viewer）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

これらの事前定義ロールには、AI Hypercomputer ワークロードの指標をモニタリングするために必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。

必要な権限

AI Hypercomputer ワークロードの指標をモニタリングするには、次の権限が必要です。

ダッシュボードを表示する: プロジェクトに対する monitoring.dashboards.get
ダッシュボードを作成する: プロジェクトの monitoring.dashboards.create
ログエントリを表示する: プロジェクトに対する logging.logEntries.list

カスタムロールや他の事前定義ロールを使用して、これらの権限を取得することもできます。

利用可能な指標

ユースケースに応じて、次の指標を使用して、コンピューティングインスタンスと Slurm クラスタをモニタリングできます。

コンピューティングインスタンスに接続された GPU の健全性、パフォーマンス、ネットワークパフォーマンスをモニタリングするには、インフラストラクチャ指標をご覧ください。
ML ワークロードの GPU の効率をモニタリングするには、ML ワークロードの指標をご覧ください。
パフォーマンスが遅い ML ワークロードで、遅延の原因となっている可能性のあるコンピューティングインスタンスをモニタリングするには、遅延検出指標をご覧ください。

これらの指標を表示する方法については、このドキュメントの指標を可視化するをご覧ください。

インフラストラクチャ指標

コンピューティングインスタンスに接続された GPU の健全性、パフォーマンス、ネットワークパフォーマンスをモニタリングするには、次の指標を使用します。

GPU の健全性指標
GPU パフォーマンス指標
GPU ネットワークパフォーマンス指標
GPU の致命的なエラーの指標

Compute Engine で使用可能な指標の概要については、Google Cloud 指標をご覧ください。

GPU の健全性指標

GPU の健全性をモニタリングするには、次の指標を使用します。

名前	指標タイプ	サポートされているマシンシリーズ	説明
マシンのステータス	`machine/machine_status`	A4X Max、A4X、A4、A3 Ultra、A3 Mega	コンピューティングインスタンスが使用するマシンが正常かどうか。または、マシンが異常で修復が必要かどうか。
NVSwitch のステータス	`instance/gpu/nvswitch_status`	A4X Max、A4X、A4、A3 Ultra、A3 Mega	コンピューティングインスタンスにアタッチされた NVIDIA GPU の NVLink スイッチで問題が発生しているかどうか。
VM インフラストラクチャの健全性	`instance/gpu/infra_health`	A4X、A4、A3 Ultra、A3 Mega	コンピューティングインスタンスが実行されているクラスタ、ブロック、サブブロック、ホストの健全性。この指標でコンピューティングインスタンスのインフラストラクチャが異常であることが示されている場合、指標には問題も記述されます。
VM 障害予測スコア	`instance/gpu/failure_prediction_score`	A4X、A4、A3 Ultra、A3 Mega	コンピューティングインスタンスが実行されているホストが、今後 5 時間以内にパフォーマンスが低下する可能性。値は `0.0`～`1.0` の範囲で指定できます。値が一定期間 `1.0` に近いほど、コンピューティングインスタンスが劣化する可能性が高くなります。その場合は、ジョブを別のコンピューティングインスタンスに移動し、コンピューティングインスタンスで問題が発生した場合は、そのホストに障害があると報告することをおすすめします。

GPU パフォーマンス指標

GPU のパフォーマンスをモニタリングするには、次の指標を使用します。

名前	指標タイプ	サポートされているマシンシリーズ	説明
累積コンテキスト使用率	`instance/gpu/accumulated_context_utilization_seconds`	A4X Max、A4X、A4、A3 Ultra、A3 Mega	GPU がワークロードの処理に費やした合計時間（秒単位）。
GPU の消費電力	`instance/gpu/power_consumption`	A4X Max、A4X、A4、A3 Ultra、A3 Mega	ホスト上の個々の GPU で消費される電力（ワット単位）と 10 進数値。複数の GPU が接続されているコンピューティングインスタンスの場合、この指標はホスト上の各 GPU の消費電力を個別に示します。
SM 使用率	`instance/gpu/sm_utilization`	A4X Max、A4X、A4、A3 Ultra、A3 Mega	ゼロ以外の値は、GPU のストリーミングマルチプロセッサ（SM）がアクティブに使用されていることを示します。
GPU の温度	`instance/gpu/temperature`	A4X Max、A4X、A4、A3 Ultra、A3 Mega	ホスト上の個々の GPU の温度（摂氏（℃）および 10 進数値）。複数の GPU が接続されているコンピューティングインスタンスの場合、この指標はホスト上の各 GPU の温度を個別に提供します。
GPU のサーマルマージン	`instance/gpu/tlimit`	A4X Max、A4X、A4、A3 Ultra、A3 Mega	個々の GPU が高温のために速度を落とす必要が生じる前に、その GPU が持つ温度余裕（摂氏（℃）および 10 進数値）。複数の GPU が接続されているコンピューティングインスタンスの場合、この指標はホスト上の各 GPU のサーマルヘッドルームを個別に提供します。

GPU ネットワークパフォーマンス指標

GPU のネットワークパフォーマンスをモニタリングするには、次の指標を使用します。

名前	指標タイプ	サポートされているマシンシリーズ	説明
Link 携帯通信会社の変更	`instance/gpu/link_carrier_changes`	A4X、A4、A3 Ultra、A3 Mega	ネットワークリンクのキャリアが 1 分間に変更される頻度。
ネットワーク RTT	`instance/gpu/network_rtt`	A4X、A4、A3 Ultra、A3 Mega	ネットワークデータが送信元と宛先の間を移動するラウンドトリップ時間（マイクロ秒単位）。
ブロック間のネットワークトラフィック	`instance/gpu/network/inter_block_tx`	A4X、A4、A3 Ultra、A3 Mega	ブロック間のネットワークトラフィックのバイト数。
サブブロック間のネットワークトラフィック	`instance/gpu/network/inter_subblock_tx`	A4X、A4、A3 Ultra、A3 Mega	サブブロック間のネットワークトラフィックのバイト数。
サブブロック内のネットワークトラフィック	`instance/gpu/network/intra_subblock_tx`	A4X、A4、A3 Ultra、A3 Mega	単一のサブブロック内のネットワークトラフィックのバイト数。
NVLink のアクティブな速度	`instance/gpu/nvlink_active_speed`	A4X Max、A4X、A4、A3 Ultra、A3 Mega	現在のアクセスリンクのポート速度（GBps）。
スループット（受信バイト数）	`instance/gpu/throughput_rx_bytes`	A4X、A4、A3 Ultra、A3 Mega	ネットワークトラフィックから受信したバイト数。
スループット（送信バイト数）	`instance/gpu/throughput_tx_bytes`	A4X、A4、A3 Ultra、A3 Mega	ネットワークトラフィックに送信されたバイト数。

GPU 致命的エラー指標

GPU で発生し、コンピューティングインスタンスの停止を強制したり、パフォーマンスに悪影響を及ぼす可能性のあるエラーをモニタリングするには、次の指標を使用します。

名前	指標タイプ	サポートされているマシンシリーズ	説明
NVLink ランタイムエラー	`instance/gpu/nvlink_runtime_error`	A4X Max または A4X	NVLink ランタイムエラーが発生したかどうか。
修正不可能な DRAM ECC エラー	`instance/gpu/dram_uncorrectable_ecc_error_count`	A4X Max または A4X	GPU ダイナミックランダムアクセスメモリ（DRAM）内の訂正不能な誤り訂正コード（ECC）の数。
訂正不可能な DRAM 行の再マッピング数	`instance/gpu/dram_uncorrectable_row_remapping_count`	A4X Max または A4X	GPU DRAM の訂正不可能なエラーからの行の再マッピングの数。
修正不可能な DRAM 行の再マッピングに失敗しました	`instance/gpu/dram_row_remapping_failed`	A4X Max または A4X	次のいずれかの問題により、GPU DRAM の行の再マッピングが失敗したかどうか。メモリバンクにすでに 8 個の訂正不能なエラー行が再マッピングされているため、メモリバンクの再マッピングの試行が失敗しました。行がすでに再マッピングされているため、行の再マッピングの試行が失敗しました。合計 512 回のリマッピングが発生したため、リマッピングの試行が失敗しました。
訂正不能な PCIe エラー	`instance/gpu/pcie_fatal_error_count`	A4X Max または A4X	修正不可能な Peripheral Component Interconnect Express（PCIe）エラーの数。
訂正不能なキャッシュ ECC エラー	`instance/gpu/cache_uncorrectable_ecc_error_count`	A4X Max または A4X	キャッシュメモリ内の訂正不可能な ECC の数。

ML ワークロードの指標

ML ワークロードの生産性（特にスループット）をモニタリングするには、次の指標を使用します。

名前	指標タイプ	サポートされているマシンシリーズ	説明
生産的な時間	`workload/goodput_time`	A4X、A4、A3 Ultra、A3 Mega	ワークロードがグッドプットアクティビティに費やした時間（秒単位）。これらのアクティビティは、モデルトレーニング中のフォワードパスやバックワードパスなど、有用なコアタスクです。
非生産的な時間	`workload/badput_time`	A4X、A4、A3 Ultra、A3 Mega	ワークロードが badput アクティビティに費やした時間（秒）。これらのアクティビティは、トレーニング用のデータの読み込みや前処理などのオーバーヘッドタスクです。

ストラグラー検出指標

遅延検出指標は、遅延の疑いがあるものを特定するのに役立ちます。ストラグラーは、最終的にワークロード全体を遅くする単一障害点であり、クラッシュしない障害です。

VM の遅延タスクの検出をモニタリングするには、次の指標を使用します。

名前	指標タイプ	サポートされているマシンシリーズ	説明
Suspected Stragglers	`instance/gpu/straggler_status`	A4X、A4、A3 Ultra、A3 Mega	ワークロードのパフォーマンスに影響を与えている遅延 VM である疑いがあるかどうか。他の指標でワークロードに問題が発生していることが示されている場合にのみ、遅延していると思われるタスクに対処することをおすすめします。

A4X、A4、A3 Ultra、A3 Mega インスタンスのログエントリで、遅延検出指標を表示することもできます。たとえば、次のクエリを使用できます。

説明クエリ

説明	クエリ
特定の VM の遅延が疑われるログ。このクエリを使用して、プロジェクト内の特定のワークロードにストラグラーの疑いがあるかどうかを確認します。	logName=~ "/logs/compute.googleapis.com%2Fworkload_diagnostic" AND jsonPayload.suspectedStragglersDetection.numNodes > 0 AND jsonPayload.suspectedStragglersDetection.nodes.instanceId="`INSTANCE_ID`" `INSTANCE_ID` は、VM の ID に置き換えます。指定する VM を追加するごとに、次の条件をクエリに追加します。 OR jsonPayload.suspectedStragglersDetection.nodes.instanceId="`INSTANCE_ID`"
プロジェクトの遅延検出からのすべてのログ。このクエリを使用して、疑わしい遅延が検出されなかった場合に、遅延検出サービスが実行されているかどうかを確認します。（制限により、特定の VM で疑わしい遅延のないログをフィルタすることはできません）。	`logName=~ "/logs/compute.googleapis.com%2Fworkload_diagnostic"`

特定の VM の遅延が疑われるログ。このクエリを使用して、プロジェクト内の特定のワークロードにストラグラーの疑いがあるかどうかを確認します。

    logName=~ "/logs/compute.googleapis.com%2Fworkload_diagnostic" AND jsonPayload.suspectedStragglersDetection.numNodes > 0 AND jsonPayload.suspectedStragglersDetection.nodes.instanceId="INSTANCE_ID"

INSTANCE_ID は、VM の ID に置き換えます。指定する VM を追加するごとに、次の条件をクエリに追加します。

    OR jsonPayload.suspectedStragglersDetection.nodes.instanceId="INSTANCE_ID"

プロジェクトの遅延検出からのすべてのログ。このクエリを使用して、疑わしい遅延が検出されなかった場合に、遅延検出サービスが実行されているかどうかを確認します。（制限により、特定の VM で疑わしい遅延のないログをフィルタすることはできません）。


    logName=~ "/logs/compute.googleapis.com%2Fworkload_diagnostic"

ストラグラー検出指標は、次の理由から、大規模な ML ワークロードに特に役立ちます。

大規模な ML ワークロードは、ストラグラーの影響を受けやすい。大規模な ML ワークロードでは、同期型の大規模分散コンピューティングが使用されます。（つまり、同時に実行される相互依存性の高いコンポーネントが多数存在します）。このアーキテクチャでは、大規模な ML ワークロードが straggler などの単一障害点の影響を受けやすくなります。
大規模な ML ワークロードで遅延タスクを特定することは非常に困難です。参考までに、単一障害点には次の 2 種類があることを考慮してください。
- 停止障害: システム全体を停止させる障害（ホストエラーやメンテナンスイベントなど）。比較的簡単に検出して解決できます。
- slow failures（遅い障害）: クラッシュせずにパフォーマンスが大幅に低下する障害。特定とデバッグが非常に困難です。
遅延障害の性質上、特に大規模な同期ワークロードでは、遅延を検出して特定することが本質的に困難です。

応答しないワークロードの検出指標

応答しないワークロードの検出指標は、次の作業に役立ちます。

ワークロード全体が停止したことを通知する（NCCL ハングと呼ばれることもあります）
ワークロードが停止した理由（プロセスクラッシュやネットワークの停止など）を把握する

コンピューティングインスタンスの応答しないワークロードを検出して診断するには、次の指標を使用します。

名前	指標タイプ	サポートされているマシンシリーズ	説明
NCCL テレメトリーを使用して検出された応答しないワークロードイベント	`instance/gpu/nccl_hang`	A4X Max、A4X、A4、A3 Ultra	検出された無応答のワークロードイベントの数（時系列）。

応答しないワークロードの検出を有効にする

応答しないワークロードの検出を有効にするには、ハートビートテレメトリーを使用して CoMMA を有効にする必要があります。これは、ワークロードが実行中であることを示す定期的な ping 信号です。最近のバージョンの CoMMA では、これはデフォルトで有効になっています。ただし、NICCL/gIB バンドルのバージョン 1.1.1 以降の CoMMA バージョンを使用している場合は、手動でハートビートテレメトリーを有効にする必要があります。使用している NICCL/gIB バンドルのバージョンを確認するには、NCCL と gIB のバージョンを確認するをご覧ください。

CoMMA のハートビートテレメトリーを手動で有効にするには、トレーニング環境で次の環境変数を指定します。

NCCL_PROFILER_HEARTBEAT=true

NCCL_PROFILER_HEARTBEAT_UPLOAD_INTERVAL=10s

NCCL_PROFILER_HEARTBEAT を使用してハートビートテレメトリーをオンまたはオフにし、NCCL_PROFILER_HEARTBEAT_UPLOAD_INTERVAL を使用してハートビートテレメトリーの頻度を指定します。詳細については、CoMMA 環境変数をご覧ください。

応答しないワークロードの検出をオフにする

応答しないワークロードの検出をオフにするには、トレーニング環境で次の環境変数を指定して、CoMMA でハートビートテレメトリーをオフにします。

NCCL_PROFILER_HEARTBEAT=false

ワークロードが応答しない理由を理解する

ワークロードが応答しない理由を把握するには、次の手順でラベル hang_reason の値を確認します。

Google Cloud コンソールで Metrics explorer のページに移動します。
[Metrics Explorer] に移動

検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] である結果を選択します。

次の指標を検索します。

compute.googleapis.com/instance/gpu/nccl_hang

[集計] 機能を使用して、次のラベルを選択します。
- instance_id
- hang_reason

次の表に、ラベルの可能な値、ワークロードに関する値の意味、推奨される次のステップを示します。

ラベルの値	説明	推奨される次のステップ
`MissingHeartbeatIssue`	1 つ以上のランクでハートビートテレメトリーが停止しました。これは通常、致命的なプロセスまたはノードのクラッシュを示します。	インスタンスにまだアクセスできるかどうかを確認します。ワークロードプロセスがクラッシュしたかどうかを確認します。システムログで、`dmesg` などのメモリ不足（OOM）イベントを確認します。ハードウェア障害または NVIDIA XID エラーを探します。
`StalledRankIssue`	ハートビートテレメトリーは引き続き受信されますが、NCCL オペレーションでランクが進行しません。	アプリレベルのオペレーションで発生する可能性のあるデッドロックを調査します。アプリケーションプロセスが、計算やチェックポイントなど、他のプロセスとの通信を妨げるオペレーションでスタックしていないか確認します。
`MissingCommunicatorIssue`	NCCL 通信に属するすべてのランクが進行を停止しました。	ワークロードが中断されたか、NCCL 通信が突然終了した可能性があります。この VM インスタンスでワークロードが中断なく実行されることを想定している場合は、ワークロードが異常に中断またはシャットダウンされていないか確認します。
`NoHangIssue`	デフォルト値。問題は検出されませんでした。	このため、ご対応は不要です。

指標を表示する

コンピューティングインスタンスと Slurm クラスタの指標を表示するには、次のように Monitoring ダッシュボードを使用します。

インフラストラクチャの指標とストラグラー検出の指標を表示するには、次の操作を行います。
- インフラストラクチャの健全性とパフォーマンスの概要をすばやく確認する場合や、既存のダッシュボードをカスタマイズする場合は、事前構築済みのダッシュボードを使用します。
- 特定のモニタリングニーズに合わせて、カスタムダッシュボードを作成します。
ML ワークロードの指標を表示するには、ワークロードのモニタリングを設定する方法に関するドキュメントをご覧ください。
遅延検出のログを表示するには、遅延検出ログを表示します。

ダッシュボードの使用時に問題が発生した場合は、パフォーマンスの低下に関するトラブルシューティングをご覧ください。

事前構築済みのダッシュボードを使用する

AI Hypercomputer 用に事前構築された Monitoring ダッシュボードを使用して、コンピューティングインスタンスと Slurm クラスタの指標を表示できます。事前構築されたダッシュボードのコピーを作成して、ニーズに合わせて変更することもできます。

AI Hypercomputer の事前構築済みダッシュボードを使用する手順は次のとおりです。

Google Cloud コンソールで [ダッシュボード] ページに移動します。
[ダッシュボード] に移動

検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] である結果を選択します。
[名前] 列で、表示する指標に基づいて、次のいずれかのダッシュボードの名前をクリックします。
- コンピューティングインスタンスの正常性、GPU パフォーマンス、ストラグラーの検出をモニタリングするには、Cluster Director Health Monitoring ダッシュボードを使用します。
  
  これらの指標を使用して問題を特定して分析する方法については、GCE Interactive Playbook - Cluster Director Health Monitoring プレイブックダッシュボードもご覧ください。
- ネットワーク伝送効率をモニタリングするには、Cluster Director 伝送効率ダッシュボードを使用します。
- ブロックとサブブロック間のネットワーク効率をモニタリングするには、Cluster Director Block Network ダッシュボードを使用します。
  
  これらの指標を使用して問題を特定して分析する方法については、GCE Interactive Playbook - Cluster Director Block Network プレイブックダッシュボードもご覧ください。
選択したダッシュボードの詳細ページが開きます。ツールバーの期間セレクタを使用すると、データの期間を変更できます。
省略可: ダッシュボードのコピーを作成してニーズに合わせてカスタマイズするには、[ ダッシュボードをコピー] をクリックします。

カスタムダッシュボードを作成する

カスタムのモニタリングダッシュボードを作成する手順は次のとおりです。

モニタリングする指標を選択します。まだ確認していない場合は、このドキュメントの使用可能な指標をご覧ください。
カスタムダッシュボードを作成して管理する。

遅延検出ログを表示する

ログエクスプローラを使用して遅延検出ログを表示する手順は次のとおりです。

Google Cloud コンソールで、 [ログエクスプローラ] ページに移動します。
[ログエクスプローラ] に移動

検索バーを使用してこのページを検索する場合は、小見出しが [Logging] の結果を選択します。

デフォルトでは、このページはプロジェクト内のすべてのログをクエリします。[クエリを停止] をクリックします。
ツールバーの期間セレクタを使用して、分析する期間を選択します。
[クエリ] ペインに、ストラグラー検出ログのクエリを入力します。
[クエリを実行] をクリックします。

以下に、遅延検出ログエントリの例を示します。

  {
    ...
    "jsonPayload": {
      ...
      "@type": "type.googleapis.com/ml.aitelemetry.performancedebugging.output.NetworkStragglersOutput",
      "suspectedStragglersDetection": {
        "numNodes": 4,
        "nodes": [
          {
            "latencyMs": 9,
            "instanceId": "INSTANCE_ID_1"
          },
          {
            "latencyMs": 9,
            "instanceId": "INSTANCE_ID_2"
          },
          {
            "instanceId": "INSTANCE_ID_3",
            "latencyMs": 4
          },
          {
            "instanceId": "INSTANCE_ID_4",
            "latencyMs": 0
          }
        ],
        "message": "Suspected stragglers detected."
      }
    },
    "resource": {
      "type": "project",
      "labels": {
        "project_id": "PROJECT_NUMBER"
      }
    },
    ...
    "severity": "INFO",
    "logName": "projects/PROJECT_ID/logs/compute.googleapis.com%2Fworkload_diagnostic",
    ...
  }

このログエントリは、次のフィールドで構成されています。

numNodes: プロジェクトで検出された、遅延している可能性のあるコンピューティングインスタンスの数。この例では、4 つの疑わしいストラグラーコンピューティングインスタンスが検出されています。
instanceId: 疑わしいストラグラーとして検出されたコンピューティングインスタンスの ID。

Compute Engine インスタンスと Slurm クラスタをモニタリングする コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。