このページでは、AI 最適化 VM またはクラスタの実行中に発生する可能性のある既知の問題について説明します。Compute Engine VM に関する問題については、Compute Engine の既知の問題をご覧ください。
問題
次のセクションでは、AI ハイパーコンピュータの既知の問題と回避策について説明します。
NVIDIA B200 GPU のファームウェアの問題による A4 VM のワークロードの中断
NVIDIA は、A4 VM で使用される B200 GPU のファームウェアに 2 つの問題を特定しました。これらの問題により、ワークロードが中断されています。具体的には、A4 VM でワークロードの中断が発生した場合は、次のいずれかが当てはまるかどうかを確認します。
- VM の稼働時間(
lastStartTimestampフィールド)が 65 日を超えている。 - ログに
0x02aを含むXid 149メッセージが表示されている。
この問題を軽減するには、GPU をリセットすることをおすすめします。この問題を回避するには、A4 VM の GPU を 60 日に 1 回以上リセットすることをおすすめします。
注: GKE で実行している場合は、gpu-reset-tool を使用して GPU をリセットできます。このツールはリセット プロセスを自動化し、ターゲット ノード名のみを必要とします。
メタデータ サーバーに古い physicalHost VM メタデータが表示される
ホストエラーが発生した後、または faulty host API を使用してインスタンスを新しいホストに移動した後、メタデータ サーバーをクエリすると、インスタンスの以前のホストの physicalHost メタデータが表示されることがあります。
この問題を回避するには、次のいずれかを行います。
instances.getメソッドまたはgcloud compute instances describeコマンドを使用して、正しいphysicalHost情報を取得します。- インスタンスを停止してから起動します。このプロセスにより、メタデータ サーバーの
physicalHost情報が更新されます。 - 影響を受けるインスタンスの
physicalHost情報が更新されるまで 24 時間待ちます。