既知の問題

このページでは、AI 最適化 VM またはクラスタの実行中に発生する可能性のある既知の問題について説明します。Compute Engine VM に関する問題については、Compute Engine の既知の問題をご覧ください。

問題

次のセクションでは、AI ハイパーコンピュータの既知の問題と回避策について説明します。

NVIDIA B200 GPU のファームウェアの問題による A4 VM のワークロードの中断

NVIDIA は、A4 VM で使用される B200 GPU のファームウェアに 2 つの問題を特定しました。これらの問題により、ワークロードが中断されています。具体的には、A4 VM でワークロードの中断が発生した場合は、次のいずれかが当てはまるかどうかを確認します。

この問題を軽減するには、GPU をリセットすることをおすすめします。この問題を回避するには、A4 VM の GPU を 60 日に 1 回以上リセットすることをおすすめします。

注: GKE で実行している場合は、gpu-reset-tool を使用して GPU をリセットできます。このツールはリセット プロセスを自動化し、ターゲット ノード名のみを必要とします。

メタデータ サーバーに古い physicalHost VM メタデータが表示される

ホストエラーが発生した後、または faulty host API を使用してインスタンスを新しいホストに移動した後、メタデータ サーバーをクエリすると、インスタンスの以前のホストの physicalHost メタデータが表示されることがあります。

この問題を回避するには、次のいずれかを行います。