既知の問題

このページでは、AI 最適化 VM またはクラスタの実行中に発生する可能性のある既知の問題について説明します。Compute Engine VM の問題については、 Compute Engine の既知の問題をご覧ください。

問題

次のセクションでは、AI Hypercomputer の既知の問題と回避策について説明します。

NVIDIA B200 GPU のファームウェアの問題による A4 VM のワークロードの中断

NVIDIA は、A4 VM で使用される B200 GPU のファームウェアに 2 つの問題を特定しました。これらの問題により、ワークロードが中断されています。具体的には、A4 VM でワークロードの中断が発生した場合は、次のいずれかが当てはまるかどうかを確認します。

この問題を軽減するには、GPU をリセットすることをおすすめします。この問題を回避するには、A4 VM の GPU を 60 日に 1 回以上リセットすることをおすすめします。

メタデータ サーバーに古い physicalHost VM メタデータが表示される

ホストエラーが発生した後、または report faulty host APIを使用してコンピューティング インスタンスを新しいホストに移動した後、 メタデータ サーバーをクエリすると、コンピューティング インスタンスの以前の ホストのメタデータが表示されることがあります。physicalHost

この問題を回避するには、次のいずれかを行います。