Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

既知の問題

このページでは、AI 最適化 VM またはクラスタの実行中に発生する可能性のある既知の問題について説明します。Compute Engine VM に関する問題については、Compute Engine の既知の問題をご覧ください。

問題

次のセクションでは、AI Hypercomputer の既知の問題と回避策について説明します。

NVIDIA B200 GPU のファームウェアの問題による A4 VM のワークロードの中断

NVIDIA は、A4 VM で使用される B200 GPU のファームウェアに 2 つの問題を特定しました。これらの問題により、ワークロードが中断されています。具体的には、A4 VM でワークロードの中断が発生した場合は、次のいずれかが当てはまるかどうかを確認します。

VM の稼働時間（lastStartTimestamp フィールド）が 65 日を超えている。
ログに 0x02a を含む Xid 149 メッセージが表示されている。

この問題を軽減するには、GPU をリセットすることをおすすめします。この問題を回避するには、A4 VM の GPU を 60 日に 1 回以上リセットすることをおすすめします。

メタデータサーバーに古い `physicalHost` VM メタデータが表示される

ホストエラーが発生した後、または faulty host API を報告してコンピューティングインスタンスを新しいホストに移動した後、メタデータサーバーをクエリすると、コンピューティングインスタンスの以前のホストの physicalHost メタデータが表示されることがあります。

この問題を回避するには、次のいずれかを行います。

instances.get メソッドまたは gcloud compute instances describe コマンドを使用して、正しい physicalHost 情報を取得します。
インスタンスを停止してから起動します。このプロセスにより、メタデータサーバーの physicalHost 情報が更新されます。
影響を受けるインスタンスの physicalHost 情報が更新されるまで 24 時間待ちます。

特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。

最終更新日 2026-07-15 UTC。