已知問題

本頁說明您在執行 AI 最佳化 VM 或叢集時可能會遇到的問題。如要瞭解 Compute Engine VM 的問題,請參閱「Compute Engine 已知問題」。

問題

以下列出 AI Hypercomputer 的已知問題和解決方法。

NVIDIA B200 GPU 的韌體問題導致 A4 VM 工作負載中斷

NVIDIA 發現 B200 GPU 有兩個韌體問題,這些 GPU 用於 A4 VM,會導致工作負載中斷。具體來說,如果您發現 A4 VM 的工作負載中斷,請檢查下列任一情況是否成立:

  • VM 的正常運作時間 (lastStartTimestamp 欄位) 超過 65 天。
  • 記錄會顯示提及 0x02aXid 149 訊息。

為緩解這個問題,建議重設 GPU。為避免發生問題,建議您每 60 天至少重設一次 A4 VM 上的 GPU。

中繼資料伺服器可能顯示舊的 physicalHost VM 中繼資料

發生主機錯誤或使用回報主機故障 API 將運算執行個體移至新主機後,查詢中繼資料伺服器時,可能會顯示運算執行個體先前主機的 physicalHost 中繼資料。

如要解決這個問題,請採取下列任一做法: