已知問題

本頁說明您在執行 AI 最佳化 VM 或叢集時可能會遇到的問題。如要瞭解 Compute Engine VM 的問題,請參閱「Compute Engine 已知問題」。

問題

以下列出 AI Hypercomputer 的已知問題和解決方法。

NVIDIA B200 GPU 的韌體問題導致 A4 VM 工作負載中斷

NVIDIA 發現 B200 GPU (A4 VM 使用的 GPU) 有兩個韌體問題,會導致工作負載中斷。具體來說,如果您發現 A4 VM 上的工作負載中斷,請檢查下列任一情況是否成立:

  • VM 的正常運作時間 (lastStartTimestamp 欄位) 超過 65 天。
  • 記錄會顯示提及 0x02aXid 149 訊息。

為緩解這個問題,建議重設 GPU。為避免發生問題,建議您至少每 60 天重設一次 A4 VM 的 GPU。

注意:如果您在 GKE 中執行,可以使用 gpu-reset-tool 重設 GPU。這項工具會自動執行重設程序,只需要目標節點名稱。

中繼資料伺服器可能會顯示舊的 physicalHost VM 中繼資料

發生主機錯誤或使用回報主機 API 錯誤將執行個體移至新主機後,當您查詢中繼資料伺服器時,系統可能會顯示執行個體先前主機的physicalHost中繼資料。

如要解決這個問題,請採取下列任一做法: