本頁說明您在執行 AI 最佳化 VM 或叢集時可能會遇到的問題。如要瞭解 Compute Engine VM 的問題,請參閱「Compute Engine 已知問題」。
問題
以下列出 AI Hypercomputer 的已知問題和解決方法。
NVIDIA B200 GPU 的韌體問題導致 A4 VM 工作負載中斷
NVIDIA 發現 B200 GPU 有兩個韌體問題,這些 GPU 用於 A4 VM,會導致工作負載中斷。具體來說,如果您發現 A4 VM 的工作負載中斷,請檢查下列任一情況是否成立:
- VM 的正常運作時間 (
lastStartTimestamp欄位) 超過 65 天。 - 記錄會顯示提及
0x02a的Xid 149訊息。
為緩解這個問題,建議重設 GPU。為避免發生問題,建議您每 60 天至少重設一次 A4 VM 上的 GPU。
中繼資料伺服器可能顯示舊的 physicalHost VM 中繼資料
發生主機錯誤或使用回報主機故障 API 將運算執行個體移至新主機後,查詢中繼資料伺服器時,可能會顯示運算執行個體先前主機的 physicalHost 中繼資料。
如要解決這個問題,請採取下列任一做法:
- 使用
instances.get方法或gcloud compute instances describe指令,擷取正確的physicalHost資訊。 - 停止並啟動執行個體。這項程序會更新中繼資料伺服器中的
physicalHost資訊。 - 等待 24 小時,受影響執行個體的
physicalHost資訊就會更新。