本文說明如何排解在 AI 最佳化 VM 或叢集上執行的工作負載效能緩慢問題。
如要瞭解如何找出效能緩慢的原因,請參閱「監控 Compute Engine 執行個體和 Slurm 叢集」。
找出並解決工作負載中任何疑似落後的問題: 完成下列步驟:
確認工作負載是否可以使用落後偵測功能。如要查看使用落後偵測功能的限制和需求,請參閱「監控 Compute Engine 執行個體和 Slurm 叢集」。
如果無法使用落後偵測功能,請改用其他選項排解效能緩慢的問題。
如要檢查工作負載是否有任何疑似落後的 VM,請查看落後偵測指標。
舉例來說,如要在 Cloud Monitoring 中將專案的所有疑似落後者視覺化,請完成下列步驟:
-
前往 Google Cloud 控制台的「Dashboards」(資訊主頁) 頁面:
如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果。
在篩選器窗格的「類型」 專區中,按一下「Google 服務」。
在「Name」(名稱) 欄中,按一下「Cluster Director Health Monitoring」(叢集導向器健康狀態監控)。
系統會開啟資訊主頁的詳細資料頁面。
使用工具列中的時間範圍選取器,選取效能緩慢的時間範圍。偵測到落後者後,通常最多需要 10 分鐘才會回報。
如要檢查工作負載是否有任何疑似落後的 VM,請查看「Straggler Detection」(落後偵測)部分。使用這項查詢,查看「疑似落後執行個體」資料表是否列出工作負載的任何 VM。
-
根據工作負載中疑似落後的 VM 數量,採取下列行動:
如果沒有任何 VM 疑似是落後者,請確認落後者偵測功能是否正常運作。如要確認專案是否正在執行落後偵測服務,請按照操作說明查看落後偵測記錄,並查詢專案中的所有落後偵測記錄。然後按照下列步驟操作:
如果 VM 執行至少 10 分鐘後,專案仍沒有落後偵測記錄,表示專案未執行落後偵測服務。如要解決這個問題,請與 Cloud Customer Care 團隊聯絡,或稍後再試。
否則,如果您已確認專案正在執行落後偵測,且工作負載支援落後偵測,則效能緩慢可能是由其他問題所致。使用其他選項排解效能緩慢的問題。
如果工作負載中少數 VM 疑似為落後者,請測試將工作負載從疑似落後的 VM 遷移。然後按照下列步驟操作:
如果遷移作業確實能還原工作負載的效能,則疑似有問題的 VM 可能發生故障。針對每個 VM,請按照步驟回報故障主機,並將
FAULT_REASON設為PERFORMANCE,將DESCRIPTION設為straggler node。如果遷移作業無法恢復效能,可能還有更多疑似落後的 VM,或是效能緩慢是由其他問題所致。您可以檢查工作負載是否有更多疑似落後的 VM,或使用其他選項排解效能緩慢的問題。
如果工作負載中有大量 VM 疑似為落後者,請使用其他選項排解效能緩慢的問題。
使用其他選項排解效能緩慢問題:如果回報的疑似落後 VM 清單很大,或是移除回報的落後 VM 無法恢復效能,請使用其他選項排解效能緩慢問題,例如:
- 使用叢集健康狀態掃描器測試叢集。
- 查看其他成效指標。
- 請參閱其他疑難排解說明文件。舉例來說,請參閱 Compute Engine 說明文件中的「排解 GPU VM 的疑難」。