Google 會運用 AI 技術將內容翻譯成你偏好的語言，但可能會出錯。

排解效能緩慢問題

本文說明如何排解在 AI 最佳化 VM 或叢集上執行的工作負載效能緩慢問題。

如要瞭解如何找出效能緩慢的原因，請參閱「監控 Compute Engine 執行個體和 Slurm 叢集」。

找出並解決工作負載中任何疑似落後的項目：完成下列步驟：
1. 確認工作負載是否可以使用落後偵測功能。如要查看使用落後偵測功能的限制和需求，請參閱「監控 Compute Engine 執行個體和 Slurm 叢集」。
  
  如果無法使用落後偵測功能，請改用其他選項排解效能緩慢的問題。
2. 如要檢查工作負載是否有任何疑似落後的 VM，請查看落後偵測指標。
  
  舉例來說，如要在 Cloud Monitoring 中將專案的所有疑似落後者視覺化，請完成下列步驟：
  
  提示： 或者，如要篩選專案中疑似落後的執行個體，請按照操作說明查看落後偵測記錄，並指定查詢，找出特定 VM 中疑似落後的執行個體記錄。
  1. 在 Google Cloud 控制台中，前往「Dashboards」(資訊主頁) 頁面：
    前往「Dashboards」(資訊主頁)
    
    如果您是使用搜尋列尋找這個頁面，請選取子標題為「Monitoring」的結果。
  2. 在篩選器窗格的「類型」專區中，按一下「Google 服務」。
  3. 在「Name」(名稱) 欄中，按一下「Cluster Director Health Monitoring」(叢集導向器健康狀態監控)。
    
    系統會開啟資訊主頁的詳細資料頁面。
  4. 使用工具列中的時間範圍選取器，選取效能緩慢的時間範圍。偵測到落後者後，系統通常會在 10 分鐘內回報。
  5. 如要檢查工作負載是否有任何疑似落後的 VM，請查看「Straggler Detection」(落後偵測) 部分。使用這項查詢，查看「疑似落後執行個體」表格是否列出工作負載的任何 VM。
3. 根據工作負載中疑似落後的 VM 數量，採取下列行動：
  - 如果沒有任何 VM 疑似是落後者，請確認落後者偵測功能是否正常運作。如要確認專案是否正在執行落後偵測服務，請按照操作說明查看落後偵測記錄，並查詢專案中的所有落後偵測記錄。然後按照下列步驟操作：
    - 如果 VM 執行至少 10 分鐘後，專案仍沒有落後偵測記錄，表示專案未執行落後偵測服務。如要解決這個問題，請與 Cloud Customer Care 團隊聯絡，或稍後再試。
    - 否則，如果您已確認專案正在執行落後偵測，且工作負載支援落後偵測，則效能緩慢可能是由其他問題所致。使用其他選項排解效能緩慢的問題。
  - 如果工作負載中少數 VM 疑似為落後者，請測試將工作負載從疑似落後的 VM 遷移。然後按照下列步驟操作：
    - 如果遷移作業確實能還原工作負載的效能，則疑似有問題的 VM 可能發生故障。針對每個 VM，請按照步驟回報主機故障，並將 FAULT_REASON 設為 PERFORMANCE，將 DESCRIPTION 設為 straggler node。
    - 如果遷移作業無法恢復效能，可能還有更多疑似落後的 VM，或是效能緩慢是由其他問題所致。您可以檢查工作負載是否有更多疑似落後的 VM，或使用其他選項排解效能緩慢的問題。
  - 如果工作負載中大量 VM 疑似延遲，請使用其他選項排解效能緩慢的問題。
使用其他選項排解效能緩慢問題：如果回報的疑似落後 VM 清單很大，或是移除回報的落後 VM 無法恢復效能，請使用其他選項排解效能緩慢問題，例如：
- 查看其他成效指標。
- 查看其他疑難排解說明文件。舉例來說，請參閱 Compute Engine 說明文件中的「排解 GPU VM 的疑難」。

排解效能緩慢問題 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

排解效能緩慢問題