排解效能緩慢問題

本文說明如何排解在 AI 最佳化 VM 或叢集上執行的工作負載效能緩慢問題。

如要瞭解如何找出效能緩慢的原因,請參閱「監控 Compute Engine 執行個體和 Slurm 叢集」。

  1. 找出並解決工作負載中任何疑似落後的問題: 完成下列步驟:

    1. 確認工作負載是否可以使用落後偵測功能。如要查看使用落後偵測功能的限制和需求,請參閱「監控 Compute Engine 執行個體和 Slurm 叢集」。

      如果無法使用落後偵測功能,請改用其他選項排解效能緩慢的問題

    2. 如要檢查工作負載是否有任何疑似落後的 VM,請查看落後偵測指標。

      舉例來說,如要在 Cloud Monitoring 中將專案的所有疑似落後者視覺化,請完成下列步驟:

      1. 前往 Google Cloud 控制台的「Dashboards」(資訊主頁) 頁面:

        前往「Dashboards」(資訊主頁)

        如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果

      2. 在篩選器窗格的「類型」 專區中,按一下「Google 服務」

      3. 在「Name」(名稱) 欄中,按一下「Cluster Director Health Monitoring」(叢集導向器健康狀態監控)

        系統會開啟資訊主頁的詳細資料頁面。

      4. 使用工具列中的時間範圍選取器,選取效能緩慢的時間範圍。偵測到落後者後,通常最多需要 10 分鐘才會回報。

      5. 如要檢查工作負載是否有任何疑似落後的 VM,請查看「Straggler Detection」(落後偵測)部分。使用這項查詢,查看「疑似落後執行個體」資料表是否列出工作負載的任何 VM。

    3. 根據工作負載中疑似落後的 VM 數量,採取下列行動:

  2. 使用其他選項排解效能緩慢問題:如果回報的疑似落後 VM 清單很大,或是移除回報的落後 VM 無法恢復效能,請使用其他選項排解效能緩慢問題,例如: