使用機器學習診斷功能查看機器學習執行作業

機器學習執行作業是指機器學習指令碼或管道的單一完整執行作業。透過 ML Diagnostics,您可以使用 CLI 或 SDK,在 Google Cloud 控制台中查看機器學習執行作業。

如要查看 Cluster Director 中的所有機器學習執行作業,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「Cluster Director」頁面。
  2. 按一下「執行診斷」分頁標籤。

前往 Cluster Director 執行診斷

如要查看 Google Kubernetes Engine 中的所有機器學習執行作業,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「Kubernetes」頁面。
  2. 在導覽選單中,按一下「AI/ML」
  3. 按一下「執行診斷」分頁標籤。

前往 GKE AI/機器學習 執行診斷

在 Cluster Director 和 GKE 中,您都會看到下列資訊:

  • 執行摘要:清單檢視表格,顯示所有機器學習執行的摘要資訊。
  • 執行作業詳細資料:每次執行的詳細資料,包括設定和執行作業資訊。
  • 指標的時序圖:所有指標,包括模型指標、成效指標和系統指標。您也可以使用 Logs Explorer 查看這些指標。使用 metrics.record() 方法記錄的指標會寫入為記錄項目,且可進行篩選或用於建立記錄指標。
  • 剖析資訊:包含「設定檔」分頁,其中列出特定執行作業的所有設定檔工作階段,並提供 XProf 檢視器的連結。這包括程式輔助和隨選設定檔擷取。您也可以直接從使用者介面擷取隨選設定檔工作階段。
  • 透過 Google Cloud 控制台依需求進行剖析:在「Profiles」分頁中,您可以直接透過 Google Cloud 控制台擷取依需求進行的剖析工作階段。按一下「擷取新的剖析工作階段」按鈕,指定要擷取剖析工作階段的持續時間,然後選取要擷取剖析資料的主機。系統會自動在表格中填入執行工作負載的主機,不必手動輸入。指定擷取時間過後,設定檔工作階段就會自動顯示在「工作階段」表格中。