選擇 Vertex AI 無伺服器訓練方法

如果您要自行編寫訓練程式碼,而不是使用 AutoML},可以考慮採用幾種 Vertex AI 無伺服器訓練方式。本文簡要概述並比較執行無伺服器訓練的不同方式。

Vertex AI 無伺服器訓練資源

您可以建立三種 Vertex AI 資源,在 Vertex AI 中訓練自訂模型:

建立自訂工作時,請指定 Vertex AI 執行訓練程式碼所需的設定,包括:

在工作站集區中,您可以指定下列設定:

超參數調整工作有其他設定可供設定,例如指標。進一步瞭解超參數調整

訓練管道會自動調度並管理無伺服器訓練工作或超參數調整工作,並執行額外步驟,例如載入資料集,或在訓練工作順利完成後,將模型上傳至 Vertex AI。

無伺服器訓練資源

如要查看專案中現有的訓練管道,請前往Google Cloud 控制台的「Vertex AI」專區,然後點選「訓練管道」頁面。

前往訓練管線

如要查看專案中現有的自訂工作,請前往「自訂工作」頁面。

前往「自訂工作」

如要查看專案中現有的超參數調整工作,請前往「超參數調整」頁面。

前往「超參數調整」

預先建構的容器和自訂容器

將無伺服器訓練工作、超參數調整工作或訓練管線提交至 Vertex AI 前,您需要建立 Python 訓練應用程式自訂容器,定義要在 Vertex AI 上執行的訓練程式碼和依附元件。如果您使用 TensorFlow、PyTorch、scikit-learn 或 XGBoost 建立 Python 訓練應用程式,可以使用預先建構的容器執行程式碼。如果不確定要選擇哪個選項,請參閱訓練代碼規定瞭解詳情。

分散式訓練

您可以指定多個工作站集區,為分散式訓練設定無伺服器訓練工作、超參數調整工作或訓練管線:

  • 使用第一個工作站集區設定主要副本,並將副本數量設為 1。
  • 如果機器學習架構支援這些額外的叢集工作,可進行分散式訓練,請新增更多工作站集區,以設定工作站副本、參數伺服器副本或評估工具副本。

進一步瞭解如何使用分散式訓練

後續步驟