選擇 Gemini Enterprise Agent Platform 無伺服器訓練方法

如果您要自行編寫訓練程式碼,而不是使用 AutoML},可以考慮採用幾種 Gemini Enterprise Agent Platform 無伺服器訓練方式。本文簡要概述並比較執行無伺服器訓練的不同方式。

Agent Platform 上的無伺服器訓練資源

您可以在 Agent Platform 上建立三種資源,訓練自訂模型:

建立自訂工作時,您必須指定 Agent Platform 執行訓練程式碼所需的設定,包括:

在工作站集區中,您可以指定下列設定:

超參數調整工作有其他設定可供設定,例如指標。進一步瞭解超參數調整

訓練管線會自動調度管理無伺服器訓練工作或超參數調整工作,並執行額外步驟,例如載入資料集,或在訓練工作順利完成後,將模型上傳至 Agent Platform。

無伺服器訓練資源

如要查看專案中現有的訓練管道,請前往Google Cloud 控制台的「Agent Platform」(代理程式平台) 專區,然後點選「Training Pipelines」(訓練管道)

前往訓練管線

如要查看專案中現有的自訂工作,請前往「自訂工作」頁面。

前往「自訂工作」

如要查看專案中現有的超參數調整工作,請前往「超參數調整」頁面。

前往「超參數調整」

預先建構的容器和自訂容器

將無伺服器訓練工作、超參數調整工作或訓練管道提交至 Agent Platform 之前,您需要建立 Python 訓練應用程式自訂容器,定義要在 Agent Platform 上執行的訓練程式碼和依附元件。如果您使用 TensorFlow、PyTorch、scikit-learn 或 XGBoost 建立 Python 訓練應用程式,可以使用預先建構的容器執行程式碼。如果不確定要選擇哪個選項,請參閱訓練程式碼需求瞭解詳情。

分散式訓練

您可以指定多個工作站集區,為分散式訓練設定無伺服器訓練工作、超參數調整工作或訓練管線:

  • 使用第一個工作站集區設定主要副本,並將副本數量設為 1。
  • 如果機器學習架構支援這些額外的叢集工作,可進行分散式訓練,請新增更多工作站集區來設定工作站副本、參數伺服器副本或評估工具副本。

進一步瞭解如何使用分散式訓練

後續步驟

  • 瞭解如何建立永久資源,以執行無伺服器訓練工作。
  • 請參閱「建立無伺服器訓練工作」,瞭解如何建立無伺服器訓練工作,以便在 Gemini Enterprise Agent Platform 上執行無伺服器訓練應用程式。
  • 請參閱「建立訓練管線」,瞭解如何建立訓練管線,以便在 Gemini Enterprise Agent Platform 中執行無伺服器訓練應用程式。
  • 如要瞭解超參數調整搜尋,請參閱「使用超參數調整」。