本頁說明如何使用 Google Cloud CLI、Vertex AI SDK for Python 和 REST API,在持續性資源上執行無伺服器訓練作業。
一般來說,建立無伺服器訓練工作時,您需要指定工作建立及執行的運算資源。建立永久資源後,您可以改為設定無伺服器訓練作業,在該永久資源的一或多個資源集區中執行。在永久資源上執行自訂訓練工作,可大幅縮短工作啟動時間。如要建立運算資源,就會需要花時間啟動工作。
必要的角色
如要取得在持續性資源上執行無伺服器訓練作業所需的權限,請要求管理員授予您專案的 Vertex AI 使用者 (roles/aiplatform.user) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。
這個預先定義的角色具備 aiplatform.customJobs.create權限,可在持續性資源上執行無伺服器訓練工作。
建立在永久資源上執行的訓練工作
如要建立在永久資源上執行的無伺服器訓練工作,請對建立無伺服器訓練工作的標準操作說明進行下列修改:
gcloud
- 指定
--persistent-resource-id旗標,並將值設為要使用的持續性資源 ID (PERSISTENT_RESOURCE_ID)。 - 指定
--worker-pool-spec旗標,讓machine-type和disk-type的值與持續性資源中的對應資源集區完全相符。單一節點訓練請指定一個--worker-pool-spec,分散式訓練則指定多個。 - 指定小於或等於相應資源集區
replica-count或max-replica-count的replica-count。
Python
如要瞭解如何安裝或更新 Python 適用的 Vertex AI SDK,請參閱「安裝 Python 適用的 Vertex AI SDK」。 詳情請參閱 Python API 參考說明文件。
REST
- 指定
persistent_resource_id參數,並將值設為要使用的永久資源 ID (PERSISTENT_RESOURCE_ID)。 - 請指定
worker_pool_specs參數,確保每個資源集區的machine_spec和disk_spec值,與持續性資源中的對應資源集區完全相符。單一節點訓練請指定一個machine_spec,分散式訓練則指定多個。 - 指定
replica_count,該值必須小於或等於對應資源集區的replica_count或max_replica_count,且不含在該資源集區執行的任何其他工作的副本計數。