Vertex AI 說明文件不再更新

Vertex AI 的服務現已併入 Gemini Enterprise Agent Platform。如要查看最新資訊，請參閱 Agent Platform 說明文件。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

在永久資源上執行 Vertex AI 無伺服器訓練工作

本頁說明如何使用 Google Cloud CLI、Vertex AI SDK for Python 和 REST API，在持續性資源上執行無伺服器訓練作業。

通常，建立無伺服器訓練工作時，您需要指定工作建立及執行的運算資源。建立永久資源後，您可以改為設定無伺服器訓練作業，在該永久資源的一或多個資源集區中執行。在永久資源上執行自訂訓練工作，可大幅縮短工作啟動時間。如要建立運算資源，就會需要花時間啟動工作。

必要的角色

如要取得在持續性資源上執行無伺服器訓練作業所需的權限，請要求管理員授予您專案的 Vertex AI 使用者 (roles/aiplatform.user) IAM 角色。如要進一步瞭解如何授予角色，請參閱「管理專案、資料夾和組織的存取權」。

這個預先定義的角色具備 aiplatform.customJobs.create 權限，可透過持續性資源執行無伺服器訓練作業。

您或許還可透過自訂角色或其他預先定義的角色取得這項權限。

建立在永久資源上執行的訓練工作

如要建立在永久資源上執行的無伺服器訓練工作，請對建立無伺服器訓練工作的標準操作說明進行下列修改：

gcloud

指定 --persistent-resource-id 旗標，並將值設為要使用的持續性資源 ID (PERSISTENT_RESOURCE_ID)。
指定 --worker-pool-spec 旗標，讓 machine-type 和 disk-type 的值與持續性資源中的對應資源集區完全相符。單一節點訓練請指定一個 --worker-pool-spec，分散式訓練則指定多個。
指定小於或等於對應資源集區 replica-count 或 max-replica-count 的 replica-count。

Python

如要瞭解如何安裝或更新 Vertex AI SDK for Python，請參閱「安裝 Vertex AI SDK for Python」。詳情請參閱 Python API 參考文件。

def create_custom_job_on_persistent_resource_sample(
    project: str,
    location: str,
    staging_bucket: str,
    display_name: str,
    container_uri: str,
    persistent_resource_id: str,
    service_account: Optional[str] = None,
) -> None:
    aiplatform.init(
        project=project, location=location, staging_bucket=staging_bucket
    )

    worker_pool_specs = [{
        "machine_spec": {
            "machine_type": "n1-standard-4",
            "accelerator_type": "NVIDIA_TESLA_K80",
            "accelerator_count": 1,
        },
        "replica_count": 1,
        "container_spec": {
            "image_uri": container_uri,
            "command": [],
            "args": [],
        },
    }]

    custom_job = aiplatform.CustomJob(
        display_name=display_name,
        worker_pool_specs=worker_pool_specs,
        persistent_resource_id=persistent_resource_id,
    )

    custom_job.run(service_account=service_account)

REST

指定 persistent_resource_id 參數，並將值設為要使用的永久資源 ID (PERSISTENT_RESOURCE_ID)。
請指定 worker_pool_specs 參數，確保每個資源集區的 machine_spec 和 disk_spec 值，與持續性資源中的對應資源集區完全相符。單一節點訓練請指定一個 machine_spec，分散式訓練則指定多個。
指定小於或等於對應資源集區的 replica_count 或 max_replica_count，但不包括在該資源集區執行的任何其他工作的副本數量。replica_count