Halaman ini diterjemahkan oleh Cloud Translation API.

Menggunakan deployment bertahap untuk mengganti model yang di-deploy

Dalam deployment bertahap, model yang di-deploy digantikan dengan versi baru dari model yang sama. Model baru menggunakan kembali resource komputasi dari model sebelumnya.

Dalam permintaan deployment bertahap, nilai pemisahan traffic dan dedicatedResources sama seperti deployment sebelumnya. Setelah deployment bertahap selesai, pemisahan traffic diperbarui untuk menunjukkan bahwa semua traffic dari DeployedModel sebelumnya telah dimigrasikan ke deployment baru.

Kolom lain yang dapat dikonfigurasi di DeployedModel (seperti serviceAccount, disableContainerLogging, dan enableAccessLogging) disetel ke nilai yang sama dengan DeployedModel sebelumnya secara default. Namun, Anda dapat secara opsional menentukan nilai baru untuk kolom ini.

Saat model di-deploy menggunakan deployment bertahap, DeployedModel baru akan dibuat. DeployedModel baru menerima ID baru yang berbeda dari ID sebelumnya. Kolom ini juga menerima nilai revisionNumber baru di kolom rolloutOptions.

Jika ada beberapa deployment bertahap yang menargetkan resource pendukung yang sama, DeployedModel dengan revisionNumber tertinggi akan diperlakukan sebagai status akhir yang diinginkan.

Seiring progres deployment bertahap, semua replika yang ada untuk DeployedModel sebelumnya diganti dengan replika DeployedModel baru. Hal ini terjadi dengan cepat, dan replika diupdate setiap kali deployment memiliki replika yang tersedia dalam jumlah yang cukup atau kapasitas lonjakan yang cukup untuk memunculkan replika tambahan.

Selain itu, saat deployment bertahap berlangsung, traffic untuk DeployedModel lama akan dimigrasikan secara bertahap ke DeployedModel baru. Traffic di-load balance secara proporsional dengan jumlah replika DeployedModel yang siap ditayangkan.

Jika replika baru deployment bertahap tidak pernah siap karena rute health-nya secara konsisten menampilkan kode respons non-200, traffic tidak akan dikirim ke replika yang belum siap tersebut. Dalam hal ini, deployment bertahap akhirnya gagal, dan replika dikembalikan ke DeployedModel sebelumnya.

Memulai deployment berkelanjutan

Untuk memulai deployment bertahap, sertakan kolom rolloutOptions dalam permintaan deployment model seperti yang ditunjukkan dalam contoh berikut.

REST

Sebelum menggunakan data permintaan mana pun, lakukan penggantian berikut:

LOCATION_ID: Region tempat Anda menggunakan Vertex AI.
PROJECT_ID: Project ID Anda.
ENDPOINT_ID: ID untuk endpoint tersebut.
MODEL_ID: ID untuk model yang akan di-deploy.
PREVIOUS_DEPLOYED_MODEL: ID DeployedModel model di endpoint yang sama. Ini menentukan DeployedModel yang resource pendukungnya akan digunakan kembali. Anda dapat memanggil GetEndpoint untuk mendapatkan daftar model yang di-deploy di endpoint beserta ID numeriknya.
MAX_UNAVAILABLE_REPLICAS: Jumlah replika model yang dapat dihentikan selama deployment bertahap.
MAX_SURGE_REPLICAS: Jumlah replika model tambahan yang dapat diaktifkan selama deployment bertahap. Jika disetel ke nol, hanya kapasitas yang ada yang digunakan.

Metode HTTP dan URL:

POST https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel

Meminta isi JSON:

{
  "deployedModel": {
    "model": "projects/PROJECT_ID/locations/LOCATION_ID/models/MODEL_ID",
    "rolloutOptions": {
      "previousDeployedModel": "PREVIOUS_DEPLOYED_MODEL",
      "maxUnavailableReplicas": "MAX_UNAVAILABLE_REPLICAS",
      "maxSurgeReplicas": "MAX_SURGE_REPLICAS"
    }
  }
}

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

curl (Linux, macOS, atau Cloud Shell)

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel"

PowerShell (Windows)

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$headers = @{  }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel" | Select-Object -Expand Content

Anda akan menerima kode status berhasil (2xx) dan respons kosong.

Jika diinginkan, Anda dapat mengganti maxSurgeReplicas dan maxUnavailableReplicas, atau keduanya, dengan nilai persentase, seperti yang ditunjukkan pada contoh berikut.

REST

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

MAX_UNAVAILABLE_PERCENTAGE: Persentase replika model yang dapat dihentikan selama deployment bertahap.
MAX_SURGE_PERCENTAGE: Persentase replika model tambahan yang dapat diaktifkan selama deployment bertahap. Jika disetel ke nol, hanya kapasitas yang ada yang digunakan.

Metode HTTP dan URL:

POST https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel

Meminta isi JSON:

{
  "deployedModel": {
    "model": "projects/PROJECT/locations/LOCATION_ID/models/MODEL_ID",
    "rolloutOptions": {
      "previousDeployedModel": "PREVIOUS_DEPLOYED_MODEL",
      "maxUnavailablePercentage": "MAX_UNAVAILABLE_PERCENTAGE",
      "maxSurgePercentage": "MAX_SURGE_PERCENTAGE"
    }
  }
}

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

curl (Linux, macOS, atau Cloud Shell)

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel"

PowerShell (Windows)

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$headers = @{  }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION_ID-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel" | Select-Object -Expand Content

Anda akan menerima kode status berhasil (2xx) dan respons kosong.

Me-roll back deployment bertahap

Untuk mengembalikan deployment berkelanjutan, mulai deployment berkelanjutan baru dari model sebelumnya, menggunakan ID DeployedModel dari deployment berkelanjutan yang sedang berlangsung sebagai previousDeployedModel.

Untuk mendapatkan ID DeployedModel untuk deployment yang sedang berlangsung, tetapkan parameter allDeploymentStates=true dalam panggilan ke GetEndpoint, seperti yang ditunjukkan dalam contoh berikut.

REST

Sebelum menggunakan data permintaan mana pun, lakukan penggantian berikut:

LOCATION_ID: Region tempat Anda menggunakan Vertex AI.
PROJECT_ID: Project ID Anda.
ENDPOINT_ID: ID untuk endpoint.

Metode HTTP dan URL:

GET https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID?allDeploymentStates=true

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

curl (Linux, macOS, atau Cloud Shell)

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login, atau dengan menggunakan Cloud Shell, yang secara otomatis membuat Anda login ke gcloud CLI. Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Jalankan perintah berikut:

curl -X GET \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID?allDeploymentStates=true"

PowerShell (Windows)

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login. Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method GET `
    -Headers $headers `
    -Uri "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID?allDeploymentStates=true" | Select-Object -Expand Content

Anda akan melihat respons JSON seperti berikut:

{
  "name": "projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID",
  "displayName": "rolling-deployments-endpoint",
  "deployedModels": [
    {
      "id": "2718281828459045",
      "model": "projects/PROJECT_ID/locations/LOCATION_ID/models/MODEL_ID@1",
      "displayName": "rd-test-model",
      "createTime": "2024-09-11T21:37:48.522692Z",
      "dedicatedResources": {
        "machineSpec": {
          "machineType": "e2-standard-2"
        },
        "minReplicaCount": 5,
        "maxReplicaCount": 5
      },
      "modelVersionId": "1",
      "state": "BEING_DEPLOYED"
    }
  ],
  "etag": "AMEw9yMs3TdZMn8CUg-3DY3wS74bkIaTDQhqJ7-Ld_Zp7wgT8gsEfJlrCOyg67lr9dwn",
  "createTime": "2024-09-11T21:22:36.588538Z",
  "updateTime": "2024-09-11T21:27:28.563579Z",
  "dedicatedEndpointEnabled": true,
  "dedicatedEndpointDns": "ENDPOINT_ID.LOCATION_ID-PROJECT_ID.prediction.vertexai.goog"
}

Kendala dan batasan

DeployedModel sebelumnya harus berada di endpoint yang sama dengan DeployedModel baru.
Anda tidak dapat membuat beberapa deployment bertahap dengan previousDeployedModel yang sama.
Anda tidak dapat membuat deployment bertahap di atas DeployedModel yang belum di-deploy sepenuhnya. Pengecualian: Jika previousDeployedModel itu sendiri adalah deployment berkelanjutan yang sedang berlangsung, maka deployment berkelanjutan baru dapat dibuat di atasnya. Hal ini memungkinkan rollback deployment yang mulai gagal.
Model sebelumnya tidak otomatis di-un-deploy setelah deployment bertahap berhasil diselesaikan. Anda dapat membatalkan deployment model secara manual.
Untuk deployment bertahap di endpoint publik bersama, predictRoute dan healthRoute untuk model baru harus sama dengan model sebelumnya.
Deployment bertahap tidak kompatibel dengan hosting bersama model.
Deployment bertahap tidak dapat digunakan untuk model yang memerlukan penjelasan online.

Menggunakan deployment bertahap untuk mengganti model yang di-deploy Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Memulai deployment berkelanjutan

REST

curl (Linux, macOS, atau Cloud Shell)

PowerShell (Windows)

REST

curl (Linux, macOS, atau Cloud Shell)

PowerShell (Windows)

Me-roll back deployment bertahap

REST

curl (Linux, macOS, atau Cloud Shell)

PowerShell (Windows)

Kendala dan batasan

Menggunakan deployment bertahap untuk mengganti model yang di-deploy