Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Menggunakan VM Flex-start dengan inferensi

Panduan ini menjelaskan manfaat dan batasan penggunaan Flex-start VM dengan inferensi Platform Agen Gemini Enterprise. Panduan ini juga menjelaskan cara men-deploy model yang menggunakan Flex-start VM.

Ringkasan

Anda dapat mengurangi biaya menjalankan tugas inferensi dengan menggunakan Flex-start VM, yang didukung oleh Dynamic Workload Scheduler. Flex-start VM menawarkan diskon yang signifikan dan sangat cocok untuk workload berdurasi singkat.

Anda dapat menentukan durasi yang diperlukan untuk Flex-start VM, hingga tujuh hari. Setelah waktu yang diminta berakhir, model yang di-deploy akan otomatis di-undeploy. Anda juga dapat membatalkan deployment model secara manual sebelum waktu berakhir.

Undeployment otomatis

Jika Anda meminta Flex-start VM untuk durasi tertentu, model Anda akan otomatis di-undeploy setelah jangka waktu tersebut. Misalnya, jika Anda meminta Flex-start VM selama lima jam, model akan otomatis di-undeploy lima jam setelah pengiriman. Anda hanya akan dikenai biaya untuk durasi workload Anda berjalan.

Batasan dan persyaratan

Pertimbangkan batasan dan persyaratan berikut saat Anda menggunakan Flex-start VM:

Durasi maksimum: Flex-start VM memiliki durasi penggunaan maksimum tujuh hari. Setiap permintaan deployment untuk durasi yang lebih lama akan ditolak.
Dukungan TPU: Penggunaan Flex-start VM dengan TPU Pod tidak didukung.
Quota: Pastikan Anda memiliki kuota preemptible Agent Platform yang cukup sebelum meluncurkan tugas. Untuk mempelajari lebih lanjut, lihat Kuota kapasitas.
Penyediaan dalam antrean: Penggunaan Flex-start VM dengan penyediaan dalam antrean tidak didukung.
Daur ulang node: Daur ulang node tidak didukung.

Penagihan

Jika workload Anda berjalan kurang dari tujuh hari, penggunaan Flex-start VM dapat mengurangi biaya.

Saat menggunakan Flex-start VM, Anda akan ditagih berdasarkan durasi tugas dan jenis mesin yang Anda pilih. Anda hanya akan dikenai biaya untuk durasi workload Anda berjalan secara aktif. Anda tidak membayar durasi tugas berada dalam antrean atau durasi setelah durasi yang diminta berakhir.

Penagihan didistribusikan ke dua SKU:

SKU Compute Engine, dengan label vertex-ai-online-prediction. Lihat Harga Dynamic Workload Scheduler.
SKU biaya pengelolaan Agent Platform. Lihat Harga Platform Agen.

Mendapatkan inferensi menggunakan Flex-start VM

Untuk menggunakan Flex-start VM saat men-deploy model untuk mendapatkan inferensi, Anda dapat menggunakan REST API.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

LOCATION_ID: Region tempat Anda menggunakan Agent Platform.
PROJECT_ID: [Project ID](/resource-manager/docs/creating-managing-projects#identifiers) Anda. .
ENDPOINT_ID: ID untuk endpoint.
MODEL_ID: ID untuk model yang akan di-deploy.
DEPLOYED_MODEL_NAME: Nama untuk DeployedModel. Anda juga dapat menggunakan nama tampilan Model untuk DeployedModel.
MACHINE_TYPE: Opsional. Resource mesin yang digunakan untuk setiap node deployment ini. Setelan defaultnya adalah n1-standard-2. Pelajari jenis-jenis mesin lebih lanjut.
ACCELERATOR_TYPE: Opsional. Jenis akselerator yang akan dipasang ke mesin. Pelajari lebih lanjut.
ACCELERATOR_COUNT: Opsional. Jumlah akselerator yang akan digunakan untuk setiap replika.
MAX_RUNTIME_DURATION: Durasi maksimum untuk deployment flex-start. Model yang di-deploy akan otomatis di-undeploy setelah durasi ini. Tentukan durasi dalam detik, yang diakhiri dengan s. Misalnya, 3600s untuk satu jam. Nilai maksimumnya adalah 604800s (7 hari).
PROJECT_NUMBER: Nomor project yang dibuat otomatis untuk project Anda.

Metode HTTP dan URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel

Meminta isi JSON:

{
  "deployedModel": {
    "model": "projects/PROJECT/locations/LOCATION/models/MODEL_ID",
    "displayName": "DEPLOYED_MODEL_NAME",
    "enableContainerLogging": true,
    "dedicatedResources": {
      "machineSpec": {
        "machineType": "MACHINE_TYPE",
        "acceleratorType": "ACCELERATOR_TYPE",
        "acceleratorCount": ACCELERATOR_COUNT
      },
      "flexStart": {
        "maxRuntimeDuration": "MAX_RUNTIME_DURATION"
      },
      "minReplicaCount": 2,
      "maxReplicaCount": 2
    },
  },
}

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

curl (Linux, macOS, atau Cloud Shell)

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login, atau dengan menggunakan Cloud Shell, yang secara otomatis membuat Anda login ke gcloud CLI. Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel"

PowerShell (Windows)

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login. Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel" | Select-Object -Expand Content

Anda akan menerima respons JSON yang mirip dengan yang berikut ini:

{
  "name": "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployModelOperationMetadata",
    "genericMetadata": {
      "createTime": "2020-10-19T17:53:16.502088Z",
      "updateTime": "2020-10-19T17:53:16.502088Z"
    }
  }
}

Menggunakan VM Flex-start dengan inferensi Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Ringkasan

Undeployment otomatis

Batasan dan persyaratan

Penagihan

Mendapatkan inferensi menggunakan Flex-start VM

curl (Linux, macOS, atau Cloud Shell)

PowerShell (Windows)

Langkah berikutnya

Menggunakan VM Flex-start dengan inferensi