Panduan ini menjelaskan manfaat dan batasan penggunaan Flex-start VM dengan inferensi Platform Agen Gemini Enterprise. Panduan ini juga menjelaskan cara men-deploy model yang menggunakan Flex-start VM.
Ringkasan
Anda dapat mengurangi biaya menjalankan tugas inferensi dengan menggunakan Flex-start VM, yang didukung oleh Dynamic Workload Scheduler. Flex-start VM menawarkan diskon yang signifikan dan sangat cocok untuk workload berdurasi singkat.
Anda dapat menentukan durasi yang diperlukan untuk Flex-start VM, hingga tujuh hari. Setelah waktu yang diminta berakhir, model yang di-deploy akan otomatis di-undeploy. Anda juga dapat membatalkan deployment model secara manual sebelum waktu berakhir.
Undeployment otomatis
Jika Anda meminta Flex-start VM untuk durasi tertentu, model Anda akan otomatis di-undeploy setelah jangka waktu tersebut. Misalnya, jika Anda meminta Flex-start VM selama lima jam, model akan otomatis di-undeploy lima jam setelah pengiriman. Anda hanya akan dikenai biaya untuk durasi workload Anda berjalan.
Batasan dan persyaratan
Pertimbangkan batasan dan persyaratan berikut saat Anda menggunakan Flex-start VM:
- Durasi maksimum: Flex-start VM memiliki durasi penggunaan maksimum tujuh hari. Setiap permintaan deployment untuk durasi yang lebih lama akan ditolak.
- Dukungan TPU: Penggunaan Flex-start VM dengan TPU Pod tidak didukung.
- Quota: Pastikan Anda memiliki kuota preemptible Agent Platform yang cukup sebelum meluncurkan tugas. Untuk mempelajari lebih lanjut, lihat Kuota kapasitas.
- Penyediaan dalam antrean: Penggunaan Flex-start VM dengan penyediaan dalam antrean tidak didukung.
- Daur ulang node: Daur ulang node tidak didukung.
Penagihan
Jika workload Anda berjalan kurang dari tujuh hari, penggunaan Flex-start VM dapat mengurangi biaya.
Saat menggunakan Flex-start VM, Anda akan ditagih berdasarkan durasi tugas dan jenis mesin yang Anda pilih. Anda hanya akan dikenai biaya untuk durasi workload Anda berjalan secara aktif. Anda tidak membayar durasi tugas berada dalam antrean atau durasi setelah durasi yang diminta berakhir.
Penagihan didistribusikan ke dua SKU:
SKU Compute Engine, dengan label
vertex-ai-online-prediction. Lihat Harga Dynamic Workload Scheduler.SKU biaya pengelolaan Agent Platform. Lihat Harga Platform Agen.
Mendapatkan inferensi menggunakan Flex-start VM
Untuk menggunakan Flex-start VM saat men-deploy model untuk mendapatkan inferensi, Anda dapat menggunakan REST API.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION_ID: Region tempat Anda menggunakan Agent Platform.
- PROJECT_ID: [Project ID](/resource-manager/docs/creating-managing-projects#identifiers) Anda. .
- ENDPOINT_ID: ID untuk endpoint.
- MODEL_ID: ID untuk model yang akan di-deploy.
-
DEPLOYED_MODEL_NAME: Nama untuk
DeployedModel. Anda juga dapat menggunakan nama tampilanModeluntukDeployedModel. -
MACHINE_TYPE: Opsional. Resource mesin yang digunakan untuk setiap node deployment ini. Setelan defaultnya adalah
n1-standard-2. Pelajari jenis-jenis mesin lebih lanjut. - ACCELERATOR_TYPE: Opsional. Jenis akselerator yang akan dipasang ke mesin. Pelajari lebih lanjut.
- ACCELERATOR_COUNT: Opsional. Jumlah akselerator yang akan digunakan untuk setiap replika.
-
MAX_RUNTIME_DURATION: Durasi maksimum untuk deployment flex-start.
Model yang di-deploy akan otomatis di-undeploy setelah durasi ini. Tentukan durasi
dalam detik, yang diakhiri dengan
s. Misalnya,3600suntuk satu jam. Nilai maksimumnya adalah604800s(7 hari). - PROJECT_NUMBER: Nomor project yang dibuat otomatis untuk project Anda.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel
Meminta isi JSON:
{
"deployedModel": {
"model": "projects/PROJECT/locations/LOCATION/models/MODEL_ID",
"displayName": "DEPLOYED_MODEL_NAME",
"enableContainerLogging": true,
"dedicatedResources": {
"machineSpec": {
"machineType": "MACHINE_TYPE",
"acceleratorType": "ACCELERATOR_TYPE",
"acceleratorCount": ACCELERATOR_COUNT
},
"flexStart": {
"maxRuntimeDuration": "MAX_RUNTIME_DURATION"
},
"minReplicaCount": 2,
"maxReplicaCount": 2
},
},
}
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan menerima respons JSON yang mirip dengan yang berikut ini:
{
"name": "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.aiplatform.v1beta1.DeployModelOperationMetadata",
"genericMetadata": {
"createTime": "2020-10-19T17:53:16.502088Z",
"updateTime": "2020-10-19T17:53:16.502088Z"
}
}
}