Men-deploy model ke endpoint

Sebelum dapat mendapatkan inferensi online dari model terlatih, Anda harus men-deploy model ke endpoint. Hal ini dapat dilakukan dengan menggunakan konsol Google Cloud , Google Cloud CLI, atau Vertex AI API.

Dokumen ini menjelaskan proses men-deploy model ke endpoint.

Yang terjadi saat Anda men-deploy model

Men-deploy model akan mengaitkan resource fisik dengan model tersebut, sehingga dapat menyajikan inferensi online dengan latensi rendah.

Anda dapat men-deploy beberapa model ke satu endpoint, atau men-deploy model yang sama ke beberapa endpoint. Untuk mengetahui informasi selengkapnya, lihat Alasan men-deploy lebih dari satu model ke endpoint yang sama.

Bersiap untuk men-deploy model ke endpoint

Selama deployment model, Anda membuat keputusan penting berikut terkait cara menjalankan inferensi online:

Sumber daya diciptakan Setelan yang ditentukan saat pembuatan resource
Endpoint Lokasi tempat menjalankan inferensi
Model Container yang akan digunakan (ModelContainerSpec)
DeployedModel Resource komputasi yang akan digunakan untuk inferensi online

Setelah model di-deploy ke endpoint, setelan deployment ini tidak dapat diubah. Untuk mengubahnya, Anda harus men-deploy ulang model.

Langkah pertama dalam proses deployment adalah memutuskan jenis endpoint yang akan digunakan. Untuk mengetahui informasi selengkapnya, lihat Memilih jenis endpoint.

Selanjutnya, pastikan model terlihat di Vertex AI Model Registry. Tindakan ini diperlukan agar model dapat di-deploy. Untuk mengetahui informasi tentang Model Registry, termasuk cara mengimpor artefak model atau membuatnya langsung di Model Registry, lihat Pengantar Vertex AI Model Registry.

Keputusan selanjutnya yang harus dibuat adalah resource komputasi mana yang akan digunakan untuk menayangkan model. Jenis pelatihan model (AutoML atau kustom) dan jenis data (AutoML) menentukan jenis resource fisik yang tersedia untuk model. Setelah deployment model, Anda dapat mutate beberapa resource tersebut tanpa harus membuat deployment baru.

Resource endpoint menyediakan endpoint layanan (URL) yang Anda gunakan untuk meminta inferensi. Contoh:

   https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict

Men-deploy model ke endpoint

Anda dapat men-deploy model ke endpoint dengan menggunakan konsol Google Cloud atau menggunakan gcloud CLI atau Vertex AI API.

Men-deploy model ke endpoint publik menggunakan konsol Google Cloud

Di Google Cloud konsol, Anda dapat men-deploy model ke endpoint publik khusus atau bersama yang sudah ada, atau Anda dapat membuat endpoint baru selama proses deployment. Untuk mengetahui detailnya, lihat Men-deploy model menggunakan Google Cloud konsol.

Men-deploy model ke endpoint publik menggunakan gcloud CLI atau Vertex AI API

Saat men-deploy model menggunakan gcloud CLI atau Vertex AI API, Anda harus membuat endpoint khusus atau bersama terlebih dahulu, lalu men-deploy model ke endpoint tersebut. Untuk mengetahui detailnya, baca artikel berikut:

  1. Membuat endpoint publik khusus atau bersama
  2. Men-deploy model menggunakan gcloud CLI atau Vertex AI API

Men-deploy model ke endpoint Private Service Connect

Untuk mengetahui detailnya, lihat Menggunakan endpoint Private Service Connect untuk inferensi online.

Menggunakan deployment bertahap untuk mengupdate model yang di-deploy

Anda dapat menggunakan deployment bertahap untuk mengganti model yang di-deploy dengan model versi baru yang sama. Model baru menggunakan kembali resource komputasi dari model sebelumnya. Untuk mengetahui detailnya, lihat Menggunakan deployment bertahap untuk mengganti model yang di-deploy.

Membatalkan deployment model dan menghapus endpoint

Anda dapat membatalkan deployment model dan menghapus endpoint. Untuk mengetahui detailnya, lihat Membatalkan deployment model dan menghapus endpoint.

Alasan untuk men-deploy lebih dari satu model ke endpoint yang sama

Dengan men-deploy dua model ke endpoint yang sama, Anda dapat mengganti satu model dengan model lainnya secara bertahap. Misalnya, Anda sedang menggunakan suatu model, dan menemukan cara untuk meningkatkan akurasi model tersebut dengan data pelatihan baru. Namun, Anda tidak ingin mengupdate aplikasi agar mengarah ke URL endpoint baru, dan tidak ingin membuat perubahan tiba-tiba dalam aplikasi. Anda dapat menambahkan model baru ke endpoint yang sama, menyalurkan sebagian kecil traffic, dan meningkatkan pemisahan traffic untuk model baru secara bertahap hingga model tersebut menyalurkan semua traffic.

Karena resource dikaitkan dengan model, bukan endpoint, Anda dapat men-deploy model dari berbagai jenis ke endpoint yang sama. Namun, praktik terbaiknya adalah men-deploy model dari jenis tertentu (misalnya, AutoML tabular atau dilatih khusus) ke endpoint. Konfigurasi ini lebih mudah dikelola.

Alasan untuk men-deploy model ke lebih dari satu endpoint

Anda mungkin ingin men-deploy model dengan resource yang berbeda untuk lingkungan aplikasi yang berbeda, seperti pengujian dan produksi. Anda mungkin juga ingin mendukung SLO yang berbeda untuk permintaan inferensi Anda. Mungkin salah satu aplikasi Anda memiliki kebutuhan performa yang jauh lebih tinggi daripada yang lain. Dalam hal ini, Anda dapat men-deploy model tersebut ke endpoint berperforma lebih tinggi dengan lebih banyak resource mesin. Untuk mengoptimalkan biaya, Anda juga dapat men-deploy model ke endpoint berperforma lebih rendah dengan resource mesin yang lebih sedikit.

Perilaku penskalaan

Penskalaan otomatis Inferensi Vertex AI menskalakan jumlah node inferensi berdasarkan jumlah permintaan serentak. Dengan demikian, Anda dapat menyesuaikan beban permintaan yang berubah secara dinamis sekaligus mengelola biaya. Untuk mengetahui informasi selengkapnya, lihat Menskalakan node inferensi untuk Inferensi Vertex AI.

Langkah berikutnya