Memilih jenis endpoint

Untuk men-deploy model untuk inferensi online, Anda memerlukan endpoint. Endpoint dapat dibagi menjadi jenis berikut:

  • Endpoint publik dapat diakses melalui internet publik. Endpoint ini lebih mudah digunakan karena tidak memerlukan infrastruktur jaringan pribadi. Ada dua jenis endpoint publik: khusus dan bersama. Endpoint publik khusus adalah endpoint yang lebih cepat dan menyediakan isolasi produksi, dukungan untuk ukuran payload yang lebih besar, dan waktu tunggu permintaan yang lebih lama daripada endpoint publik bersama. Selain itu, saat Anda mengirim permintaan inferensi ke endpoint publik khusus, permintaan tersebut akan diisolasi dari traffic pengguna lain. Karena alasan ini, endpoint publik khusus direkomendasikan sebagai praktik terbaik.

  • Endpoint pribadi khusus menggunakan Private Service Connect menyediakan koneksi yang aman untuk komunikasi pribadi antara lokal dan Google Cloud. Endpoint ini dapat digunakan untuk mengontrol traffic Google API melalui penggunaan Private Service Connect API. Endpoint ini direkomendasikan sebagai praktik terbaik.

  • Endpoint pribadi juga menyediakan koneksi yang aman ke model Anda dan juga dapat digunakan untuk komunikasi pribadi antara lokal dan Google Cloud. Endpoint ini menggunakan akses layanan pribadi melalui koneksi Peering Jaringan VPC.

Untuk mengetahui informasi selengkapnya tentang cara men-deploy model ke endpoint, lihat Men-deploy model ke endpoint.

Tabel berikut membandingkan jenis endpoint yang didukung untuk menayangkan inferensi online Gemini Enterprise Agent Platform.

Endpoint publik khusus (direkomendasikan) Endpoint publik bersama Endpoint pribadi khusus menggunakan Private Service Connect (direkomendasikan) Endpoint pribadi
Tujuan Pengalaman jaringan default. Memungkinkan pengiriman permintaan dari internet publik. Pengalaman jaringan default. Memungkinkan pengiriman permintaan dari internet publik. Direkomendasikan untuk aplikasi perusahaan produksi. Meningkatkan latensi dan keamanan jaringan dengan memastikan permintaan dan respons dirutekan secara pribadi. Direkomendasikan untuk aplikasi perusahaan produksi. Meningkatkan latensi dan keamanan jaringan dengan memastikan permintaan dan respons dirutekan secara pribadi.
Akses jaringan Internet publik menggunakan networking plane khusus Internet publik menggunakan networking plane bersama Jaringan pribadi menggunakan endpoint Private Service Connect Jaringan pribadi menggunakan Akses layanan pribadi (Peering Jaringan VPC)
Kontrol Layanan VPC Tidak didukung. Gunakan endpoint pribadi khusus sebagai gantinya. Didukung Didukung Didukung
Biaya Inferensi Vertex AI Inferensi Vertex AI Inferensi Vertex AI + endpoint Private Service Connect Inferensi Vertex AI + Akses layanan pribadi (lihat: "Menggunakan endpoint Private Service Connect (aturan penerusan) untuk mengakses layanan yang dipublikasikan")
Latensi jaringan Dioptimalkan Tidak dioptimalkan Dioptimalkan Dioptimalkan
Enkripsi saat transit TLS dengan sertifikat yang ditandatangani CA TLS dengan sertifikat yang ditandatangani CA TLS opsional dengan sertifikat yang ditandatangani sendiri Tidak ada
Waktu tunggu inferensi Dapat dikonfigurasi hingga 1 jam 60 detik Dapat dikonfigurasi hingga 1 jam 60 detik
Batas ukuran payload 10 MB 1,5 MB 10 MB 10 MB
Kuota QPM Tidak terbatas 30.000 Tidak terbatas Tidak terbatas
Dukungan protokol HTTP atau gRPC HTTP HTTP atau gRPC HTTP
Dukungan streaming Ya (SSE) Tidak Ya (SSE) Tidak
Pembagian traffic Ya Ya Ya Tidak
Pencatatan permintaan dan respons Ya Ya Ya Tidak
Pencatatan akses Ya Ya Ya Tidak
Deployment model Gemini yang dioptimalkan Tidak Ya Tidak Tidak
Model AutoML dan penjelasan Tidak Ya Tidak Tidak
Library klien yang didukung Agent Platform SDK untuk Python Library klien Gemini Enterprise Agent Platform, Agent Platform SDK untuk Python Agent Platform SDK untuk Python Agent Platform SDK untuk Python

Langkah berikutnya