Endpoint publik khusus adalah endpoint publik untuk inferensi online. Hal ini menawarkan manfaat berikut:
- Jaringan khusus: Saat Anda mengirim permintaan inferensi ke endpoint publik khusus, permintaan tersebut diisolasi dari traffic pengguna lain.
- Latensi jaringan yang dioptimalkan
- Dukungan payload yang lebih besar: Hingga 10 MB.
- Waktu tunggu permintaan yang lebih lama: Dapat dikonfigurasi hingga 1 jam.
- Siap untuk AI generatif: Streaming dan gRPC didukung. Waktu tunggu inferensi dapat dikonfigurasi hingga 1 jam.
Karena alasan ini, endpoint publik khusus direkomendasikan sebagai praktik terbaik untuk menyajikan inferensi online Platform Agen Gemini Enterprise.
Untuk mempelajari lebih lanjut, lihat Memilih jenis endpoint.
Membuat endpoint publik khusus dan men-deploy model ke endpoint tersebut
Anda dapat membuat endpoint khusus dan men-deploy model ke endpoint tersebut menggunakan konsolGoogle Cloud . Untuk mengetahui detailnya, lihat Men-deploy model menggunakan Google Cloud konsol.
Anda juga dapat membuat endpoint publik khusus dan men-deploy model ke endpoint tersebut dengan menggunakan Gemini Enterprise API sebagai berikut:
- Buat endpoint publik khusus. Konfigurasi setelan logging permintaan-respons dan waktu tunggu inferensi didukung pada saat pembuatan endpoint.
- Deploy model menggunakan Gemini Enterprise API.
Mendapatkan inferensi online dari endpoint publik khusus
Endpoint khusus mendukung protokol komunikasi HTTP dan gRPC. Untuk permintaan gRPC, header x-vertex-ai-endpoint-id harus disertakan untuk identifikasi endpoint yang tepat. API berikut didukung:
- Prediksi
- RawPredict
- StreamRawPredict
- Penyelesaian Chat (khusus Model Garden)
Anda dapat mengirim permintaan inferensi online ke endpoint publik khusus menggunakan Agent Platform SDK untuk Python. Untuk mengetahui detailnya, lihat Mengirim permintaan inferensi online ke endpoint publik khusus.
Tutorial
Batasan
- Deployment model Gemini yang di-tune tidak didukung.
- Kontrol Layanan VPC tidak didukung. Gunakan endpoint Private Service Connect sebagai gantinya.
Langkah berikutnya
- Pelajari jenis endpoint inferensi online Gemini Enterprise Agent Platform .