Menggunakan endpoint publik khusus untuk inferensi online

Endpoint publik khusus adalah endpoint publik untuk inferensi online. Endpoint ini menawarkan manfaat berikut:

  • Jaringan khusus: Saat Anda mengirim permintaan inferensi ke endpoint publik khusus, permintaan tersebut akan diisolasi dari traffic pengguna lain.
  • Latensi jaringan yang dioptimalkan
  • Dukungan payload yang lebih besar: Hingga 10 MB.
  • Waktu tunggu permintaan yang lebih lama: Dapat dikonfigurasi hingga 1 jam.
  • Siap untuk AI Generatif: Streaming dan gRPC didukung. Waktu tunggu inferensi dapat dikonfigurasi hingga 1 jam.

Karena alasan ini, endpoint publik khusus direkomendasikan sebagai praktik terbaik untuk menayangkan inferensi online Platform Agen Gemini Enterprise.

Untuk mempelajari lebih lanjut, lihat Memilih jenis endpoint.

Membuat endpoint publik khusus dan men-deploy model ke endpoint tersebut

Anda dapat membuat endpoint khusus dan men-deploy model ke endpoint tersebut menggunakan Google Cloud konsol. Untuk mengetahui detailnya, lihat Men-deploy model menggunakan Google Cloud konsol.

Anda juga dapat membuat endpoint publik khusus dan men-deploy model ke endpoint tersebut menggunakan Gemini Enterprise API sebagai berikut:

  1. Buat endpoint publik khusus. Konfigurasi waktu tunggu inferensi dan setelan logging permintaan-respons didukung pada saat pembuatan endpoint.
  2. Deploy model menggunakan Gemini Enterprise API.

Mendapatkan inferensi online dari endpoint publik khusus

Endpoint khusus mendukung protokol komunikasi HTTP dan gRPC. Untuk permintaan gRPC, header x-vertex-ai-endpoint-id harus disertakan untuk identifikasi endpoint yang tepat. API berikut didukung:

  • Prediksi
  • RawPredict
  • StreamRawPredict
  • Penyelesaian Chat (khusus Model Garden)

Anda dapat mengirim permintaan inferensi online ke endpoint publik khusus menggunakan Agent Platform SDK untuk Python. Untuk mengetahui detailnya, lihat Mengirim permintaan inferensi online ke endpoint publik khusus.

Tutorial

Batasan

  • Deployment model Gemini yang disesuaikan tidak didukung.
  • Kontrol Layanan VPC tidak didukung. Gunakan endpoint Private Service Connect sebagai gantinya.

Langkah berikutnya

  • Pelajari jenis endpoint inferensi online Platform Agen Gemini Enterprise .