Utilizzare endpoint pubblici dedicati per l'inferenza online

Un endpoint pubblico dedicato è un endpoint pubblico per l'inferenza online. Offre i seguenti vantaggi:

  • Networking dedicato: quando invii una richiesta di inferenza a un endpoint pubblico dedicato, questa viene isolata dal traffico di altri utenti.
  • Latenza di rete ottimizzata
  • Supporto di payload più grandi: fino a 10 MB.
  • Timeout delle richieste più lunghi: configurabili fino a 1 ora.
  • Pronto per l'AI generativa: sono supportati lo streaming e gRPC. Il timeout dell'inferenza è configurabile fino a 1 ora.

Per questi motivi, gli endpoint pubblici dedicati sono consigliati come best practice per la pubblicazione di inferenze online di Gemini Enterprise Agent Platform.

Per saperne di più, consulta Scegliere un tipo di endpoint.

Crea un endpoint pubblico dedicato ed esegui il deployment di un modello

Puoi creare un endpoint dedicato ed eseguirvi il deployment di un modello utilizzando la consoleGoogle Cloud . Per maggiori dettagli, vedi Eseguire il deployment di un modello utilizzando la console Google Cloud .

Puoi anche creare un endpoint pubblico dedicato ed eseguirvi il deployment di un modello utilizzando l'API Gemini Enterprise nel seguente modo:

  1. Crea un endpoint pubblico dedicato. La configurazione delle impostazioni di timeout dell'inferenza e di logging di richiesta-risposta è supportata al momento della creazione dell'endpoint.
  2. Esegui il deployment del modello utilizzando l'API Gemini Enterprise.

Ottenere inferenze online da un endpoint pubblico dedicato

Gli endpoint dedicati supportano i protocolli di comunicazione HTTP e gRPC. Per le richieste gRPC, l'intestazione x-vertex-ai-endpoint-id deve essere inclusa per la corretta identificazione dell'endpoint. Sono supportate le seguenti API:

  • Previsione
  • RawPredict
  • StreamRawPredict
  • Completamento della chat (solo Model Garden)

Puoi inviare richieste di inferenza online a un endpoint pubblico dedicato utilizzando l'SDK Agent Platform per Python. Per maggiori dettagli, vedi Inviare una richiesta di inferenza online a un endpoint pubblico dedicato.

Tutorial

Limitazioni

  • Il deployment dei modelli Gemini ottimizzati non è supportato.
  • I Controlli di servizio VPC non sono supportati. Utilizza invece un endpoint Private Service Connect.

Passaggi successivi

  • Scopri di più sui tipi di endpoint per l'inferenza online di Gemini Enterprise Agent Platform.