Un endpoint pubblico dedicato è un endpoint pubblico per l'inferenza online. Offre i seguenti vantaggi:
- Networking dedicato: quando invii una richiesta di inferenza a un endpoint pubblico dedicato, il traffico è isolato da quello degli altri utenti.
- Latenza di rete ottimizzata
- Supporto di payload più grandi: fino a 10 MB.
- Timeout delle richieste più lunghi: configurabili fino a 1 ora.
- Pronto per l'AI generativa: sono supportati lo streaming e gRPC. Il timeout dell'inferenza è configurabile fino a 1 ora.
Per questi motivi, gli endpoint pubblici dedicati sono consigliati come best practice per pubblicare le inferenze online di Gemini Enterprise Agent Platform.
Per saperne di più, consulta Scegliere un tipo di endpoint.
Creare un endpoint pubblico dedicato ed eseguirne il deployment di un modello
Puoi creare un endpoint dedicato ed eseguirne il deployment di un modello utilizzando la Google Cloud console. Per maggiori dettagli, consulta Eseguire il deployment di un modello utilizzando la Google Cloud console.
Puoi anche creare un endpoint pubblico dedicato ed eseguirne il deployment di un modello utilizzando l'API Gemini Enterprise come segue:
- Crea un endpoint pubblico dedicato. La configurazione del timeout dell'inferenza e delle impostazioni di logging delle richieste-risposte è supportata al momento della creazione dell'endpoint.
- Esegui il deployment del modello utilizzando l'API Gemini Enterprise.
Ottenere inferenze online da un endpoint pubblico dedicato
Gli endpoint dedicati supportano i protocolli di comunicazione HTTP e gRPC. Per le richieste gRPC, l'intestazione x-vertex-ai-endpoint-id deve essere inclusa per l'identificazione corretta dell'endpoint. Sono supportate le seguenti API:
- Predict
- RawPredict
- StreamRawPredict
- Completamento della chat (solo Model Garden)
Puoi inviare richieste di inferenza online a un endpoint pubblico dedicato utilizzando l'SDK Vertex AI Python. Per maggiori dettagli, consulta Inviare una richiesta di inferenza online a un endpoint pubblico dedicato.
Tutorial
Limitazioni
- Il deployment dei modelli Gemini ottimizzati non è supportato.
- Controlli di servizio VPC non è supportato. Utilizza invece un endpoint Private Service Connect.