Ein dedizierter öffentlicher Endpunkt ist ein öffentlicher Endpunkt für die Onlineinferenz. Er bietet die folgenden Vorteile:
- Dedizierte Netzwerke: Wenn Sie eine Inferenzanfrage an einen dedizierten öffentlichen Endpunkt senden, wird sie vom Traffic anderer Nutzer isoliert.
- Optimierte Netzwerklatenz
- Unterstützung größerer Nutzlasten: bis zu 10 MB.
- Längere Zeitüberschreitungen bei Anfragen: Bis zu 1 Stunde konfigurierbar.
- Bereit für generative KI: Streaming und gRPC werden unterstützt. Das Zeitlimit für die Inferenz kann auf bis zu 1 Stunde konfiguriert werden.
Aus diesen Gründen werden dedizierte öffentliche Endpunkte als Best Practice für die Bereitstellung von Onlineinferenzen der Gemini Enterprise Agent Platform empfohlen.
Weitere Informationen finden Sie unter Endpunkttyp auswählen.
Dedizierten öffentlichen Endpunkt erstellen und ein Modell darauf bereitstellen
Sie können einen dedizierten Endpunkt erstellen und ein Modell darauf bereitstellen, indem Sie dieGoogle Cloud Console verwenden. Weitere Informationen finden Sie unter Modell mit der Google Cloud Console bereitstellen.
Sie können auch einen dedizierten öffentlichen Endpunkt erstellen und ein Modell darauf bereitstellen, indem Sie die Gemini Enterprise API so verwenden:
- Dedizierten öffentlichen Endpunkt erstellen Die Konfiguration des Zeitlimits für die Inferenz und der Einstellungen für das Anfrage-/Antwort-Logging wird zum Zeitpunkt der Endpunkterstellung unterstützt.
- Modell mit der Gemini Enterprise API bereitstellen
Onlineinferenzen von einem dedizierten öffentlichen Endpunkt abrufen
Dedizierte Endpunkte unterstützen sowohl HTTP- als auch gRPC-Kommunikationsprotokolle. Bei gRPC-Anfragen muss der Header „x-vertex-ai-endpoint-id“ enthalten sein, damit der Endpunkt richtig identifiziert wird. Die folgenden APIs werden unterstützt:
- Vorhersagen
- RawPredict
- StreamRawPredict
- Chat Completion (nur Model Garden)
Sie können Online-Inferenzanfragen mit dem Agent Platform SDK für Python an einen dedizierten öffentlichen Endpunkt senden. Weitere Informationen finden Sie unter Onlinevorhersageanfrage an einen dedizierten öffentlichen Endpunkt senden.
Anleitung
Beschränkungen
- Die Bereitstellung von abgestimmten Gemini-Modellen wird nicht unterstützt.
- VPC Service Controls wird nicht unterstützt. Verwenden Sie stattdessen einen Private Service Connect-Endpunkt.
Nächste Schritte
- Endpunkttypen für die Online-Inferenz der Gemini Enterprise Agent Platform