Spezielle öffentliche Endpunkte für Online-Inferenzen verwenden

Ein dedizierter öffentlicher Endpunkt ist ein öffentlicher Endpunkt für die Onlineinferenz. Er bietet folgende Vorteile:

Dedizierte Netzwerke: Wenn Sie eine Inferenzanfrage an einen dedizierten öffentlichen Endpunkt senden, wird sie vom Traffic anderer Nutzer isoliert.
Optimierte Netzwerklatenz
Unterstützung für größere Nutzlasten: Bis zu 10 MB.
Längere Zeitüberschreitungen für Anfragen: Bis zu 1 Stunde konfigurierbar.
Bereit für generative KI: Streaming und gRPC werden unterstützt. Das Zeitlimit für die Inferenz kann auf bis zu 1 Stunde konfiguriert werden.

Aus diesen Gründen werden dedizierte öffentliche Endpunkte als Best Practice für die Bereitstellung von Onlineinferenzen der Gemini Enterprise Agent Platform empfohlen.

Weitere Informationen finden Sie unter Endpunkttyp auswählen.

Dedizierten öffentlichen Endpunkt erstellen und Modell darauf bereitstellen

Sie können einen dedizierten Endpunkt erstellen und ein Modell darauf bereitstellen, indem Sie die Google Cloud Console verwenden. Weitere Informationen finden Sie unter Modell mit der Google Cloud Console bereitstellen.

Sie können auch einen dedizierten öffentlichen Endpunkt erstellen und ein Modell darauf bereitstellen, indem Sie die Gemini Enterprise API wie folgt verwenden:

Dedizierten öffentlichen Endpunkt erstellen. Die Konfiguration des Zeitlimits für die Inferenz und der Logging-Einstellungen für Anfragen und Antworten wird beim Erstellen des Endpunkts unterstützt.
Modell mit der Gemini Enterprise API bereitstellen.

Onlineinferenzen von einem dedizierten öffentlichen Endpunkt abrufen

Dedizierte Endpunkte unterstützen sowohl HTTP- als auch gRPC-Kommunikationsprotokolle. Bei gRPC-Anfragen muss der Header „x-vertex-ai-endpoint-id“ enthalten sein, damit der Endpunkt ordnungsgemäß identifiziert werden kann. Die folgenden APIs werden unterstützt:

Vorhersagen
RawPredict
StreamRawPredict
Chat Completion (nur Model Garden)

Sie können Onlineinferenzanfragen an einen dedizierten öffentlichen Endpunkt senden, indem Sie das Vertex AI SDK für Python verwenden. Weitere Informationen finden Sie unter Onlineinferenzanfrage an einen dedizierten öffentlichen Endpunkt senden.

Anleitung

Beschränkungen

Die Bereitstellung abgestimmter Gemini-Modelle wird nicht unterstützt.
VPC Service Controls wird nicht unterstützt. Verwenden Sie stattdessen einen Private Service Connect-Endpunkt.

Nächste Schritte

Informationen zu den Endpunkttypen für die Onlineinferenz der Gemini Enterprise Agent Platform .