Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Modell auf einem Endpunkt bereitstellen

Bevor Sie Onlinevorhersagen von einem trainierten Modell erhalten können, müssen Sie das Modell auf einem Endpunktbereitstellen. Verwenden Sie dazu die Google Cloud Console, die Google Cloud CLI oder die Gemini Enterprise API.

In diesem Dokument wird der Prozess zum Bereitstellen von Modellen auf Endpunkten beschrieben.

Was beim Bereitstellen eines Modells geschieht

Durch die Bereitstellung eines Modells werden dem Modell physische Ressourcen zugeordnet, sodass es Onlinevorhersagen mit niedriger Latenz bereitstellen kann.

Sie können mehrere Modelle auf einem Endpunkt bereitstellen oder dasselbe Modell auf mehreren Endpunkten. Weitere Informationen finden Sie unter Gründe für die Bereitstellung mehrerer Modelle für denselben Endpunkt.

Vorbereitung auf die Bereitstellung eines Modells auf einem Endpunkt

Bei der Modellbereitstellung müssen Sie für die Ausführung der Onlinevorhersage für folgende Bereiche Festlegungen treffen:

Erstellte Ressource	Einstellung bei der Ressourcenerstellung
Endpunkt	Standort, an dem Vorhersagen ausgeführt werden sollen
Modell	Zu verwendender Container (`ModelContainerSpec`)
DeployedModel	Rechenressourcen, die für die Onlinevorhersage verwendet werden sollen

Nachdem das Modell auf dem Endpunkt bereitgestellt wurde, können diese Bereitstellungseinstellungen nicht mehr geändert werden. Wenn Sie sie ändern möchten, müssen Sie das Modell neu bereitstellen.

Der erste Schritt im Bereitstellungsprozess besteht darin, den zu verwendenden Endpunkttyp zu bestimmen. Weitere Informationen finden Sie unter Endpunkttyp auswählen.

Als Nächstes müssen Sie prüfen, ob das Modell in der Gemini Enterprise Agent Platform Model Registry sichtbar ist. Dies ist erforderlich, damit das Modell bereitgestellt werden kann. Informationen zur Model Registry, einschließlich des Imports von Modellartefakten oder der direkten Erstellung in der Model Registry, finden Sie unter Einführung in Gemini Enterprise Agent Platform Model Registry.

Als Nächstes müssen Sie entscheiden, welche Rechenressourcen für die Bereitstellung des Modells verwendet werden sollen. Der Trainingstyp des Modells (AutoML oder benutzerdefiniert) und Daten (von AutoML) bestimmen die Art der physischen Ressourcen, die für das Modell verfügbar sind. Nach der Modellbereitstellung können Sie mutate einige dieser Ressourcen ändern, ohne eine neue Bereitstellung erstellen zu müssen.

Die Endpunktressource stellt den Dienstendpunkt (URL) bereit, mit dem Sie die Vorhersage anfordern. Beispiel:

   https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict

Modell auf einem Endpunkt bereitstellen

Sie können ein Modell mit der Console oder mit der gcloud CLI oder der Gemini Enterprise API auf einem Endpunkt bereitstellen. Google Cloud

Modell mit der Google Cloud Console auf einem öffentlichen Endpunkt bereitstellen

In der Google Cloud Console können Sie ein Modell auf einem vorhandenen dedizierten oder freigegebenen öffentlichen Endpunkt bereitstellen oder während der Bereitstellung einen neuen Endpunkt erstellen. Weitere Informationen finden Sie unter Modell mit der Google Cloud Console bereitstellen.

Modell mit der gcloud CLI oder der Gemini Enterprise API auf einem öffentlichen Endpunkt bereitstellen

Wenn Sie ein Modell mit der gcloud CLI oder der Gemini Enterprise API bereitstellen, müssen Sie zuerst einen dedizierten oder freigegebenen Endpunkt erstellen und dann das Modell darauf bereitstellen. Weitere Informationen finden Sie unter:

Modell auf einem Private Service Connect-Endpunkt bereitstellen

Weitere Informationen finden Sie unter Private Service Connect-Endpunkte für Onlinevorhersagen verwenden.

Bereitgestelltes Modell mit einer Rolling Deployment aktualisieren

Mit einer Rolling Deployment können Sie ein bereitgestelltes Modell durch eine neue Version desselben Modells ersetzen. Das neue Modell verwendet die Rechenressourcen des vorherigen Modells wieder. Weitere Informationen finden Sie unter Bereitgestelltes Modell mit einer Rolling Deployment ersetzen.

Bereitstellung eines Modells aufheben und Endpunkt löschen

Sie können die Bereitstellung eines Modells aufheben und den Endpunkt löschen. Weitere Informationen finden Sie unter Bereitstellung eines Modells aufheben und Endpunkt löschen.

Gründe für die Bereitstellung mehrerer Modelle für denselben Endpunkt

Wenn Sie zwei Modelle für denselben Endpunkt bereitstellen, können Sie ein Modell schrittweise durch das andere ersetzen. Angenommen, Sie verwenden ein Modell und finden eine Möglichkeit, die Genauigkeit dieses Modells mit neuen Trainingsdaten zu erhöhen. Sie möchten die Anwendung jedoch nicht so aktualisieren, dass sie auf eine neue Endpunkt-URL verweist, und Sie möchten keine plötzlichen Änderungen in Ihrer Anwendung vornehmen. Sie können das neue Modell dem gleichen Endpunkt hinzufügen, einen kleinen Teil des Traffics bereitstellen und die Trafficaufteilung für das neue Modell schrittweise erhöhen, bis sie 100 % des Traffics bereitstellt.

Da die Ressourcen mit dem Modell und nicht mit dem Endpunkt verknüpft sind, können Sie Modelle desselben Typs auf demselben Endpunkt bereitstellen. Als Best Practice wird jedoch empfohlen, Modelle eines bestimmten Typs (z. B. AutoML-Tabellen oder benutzerdefiniert trainiert) auf einem Endpunkt bereitzustellen. Diese Konfiguration ist einfacher zu verwalten.

Gründe, um ein Modell auf mehreren Endpunkten bereitzustellen

Vielleicht möchten Sie Ihre Modelle mit verschiedenen Ressourcen für verschiedene Anwendungsumgebungen wie Tests und Produktion bereitstellen. Möglicherweise möchten Sie auch unterschiedliche SLOs für Ihre Vorhersageanfragen unterstützen. Vielleicht hat eine Ihrer Anwendungen einen deutlich höheren Leistungsbedarf als die anderen. In diesem Fall könnten Sie das Modell an einem leistungsstärkeren Endpunkt mit mehr Maschinenressourcen bereitstellen. Zur Optimierung der Kosten können Sie das Modell auch für einen Endpunkt mit geringerer Leistung und mit weniger Maschinenressourcen bereitstellen.

Skalierungsverhalten

Die automatische Skalierung von Vertex AI Inference skaliert die Anzahl der Vorhersageknoten basierend auf der Anzahl gleichzeitiger Anfragen. So können Sie sich dynamisch an wechselnde Anfragelasten anpassen und gleichzeitig die Kosten verwalten. Weitere Informationen finden Sie unter Vorhersageknoten für Vertex AI Inference skalieren.

Nächste Schritte

Endpunkttyp auswählen.
Modell mit der Google Cloud Console bereitstellen
Informationen zum Logging von Vorhersageanfragen und -antworten für dedizierte Endpunkte und Private Service Connect-Endpunkte.
Informationen zum Abrufen einer Onlinevorhersage .
Standardeinstellungen für das Vorhersage-Logging ändern

Modell auf einem Endpunkt bereitstellen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Was beim Bereitstellen eines Modells geschieht

Vorbereitung auf die Bereitstellung eines Modells auf einem Endpunkt

Modell auf einem Endpunkt bereitstellen

Modell mit der Google Cloud Console auf einem öffentlichen Endpunkt bereitstellen

Modell mit der gcloud CLI oder der Gemini Enterprise API auf einem öffentlichen Endpunkt bereitstellen

Modell auf einem Private Service Connect-Endpunkt bereitstellen

Bereitgestelltes Modell mit einer Rolling Deployment aktualisieren

Bereitstellung eines Modells aufheben und Endpunkt löschen

Gründe für die Bereitstellung mehrerer Modelle für denselben Endpunkt

Gründe, um ein Modell auf mehreren Endpunkten bereitzustellen

Skalierungsverhalten

Nächste Schritte

Modell auf einem Endpunkt bereitstellen