Bevor Sie Onlinevorhersagen von einem trainierten Modell erhalten können, müssen Sie das Modell auf einem Endpunktbereitstellen. Verwenden Sie dazu die Google Cloud Console, die Google Cloud CLI oder die Gemini Enterprise API.
In diesem Dokument wird der Prozess zum Bereitstellen von Modellen auf Endpunkten beschrieben.
Was beim Bereitstellen eines Modells geschieht
Durch die Bereitstellung eines Modells werden dem Modell physische Ressourcen zugeordnet, sodass es Onlinevorhersagen mit niedriger Latenz bereitstellen kann.
Sie können mehrere Modelle auf einem Endpunkt bereitstellen oder dasselbe Modell auf mehreren Endpunkten. Weitere Informationen finden Sie unter Gründe für die Bereitstellung mehrerer Modelle für denselben Endpunkt.
Vorbereitung auf die Bereitstellung eines Modells auf einem Endpunkt
Bei der Modellbereitstellung müssen Sie für die Ausführung der Onlinevorhersage für folgende Bereiche Festlegungen treffen:
| Erstellte Ressource | Einstellung bei der Ressourcenerstellung |
|---|---|
| Endpunkt | Standort, an dem Vorhersagen ausgeführt werden sollen |
| Modell | Zu verwendender Container (ModelContainerSpec) |
| DeployedModel | Rechenressourcen, die für die Onlinevorhersage verwendet werden sollen |
Nachdem das Modell auf dem Endpunkt bereitgestellt wurde, können diese Bereitstellungseinstellungen nicht mehr geändert werden. Wenn Sie sie ändern möchten, müssen Sie das Modell neu bereitstellen.
Der erste Schritt im Bereitstellungsprozess besteht darin, den zu verwendenden Endpunkttyp zu bestimmen. Weitere Informationen finden Sie unter Endpunkttyp auswählen.
Als Nächstes müssen Sie prüfen, ob das Modell in der Gemini Enterprise Agent Platform Model Registry sichtbar ist. Dies ist erforderlich, damit das Modell bereitgestellt werden kann. Informationen zur Model Registry, einschließlich des Imports von Modellartefakten oder der direkten Erstellung in der Model Registry, finden Sie unter Einführung in Gemini Enterprise Agent Platform Model Registry.
Als Nächstes müssen Sie entscheiden, welche Rechenressourcen für die Bereitstellung des Modells verwendet werden sollen.
Der Trainingstyp des Modells (AutoML oder benutzerdefiniert) und Daten (von AutoML) bestimmen die Art der physischen Ressourcen, die für das Modell verfügbar sind. Nach
der Modellbereitstellung können Sie
mutate einige
dieser Ressourcen ändern, ohne eine neue Bereitstellung erstellen zu müssen.
Die Endpunktressource stellt den Dienstendpunkt (URL) bereit, mit dem Sie die Vorhersage anfordern. Beispiel:
https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict
Modell auf einem Endpunkt bereitstellen
Sie können ein Modell mit der Console oder mit dergcloud CLI oder der Gemini Enterprise API auf einem Endpunkt bereitstellen. Google Cloud
Modell mit der Google Cloud Console auf einem öffentlichen Endpunkt bereitstellen
In der Google Cloud Console können Sie ein Modell auf einem vorhandenen dedizierten oder freigegebenen öffentlichen Endpunkt bereitstellen oder während der Bereitstellung einen neuen Endpunkt erstellen. Weitere Informationen finden Sie unter Modell mit der Google Cloud Console bereitstellen.
Modell mit der gcloud CLI oder der Gemini Enterprise API auf einem öffentlichen Endpunkt bereitstellen
Wenn Sie ein Modell mit der gcloud CLI oder der Gemini Enterprise API bereitstellen, müssen Sie zuerst einen dedizierten oder freigegebenen Endpunkt erstellen und dann das Modell darauf bereitstellen. Weitere Informationen finden Sie unter:
- Dedizierten oder freigegebenen öffentlichen Endpunkt erstellen
- Modell mit der gcloud CLI oder der Gemini Enterprise API bereitstellen
Modell auf einem Private Service Connect-Endpunkt bereitstellen
Weitere Informationen finden Sie unter Private Service Connect-Endpunkte für Onlinevorhersagen verwenden.
Bereitgestelltes Modell mit einer Rolling Deployment aktualisieren
Mit einer Rolling Deployment können Sie ein bereitgestelltes Modell durch eine neue Version desselben Modells ersetzen. Das neue Modell verwendet die Rechenressourcen des vorherigen Modells wieder. Weitere Informationen finden Sie unter Bereitgestelltes Modell mit einer Rolling Deployment ersetzen.
Bereitstellung eines Modells aufheben und Endpunkt löschen
Sie können die Bereitstellung eines Modells aufheben und den Endpunkt löschen. Weitere Informationen finden Sie unter Bereitstellung eines Modells aufheben und Endpunkt löschen.
Gründe für die Bereitstellung mehrerer Modelle für denselben Endpunkt
Wenn Sie zwei Modelle für denselben Endpunkt bereitstellen, können Sie ein Modell schrittweise durch das andere ersetzen. Angenommen, Sie verwenden ein Modell und finden eine Möglichkeit, die Genauigkeit dieses Modells mit neuen Trainingsdaten zu erhöhen. Sie möchten die Anwendung jedoch nicht so aktualisieren, dass sie auf eine neue Endpunkt-URL verweist, und Sie möchten keine plötzlichen Änderungen in Ihrer Anwendung vornehmen. Sie können das neue Modell dem gleichen Endpunkt hinzufügen, einen kleinen Teil des Traffics bereitstellen und die Trafficaufteilung für das neue Modell schrittweise erhöhen, bis sie 100 % des Traffics bereitstellt.
Da die Ressourcen mit dem Modell und nicht mit dem Endpunkt verknüpft sind, können Sie Modelle desselben Typs auf demselben Endpunkt bereitstellen. Als Best Practice wird jedoch empfohlen, Modelle eines bestimmten Typs (z. B. AutoML-Tabellen oder benutzerdefiniert trainiert) auf einem Endpunkt bereitzustellen. Diese Konfiguration ist einfacher zu verwalten.
Gründe, um ein Modell auf mehreren Endpunkten bereitzustellen
Vielleicht möchten Sie Ihre Modelle mit verschiedenen Ressourcen für verschiedene Anwendungsumgebungen wie Tests und Produktion bereitstellen. Möglicherweise möchten Sie auch unterschiedliche SLOs für Ihre Vorhersageanfragen unterstützen. Vielleicht hat eine Ihrer Anwendungen einen deutlich höheren Leistungsbedarf als die anderen. In diesem Fall könnten Sie das Modell an einem leistungsstärkeren Endpunkt mit mehr Maschinenressourcen bereitstellen. Zur Optimierung der Kosten können Sie das Modell auch für einen Endpunkt mit geringerer Leistung und mit weniger Maschinenressourcen bereitstellen.
Skalierungsverhalten
Die automatische Skalierung von Vertex AI Inference skaliert die Anzahl der Vorhersageknoten basierend auf der Anzahl gleichzeitiger Anfragen. So können Sie sich dynamisch an wechselnde Anfragelasten anpassen und gleichzeitig die Kosten verwalten. Weitere Informationen finden Sie unter Vorhersageknoten für Vertex AI Inference skalieren.
Nächste Schritte
- Endpunkttyp auswählen.
- Modell mit der Google Cloud Console bereitstellen
- Informationen zum Logging von Vorhersageanfragen und -antworten für dedizierte Endpunkte und Private Service Connect-Endpunkte.
- Informationen zum Abrufen einer Onlinevorhersage .
- Standardeinstellungen für das Vorhersage-Logging ändern