Bevor Sie Onlineinferenzen von einem trainierten Modell abrufen können, müssen Sie das Modell auf einem Endpunkt bereitstellen. Verwenden Sie dazu die Google Cloud Console, die Google Cloud CLI oder die Vertex AI API.
In diesem Dokument wird beschrieben, wie Sie Modelle an Endpunkte bereitstellen.
Was beim Bereitstellen eines Modells geschieht
Durch die Bereitstellung eines Modells werden dem Modell physische Ressourcen zugeordnet, sodass es Onlineinferenzen mit niedriger Latenz bereitstellen kann.
Sie können mehrere Modelle auf einem Endpunkt oder dasselbe Modell auf mehreren Endpunkten bereitstellen. Weitere Informationen finden Sie unter Gründe für die Bereitstellung mehrerer Modelle für denselben Endpunkt.
Vorbereiten der Bereitstellung eines Modells auf einem Endpunkt
Bei der Modellbereitstellung müssen Sie für die Ausführung der Onlineinferenz für folgende Bereiche Festlegungen treffen:
Erstellte Ressource | Einstellung bei der Ressourcenerstellung |
---|---|
Endpunkt | Speicherort zur Ausführung von Inferenzvorgängen |
Modell | Zu verwendender Container (ModelContainerSpec ) |
DeployedModel | Rechenressourcen für Onlineinferenz |
Nachdem das Modell auf dem Endpunkt bereitgestellt wurde, können diese Bereitstellungseinstellungen nicht mehr geändert werden. Wenn Sie diese Einstellungen ändern möchten, müssen Sie das Modell neu bereitstellen.
Der erste Schritt im Bereitstellungsprozess besteht darin, den zu verwendenden Endpunkttyp festzulegen. Weitere Informationen finden Sie unter Endpunkttyp auswählen.
Prüfen Sie als Nächstes, ob das Modell in der Vertex AI Model Registry sichtbar ist. Dies ist erforderlich, damit das Modell bereitgestellt werden kann. Informationen zu Model Registry, einschließlich des Importierens von Modellartefakten oder des direkten Erstellens von Modellartefakten in Model Registry, finden Sie unter Einführung in Vertex AI Model Registry.
Als Nächstes müssen Sie entscheiden, welche Rechenressourcen für die Bereitstellung des Modells verwendet werden sollen.
Der Trainingstyp des Modells (AutoML oder benutzerdefiniert) und Daten (von AutoML) bestimmen die Art der physischen Ressourcen, die für das Modell verfügbar sind. Nach der Modellbereitstellung können Sie einige dieser Ressourcen mit mutate
mutieren, ohne eine neue Bereitstellung erstellen zu müssen.
Die Endpunktressource stellt den Dienstendpunkt (URL) bereit, mit dem Sie die Inferenz anfordern. Beispiel:
https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict
Modell auf einem Endpunkt bereitstellen
Sie können ein Modell für einen Endpunkt bereitstellen, indem Sie die Google Cloud Console oder die gcloud CLI oder Vertex AI API verwenden.
Modell mit der Google Cloud Console auf einem öffentlichen Endpunkt bereitstellen
In der Google Cloud Console können Sie ein Modell auf einem vorhandenen dedizierten oder freigegebenen öffentlichen Endpunkt bereitstellen oder während der Bereitstellung einen neuen Endpunkt erstellen. Weitere Informationen finden Sie unter Modell mit der Google Cloud -Console bereitstellen.
Modell mithilfe der gcloud CLI oder der Vertex AI API auf einem öffentlichen Endpunkt bereitstellen
Wenn Sie ein Modell mit der gcloud CLI oder der Vertex AI API bereitstellen, müssen Sie zuerst einen dedizierten oder freigegebenen Endpunkt erstellen und das Modell dann darauf bereitstellen. Weitere Informationen finden Sie unter:
- Dedizierten oder freigegebenen öffentlichen Endpunkt erstellen
- Modell mit der gcloud CLI oder der Vertex AI API bereitstellen
Modell für einen Private Service Connect-Endpunkt bereitstellen
Weitere Informationen finden Sie unter Private Service Connect-Endpunkte für Onlineinferenz verwenden.
Rolling Deployment zum Aktualisieren eines bereitgestellten Modells verwenden
Mit einem fortlaufenden Deployment können Sie ein bereitgestelltes Modell durch eine neue Version desselben Modells ersetzen. Das neue Modell verwendet die Rechenressourcen des vorherigen Modells wieder. Weitere Informationen finden Sie unter Bereitgestelltes Modell durch Rolling Deployment ersetzen.
Bereitstellung eines Modells aufheben und Endpunkt löschen
Sie können die Bereitstellung eines Modells aufheben und den Endpunkt löschen. Weitere Informationen finden Sie unter Bereitstellung eines Modells aufheben und Endpunkt löschen.
Gründe für die Bereitstellung mehrerer Modelle für denselben Endpunkt
Wenn Sie zwei Modelle für denselben Endpunkt bereitstellen, können Sie ein Modell schrittweise durch das andere ersetzen. Angenommen, Sie verwenden ein Modell und finden eine Möglichkeit, die Genauigkeit dieses Modells mit neuen Trainingsdaten zu erhöhen. Sie möchten die Anwendung jedoch nicht so aktualisieren, dass sie auf eine neue Endpunkt-URL verweist, und Sie möchten keine plötzlichen Änderungen in Ihrer Anwendung vornehmen. Sie können das neue Modell dem gleichen Endpunkt hinzufügen, einen kleinen Teil des Traffics bereitstellen und die Trafficaufteilung für das neue Modell schrittweise erhöhen, bis sie 100 % des Traffics bereitstellt.
Da die Ressourcen mit dem Modell und nicht mit dem Endpunkt verknüpft sind, können Sie Modelle desselben Typs auf demselben Endpunkt bereitstellen. Als Best Practice wird jedoch empfohlen, Modelle eines bestimmten Typs (z. B. AutoML-Tabellen oder benutzerdefiniert trainiert) auf einem Endpunkt bereitzustellen. Diese Konfiguration ist einfacher zu verwalten.
Gründe, um ein Modell auf mehreren Endpunkten bereitzustellen
Vielleicht möchten Sie Ihre Modelle mit verschiedenen Ressourcen für verschiedene Anwendungsumgebungen wie Tests und Produktion bereitstellen. Möglicherweise möchten Sie auch unterschiedliche SLOs für Ihre Inferenzanfragen unterstützen. Vielleicht hat eine Ihrer Anwendungen einen deutlich höheren Leistungsbedarf als die anderen. In diesem Fall könnten Sie das Modell an einem leistungsstärkeren Endpunkt mit mehr Maschinenressourcen bereitstellen. Zur Optimierung der Kosten können Sie das Modell auch für einen Endpunkt mit geringerer Leistung und mit weniger Maschinenressourcen bereitstellen.
Skalierungsverhalten
Beim Autoscaling für Vertex AI-Inferenz wird die Anzahl der Inferenzknoten basierend auf der Anzahl der gleichzeitigen Anfragen skaliert. So können Sie sich dynamisch an wechselnde Anfragelasten anpassen und gleichzeitig die Kosten im Blick behalten. Weitere Informationen finden Sie unter Inferenzknoten für Vertex AI Inference skalieren.
Nächste Schritte
- Endpunkttyp auswählen
- Modell mit der Google Cloud Console bereitstellen
- Informationen zur Protokollierung von Anfragen und Antworten für dedizierte Endpunkte und Private Service Connect-Endpunkte
- Informationen zum Abrufen einer Onlineinferenz
- Standardeinstellungen für das Inferenz-Logging ändern