Einige generative KI-Modelle, z. B. Gemini, haben verwaltete APIs und können Prompts ohne Bereitstellung akzeptieren. Eine Liste der Modelle mit verwalteten APIs finden Sie unter APIs für Fundierungsmodelle.
Andere generative KI-Modelle müssen auf einem Endpunkt bereitgestellt werden, bevor sie Prompts akzeptieren können. Es gibt zwei Arten von generativen Modellen, die bereitgestellt werden müssen:
Abgestimmte Modelle, die Sie erstellen, indem Sie ein unterstütztes Foundation Model mit Ihren eigenen Daten abstimmen.
Generative Modelle ohne verwaltete APIs. Im Model Garden sind dies Modelle, die nicht als API verfügbar oder Agent Platform Studio gekennzeichnet sind, z. B. Llama 2.
Wenn Sie ein Modell für einen Endpunkt bereitstellen, verknüpft Gemini Enterprise Agent Platform Rechenressourcen und einen URI mit dem Modell, damit es Prompt-Anfragen bearbeiten kann.
Abgestimmtes Modell bereitstellen
Abgestimmte Modelle werden automatisch in die Vertex AI Model Registry hochgeladen und auf einer öffentlichen endpoint der Agent Platform bereitgestellt. Abgestimmte Modelle werden nicht in Model Garden angezeigt, da sie mit Ihren Daten abgestimmt werden.
Weitere Informationen finden Sie unter Übersicht über die Modellabstimmung.
Sobald der Endpunkt aktiv ist, kann er Prompt-Anfragen an seinen URI akzeptieren. Das Format des API-Aufrufs für ein abgestimmtes Modell ist dasselbe wie für das Foundation Model, von dem es abgeleitet wurde. Wenn Ihr Modell beispielsweise auf Gemini abgestimmt ist, sollte Ihre Prompts-Anfrage der Gemini API entsprechen.
Senden Sie Prompts an den Endpunkt Ihres feinabgestimmten Modells und nicht an die verwaltete API. Der Endpunkt des feinabgestimmten Modells hat das folgende Format:
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
Informationen zum Abrufen der Endpunkt-ID finden Sie unter Endpunkt ansehen oder verwalten.
Generatives Modell ohne verwaltete API bereitstellen
Wenn Sie ein Modell aus Model Garden verwenden möchten, für das keine verwaltete API verfügbar ist, müssen Sie das Modell in Model Registry hochladen und auf einem Endpunkt bereitstellen, bevor Sie Prompts senden können. Das ist ähnlich wie das Hochladen und Bereitstellen eines benutzerdefinierten Modells für Onlinevorhersagen in der Agent Platform.
Wenn Sie eines dieser Modelle bereitstellen möchten, rufen Sie Model Garden auf und wählen Sie das Modell aus, das Sie bereitstellen möchten.
Auf jeder Modellkarte werden eine oder mehrere der folgenden Bereitstellungsoptionen angezeigt:
Schaltfläche Bereitstellen: Die meisten generativen Modelle im Model Garden haben eine Schaltfläche Bereitstellen, mit der Sie die Bereitstellung in der Agent Platform durchführen können. Wenn Sie die Schaltfläche Bereitstellen nicht sehen, fahren Sie mit dem nächsten Punkt fort.
Für die Bereitstellung auf der Agent Platform können Sie die vorgeschlagenen Einstellungen verwenden oder sie ändern. Sie können auch erweiterte Bereitstellungseinstellungen festlegen, um beispielsweise eine Compute Engine-Reservierung auszuwählen.
Schaltfläche Notebook öffnen: Mit dieser Option wird ein Jupyter-Notebook geöffnet. Diese Option wird auf jeder Modellkarte angezeigt. Das Jupyter-Notebook enthält eine Anleitung und Beispielcode zum Hochladen des Modells in die Modell-Registry, zum Bereitstellen des Modells auf einem Endpunkt und zum Senden einer Prompt-Anfrage.
Wenn die Bereitstellung abgeschlossen ist und der Endpunkt aktiv ist, kann er Prompt-Anfragen an den URI akzeptieren. Das Format der API ist predict und das Format der einzelnen instance im Anfragetext hängt vom Modell ab. Weitere Informationen finden Sie in den folgenden Ressourcen:
Achten Sie darauf, dass Sie genügend Maschinenkontingent haben, um Ihr Modell bereitzustellen. Wenn Sie Ihr aktuelles Kontingent ansehen oder ein höheres Kontingent anfordern möchten, rufen Sie in der Google Cloud Console die Seite Kontingente auf.
Filtern Sie dann nach dem Kontingentnamen Custom Model Serving, um die Kontingente für die Onlinevorhersage aufzurufen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten.
Kapazität für bereitgestellte Modelle mit Compute Engine-Reservierungen sicherstellen
Sie können Model Garden-Modelle auf VM-Ressourcen bereitstellen, die über Compute Engine-Reservierungen zugewiesen wurden. Mit Reservierungen sorgen Sie dafür, dass Kapazität verfügbar ist, wenn sie für die Vorhersageanfragen Ihres Modells benötigt wird. Weitere Informationen finden Sie unter Reservierungen mit Vorhersage verwenden.
Modell ansehen oder verwalten
Bei optimierten Modellen können Sie das Modell und den zugehörigen Optimierungsjob auf der Seite Optimieren und destillieren in der Google Cloud Console aufrufen.
Zu „Abstimmen und destillieren“
In Model Registry können Sie auch alle Ihre hochgeladenen Modelle aufrufen und verwalten.
In der Model Registry wird ein abgestimmtes Modell als Large Model kategorisiert und hat Labels, die das Foundation Model und den Pipeline- oder Abstimmungsjob angeben, der für die Abstimmung verwendet wurde.
Bei Modellen, die mit dem Button Deploy (Bereitstellen) bereitgestellt werden, wird Model Garden als Source angegeben.
Wenn das Modell im Model Garden aktualisiert wird, wird Ihr hochgeladenes Modell in Model Registry nicht aktualisiert.
Weitere Informationen finden Sie unter Einführung in Vertex AI Model Registry.
Endpunkt ansehen oder verwalten
Wenn Sie Ihren Endpunkt ansehen und verwalten möchten, rufen Sie die Seite Onlinevorhersage der Agent Platform auf. Standardmäßig entspricht der Name des Endpunkts dem Namen des Modells.
Weitere Informationen finden Sie unter Modell auf einem Endpunkt bereitstellen.
Traffic von Modellendpunkten überwachen
Informationen zum Monitoring des Traffics von Modellendpunkten finden Sie unter Modelle überwachen.
Beschränkungen
- Ein abgestimmtes Gemini-Modell kann nur für einen freigegebenen öffentlichen Endpunkt bereitgestellt werden. Die Bereitstellung für dedizierte öffentliche Endpunkte, Private Service Connect-Endpunkte und private Endpunkte wird nicht unterstützt.
Preise
Für abgestimmte Modelle wird Ihnen pro Token derselbe Preis in Rechnung gestellt wie für das Foundation Model, aus dem Ihr Modell abgestimmt wurde. Für den Endpunkt fallen keine Kosten an, da das Tuning als kleiner Adapter auf dem Foundation Model implementiert wird.
Für Modelle ohne verwaltete APIs werden Ihnen die Maschinenstunden, die von Ihrem Endpunkt verwendet werden, zum gleichen Preis wie für Onlinevorhersagen der Agent Platform in Rechnung gestellt. Die Abrechnung erfolgt nicht pro Token. Weitere Informationen finden Sie unter Preise für Vorhersagen auf der Agent-Plattform.
Nächste Schritte
- Übersicht über die Modellabstimmung
- API-Referenz für Modelle
- Modell auf einem Endpunkt bereitstellen