Einige generative KI-Modelle wie Gemini haben verwaltete APIs und können Prompts ohne Bereitstellung akzeptieren. Eine Liste der Modelle mit verwalteten APIs finden Sie unter APIs für Fundierungsmodelle.
Andere generative KI-Modelle müssen auf einem Endpunkt bereitgestellt werden, bevor sie Prompts akzeptieren können. Es gibt zwei Arten von generativen Modellen, die bereitgestellt werden müssen:
Abgestimmte Modelle, die Sie erstellen, indem Sie ein unterstütztes Foundation Model mit Ihren eigenen Daten abstimmen.
Generative Modelle ohne verwaltete APIs. Im Model Garden sind dies Modelle, die nicht als API verfügbar oder Vertex AI Studio gekennzeichnet sind, z. B. Llama 2.
Wenn Sie ein Modell für einen Endpunkt bereitstellen, verknüpft Vertex AI Rechenressourcen und einen URI mit dem Modell, damit es Prompts verarbeiten kann.
Abgestimmtes Modell bereitstellen
Abgestimmte Modelle werden automatisch in die Vertex AI Model Registry hochgeladen und in einem öffentlichen Vertex AI-endpoint
bereitgestellt. Abgestimmte Modelle werden nicht im Model Garden angezeigt, da sie mit Ihren Daten abgestimmt werden.
Weitere Informationen finden Sie unter Übersicht über die Modellabstimmung.
Sobald der Endpunkt aktiv ist, kann er Prompt-Anfragen an seinen URI akzeptieren. Das Format des API-Aufrufs für ein abgestimmtes Modell ist dasselbe wie für das Foundation Model, von dem es abgeleitet wurde. Wenn Ihr Modell beispielsweise auf Gemini abgestimmt ist, sollte Ihre Prompts-Anfrage der Gemini API entsprechen.
Senden Sie Prompts an den Endpunkt Ihres feinabgestimmten Modells und nicht an die verwaltete API. Der Endpunkt des feinabgestimmten Modells hat das folgende Format:
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
Informationen zum Abrufen der Endpunkt-ID finden Sie unter Endpunkt ansehen oder verwalten.
Weitere Informationen zum Formatieren von Prompts finden Sie in der Model API-Referenz.
Generatives Modell ohne verwaltete API bereitstellen
Wenn Sie ein Modell aus Model Garden verwenden möchten, für das keine verwaltete API verfügbar ist, müssen Sie das Modell in Model Registry hochladen und auf einem Endpunkt bereitstellen, bevor Sie Prompts senden können. Das ist ähnlich wie beim Hochladen und Bereitstellen eines benutzerdefinierten trainierten Modells für Onlinevorhersagen in Vertex AI.
Wenn Sie eines dieser Modelle bereitstellen möchten, rufen Sie Model Garden auf und wählen Sie das Modell aus, das Sie bereitstellen möchten.
Auf jeder Modellkarte werden eine oder mehrere der folgenden Bereitstellungsoptionen angezeigt:
Schaltfläche Bereitstellen: Die meisten generativen Modelle im Model Garden haben eine Schaltfläche Bereitstellen, die Sie durch die Bereitstellung in Vertex AI führt. Wenn Sie die Schaltfläche Bereitstellen nicht sehen, fahren Sie mit dem nächsten Punkt fort.
Für die Bereitstellung in Vertex AI können Sie die vorgeschlagenen Einstellungen verwenden oder sie ändern. Sie können auch erweiterte Bereitstellungseinstellungen festlegen, um beispielsweise eine Compute Engine-Reservierung auszuwählen.
Schaltfläche Notebook öffnen: Mit dieser Option wird ein Jupyter-Notebook geöffnet. Diese Option wird auf jeder Modellkarte angezeigt. Das Jupyter-Notebook enthält eine Anleitung und Beispielcode zum Hochladen des Modells in die Modell-Registry, zum Bereitstellen des Modells auf einem Endpunkt und zum Senden einer Prompt-Anfrage.
Wenn die Bereitstellung abgeschlossen ist und der Endpunkt aktiv ist, kann er Prompt-Anfragen an den URI akzeptieren. Das Format der API ist predict
und das Format der einzelnen instance
im Anfragetext hängt vom Modell ab. Weitere Informationen finden Sie in den folgenden Ressourcen:
Achten Sie darauf, dass Sie genügend Maschinenkontingent haben, um Ihr Modell bereitzustellen. Wenn Sie Ihr aktuelles Kontingent aufrufen oder ein höheres Kontingent anfordern möchten, rufen Sie in der Google Cloud Console die Seite Kontingente auf.
Filtern Sie dann nach dem Kontingentnamen Custom Model Serving
, um die Kontingente für die Onlinevorhersage aufzurufen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten.
Kapazität für bereitgestellte Modelle mit Compute Engine-Reservierungen sicherstellen
Sie können Model Garden-Modelle auf VM-Ressourcen bereitstellen, die über Compute Engine-Reservierungen zugewiesen wurden. Mit Reservierungen sorgen Sie dafür, dass Kapazität verfügbar ist, wenn sie für die Vorhersageanfragen Ihres Modells benötigt wird. Weitere Informationen finden Sie unter Reservierungen mit Vorhersage verwenden.
Modell ansehen oder verwalten
Bei optimierten Modellen können Sie das Modell und den zugehörigen Optimierungsjob auf der Seite Optimieren und destillieren in der Google Cloud Console aufrufen.
Zu „Abstimmen und destillieren“
In Model Registry können Sie auch alle Ihre hochgeladenen Modelle aufrufen und verwalten.
In der Model Registry wird ein abgestimmtes Modell als Large Model kategorisiert und hat Labels, die das Foundation Model und den Pipeline- oder Abstimmungsjob angeben, der für die Abstimmung verwendet wurde.
Bei Modellen, die mit der Schaltfläche Deploy (Bereitstellen) bereitgestellt werden, wird Model Garden als Source
angegeben.
Wenn das Modell in Model Garden aktualisiert wird, wird Ihr hochgeladenes Modell in Model Registry nicht aktualisiert.
Weitere Informationen finden Sie unter Einführung in Vertex AI Model Registry.
Endpunkt ansehen oder verwalten
Wenn Sie Ihren Endpunkt aufrufen und verwalten möchten, rufen Sie die Vertex AI-Seite Onlinevorhersage auf. Standardmäßig entspricht der Name des Endpunkts dem Namen des Modells.
Weitere Informationen finden Sie unter Modell auf einem Endpunkt bereitstellen.
Traffic von Modellendpunkten überwachen
Informationen zum Überwachen des Traffics von Modellendpunkten finden Sie unter Modelle überwachen.
Beschränkungen
- Ein optimiertes Gemini-Modell kann nur für einen freigegebenen öffentlichen Endpunkt bereitgestellt werden. Die Bereitstellung für dedizierte öffentliche Endpunkte, Private Service Connect-Endpunkte und private Endpunkte wird nicht unterstützt.
Preise
Für abgestimmte Modelle wird Ihnen pro Token derselbe Preis in Rechnung gestellt wie für das Foundation Model, aus dem Ihr Modell abgeleitet wurde. Für den Endpunkt fallen keine Kosten an, da das Feinabstimmen als kleiner Adapter auf dem Foundation Model implementiert wird. Weitere Informationen finden Sie unter Preise für generative KI in Vertex AI.
Für Modelle ohne verwaltete APIs wird Ihnen die Anzahl der Maschinenstunden, die von Ihrem Endpunkt verwendet werden, zum gleichen Preis wie für Vertex AI-Onlinevorhersagen in Rechnung gestellt. Die Abrechnung erfolgt nicht pro Token. Weitere Informationen finden Sie unter Preise für Vorhersagen in Vertex AI.
Nächste Schritte
- Übersicht über die Modellabstimmung
- API-Referenz für Modelle
- Modell auf einem Endpunkt bereitstellen