Einige generative KI-Modelle wie Gemini haben verwaltete APIs und können Prompts ohne Bereitstellung akzeptieren. Eine Liste der Modelle mit verwalteten APIs finden Sie unter APIs für Foundation Models.
Andere generative KI-Modelle müssen auf einem Endpunkt bereitgestellt werden, bevor sie Prompts akzeptieren können. Es gibt zwei Arten von generativen Modellen, die bereitgestellt werden müssen:
Abgestimmte Modelle, die Sie erstellen, indem Sie ein unterstütztes Foundation Model mit Ihren eigenen Daten abstimmen.
Generative Modelle ohne verwaltete APIs. Im Model Garden sind dies Modelle, die nicht als API verfügbar oder Agent Platform Studio gekennzeichnet sind, z. B. Llama 2.
Wenn Sie ein Modell auf einem Endpunkt bereitstellen, verknüpft die Gemini Enterprise Agent Platform Rechenressourcen und einen URI mit dem Modell, damit es Prompt-Anfragen verarbeiten kann.
Abgestimmtes Modell bereitstellen
Abgestimmte Modelle werden automatisch in die
Model Registry der Gemini Enterprise Agent Platform
hochgeladen und auf einem freigegebenen öffentlichen
endpointder Agent Platform bereitgestellt. Abgestimmte Modelle werden nicht im Model Garden angezeigt, da sie mit Ihren Daten abgestimmt wurden.
Weitere Informationen finden Sie unter
Übersicht über die Modellabstimmung.
Sobald der Endpunkt aktiv ist, kann er Prompt-Anfragen an seinen URI akzeptieren. Das Format des API-Aufrufs für ein abgestimmtes Modell ist dasselbe wie für das Foundation Model, von dem es abgeleitet wurde. Wenn Ihr Modell beispielsweise auf Gemini abgestimmt ist, muss Ihre Prompt-Anfrage der Gemini API folgen.
Senden Sie Prompt-Anfragen an den Endpunkt Ihres abgestimmten Modells und nicht an die verwaltete API. Der Endpunkt des abgestimmten Modells hat das folgende Format:
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
Informationen zum Abrufen der Endpunkt-ID finden Sie unter Endpunkt aufrufen oder verwalten.
Generatives Modell ohne verwaltete API bereitstellen
Wenn Sie ein Modell aus dem Model Garden verwenden möchten, das keine verwaltete API hat, müssen Sie das Modell in die Model Registry hochladen und auf einem Endpunkt bereitstellen, bevor Sie Prompt-Anfragen senden können. Dies ähnelt dem Hochladen und Bereitstellen eines benutzerdefinierten trainierten Modells für Onlinevorhersagen in der Agent Platform.
Wenn Sie eines dieser Modelle bereitstellen möchten, rufen Sie den Model Garden auf und wählen Sie das gewünschte Modell aus.
Auf jeder Modellkarte werden eine oder mehrere der folgenden Bereitstellungsoptionen angezeigt:
Schaltfläche Bereitstellen: Die meisten generativen Modelle im Model Garden haben eine Schaltfläche Bereitstellen , die Sie durch die Bereitstellung in der Agent Platform führt. Wenn Sie keine Schaltfläche Bereitstellen sehen, fahren Sie mit dem nächsten Aufzählungspunkt fort.
Für die Bereitstellung in der Agent Platform können Sie die vorgeschlagenen Einstellungen verwenden oder sie ändern. Sie können auch Erweiterte Bereitstellungseinstellungen festlegen, um beispielsweise eine Compute Engine Reservierung auszuwählen.
Schaltfläche Notebook öffnen: Mit dieser Option wird ein Jupyter-Notebook geöffnet. Diese Option wird auf jeder Modellkarte angezeigt. Das Jupyter-Notebook enthält eine Anleitung und Beispielcode zum Hochladen des Modells in die Model Registry, zum Bereitstellen des Modells auf einem Endpunkt und zum Senden einer Prompt-Anfrage.
Wenn die Bereitstellung abgeschlossen ist und der Endpunkt aktiv ist, kann er Prompt-Anfragen an den URI akzeptieren. Das Format der API ist
predict und das Format
jeder instance
im Anfragetext hängt vom Modell ab. Weitere Informationen finden Sie in den folgenden Ressourcen:
Achten Sie darauf, dass Sie genügend Maschinenkontingent haben, um Ihr Modell bereitzustellen. Wenn Sie Ihr aktuelles Kontingent aufrufen oder mehr Kontingent anfordern möchten, rufen Sie in der Google Cloud Console die Seite Kontingente auf.
Filtern Sie dann nach dem Kontingentnamen Custom Model Serving, um die Kontingente für Onlinevorhersagen aufzurufen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten.
Kapazität für bereitgestellte Modelle mit Compute Engine-Reservierungen sicherstellen
Sie können Model Garden-Modelle auf VM-Ressourcen bereitstellen, die über Compute Engine-Reservierungen zugewiesen wurden. Reservierungen sorgen dafür, dass Kapazität verfügbar ist, wenn sie für Ihre Modellvorhersageanfragen benötigt wird. Weitere Informationen finden Sie unter Reservierungen mit Vorhersage verwenden.
Modell aufrufen oder verwalten
Für abgestimmte Modelle können Sie das Modell und den entsprechenden Abstimmungsjob in der Google Cloud console auf der Seite Tune and Distill aufrufen.
Zu „Abstimmen und destillieren“
In Model Registry können Sie auch alle Ihre hochgeladenen Modelle aufrufen und verwalten.
In Model Registry wird ein abgestimmtes Modell als ein Großes Modell kategorisiert und hat Labels, die das Foundation Model und die Pipeline oder den Abstimmungsjob angeben, die für die Abstimmung verwendet wurden.
Bei Modellen, die mit der Schaltfläche Bereitstellen bereitgestellt werden, wird Model Garden
als Source angegeben.
Wenn das Modell im Model Garden aktualisiert wird, wird Ihr hochgeladenes Modell in Model Registry nicht aktualisiert.
Weitere Informationen finden Sie unter Einführung in die Model Registry der Gemini Enterprise Agent Platform.
Endpunkt aufrufen oder verwalten
Wenn Sie Ihren Endpunkt aufrufen und verwalten möchten, rufen Sie in der Agent Platform die Seite Onlinevorhersage auf. Standardmäßig ist der Name des Endpunkts derselbe wie der Name des Modells.
Weitere Informationen finden Sie unter Modell auf einem Endpunkt bereitstellen.
Traffic von Modellendpunkten überwachen
Informationen zum Überwachen des Traffics von Modellendpunkten finden Sie unter Modelle überwachen.
Beschränkungen
- Ein abgestimmtes Gemini-Modell kann nur auf einem freigegebenen öffentlichen Endpunkt bereitgestellt werden. Die Bereitstellung auf dedizierten öffentlichen Endpunkten, Private Service Connect-Endpunkten und privaten Endpunkten wird nicht unterstützt.
Preise
Für abgestimmte Modelle wird Ihnen pro Token derselbe Preis in Rechnung gestellt wie für das Foundation Model, von dem Ihr Modell abgeleitet wurde. Für den Endpunkt fallen keine Kosten an, da die Abstimmung als kleiner Adapter auf dem Foundation Model implementiert wird.
Für Modelle ohne verwaltete APIs werden Ihnen die Maschinenstunden, die von Ihrem Endpunkt verwendet werden, zum gleichen Preis wie für Onlinevorhersagen in der Agent Platform in Rechnung gestellt. Es werden keine Kosten pro Token berechnet. Weitere Informationen finden Sie unter Preise für Vorhersagen in der Agent Platform.