In diesem Tutorial stellen Sie das offene Modell Gemma 2B mithilfe von Model Garden auf einem TPU-gestützten Vertex AI-Endpunkt bereit. Sie müssen ein Modell auf einem Endpunkt bereitstellen, bevor es für Onlinevorhersagen verwendet werden kann. Durch die Bereitstellung eines Modells werden dem Modell physische Ressourcen zugeordnet, sodass es Onlinevorhersagen mit niedriger Latenz bereitstellen kann.
Nachdem Sie das Gemma 2B-Modell bereitgestellt haben, führen Sie die Inferenz für das trainierte Modell mit PredictionServiceClient
aus, um Onlinevorhersagen zu erhalten. Onlinevorhersagen sind synchrone Anfragen an ein Modell, das auf einem Endpunkt bereitgestellt wird.
Gemma mit Model Garden bereitstellen
Sie stellen das Gemma 2B-Modell auf einem ct5lp-hightpu-1t
-Compute Engine-Maschinentyp bereit, der für das Training im kleinen bis mittleren Maßstab optimiert ist. Diese Maschine hat einen TPU v5e-Beschleuniger. Weitere Informationen zum Trainieren von Modellen mit TPUs finden Sie unter Cloud TPU v5e-Training.
In dieser Anleitung stellen Sie das auf Anweisungen abgestimmte offene Modell Gemma 2B mithilfe der Modellkarte in Model Garden bereit. Die spezifische Modellversion ist gemma2-2b-it
– -it
steht für auf Anweisungen abgestimmt.
Das Gemma 2B-Modell hat eine geringere Parametergröße, was zu geringeren Ressourcenanforderungen und mehr Flexibilität bei der Bereitstellung führt.
Rufen Sie in der Google Cloud Console die Seite Model Garden auf.
Klicken Sie auf die Modellkarte Gemma 2.
Klicken Sie auf Bereitstellen, um den Bereich Modell bereitstellen zu öffnen.
Geben Sie im Bereich Modell bereitstellen die folgenden Details an.
Klicken Sie für Bereitstellungsumgebung auf Vertex AI.
Im Abschnitt Modell bereitstellen:
Wählen Sie für Ressourcen-ID die Option
gemma-2b-it
aus.Übernehmen Sie für Modellname und Endpunktname die Standardwerte. Beispiel:
- Modellname:
gemma2-2b-it-1234567891234
- Endpunktname:
gemma2-2b-it-mg-one-click-deploy
Notieren Sie sich den Endpunktnamen. Sie benötigen sie, um die in den Codebeispielen verwendete Endpunkt-ID zu finden.
- Modellname:
Im Abschnitt Bereitstellungseinstellungen:
Übernehmen Sie die Standardoption für die Grundeinstellungen.
Übernehmen Sie für Region den Standardwert oder wählen Sie eine Region aus der Liste aus. Notieren Sie sich die Region. Sie benötigen sie für die Codebeispiele.
Wählen Sie für Maschinenspezifikation die TPU-basierte Instanz aus:
ct5lp-hightpu-1t (1 TPU_V5_LITEPOD; ct5lp-hightpu-1t)
.
Klicken Sie auf Bereitstellen. Nach Abschluss des Deployments erhalten Sie eine E-Mail mit Details zu Ihrem neuen Endpunkt. Sie können die Endpunktdetails auch aufrufen, indem Sie auf Onlinevorhersage > Endpunkte klicken und Ihre Region auswählen.
Inferenz mit Gemma 2B mit dem PredictionServiceClient
Nachdem Sie Gemma 2B bereitgestellt haben, verwenden Sie die PredictionServiceClient
, um Onlinevorhersagen für den Prompt „Warum ist der Himmel blau?“ zu erhalten.
Codeparameter
Für die PredictionServiceClient
-Codebeispiele müssen Sie Folgendes aktualisieren.
PROJECT_ID
: So finden Sie Ihre Projekt-ID.Rufen Sie in der Google Cloud Console die Seite Willkommen auf.
Wählen Sie oben auf der Seite in der Projektauswahl Ihr Projekt aus.
Der Projektname, die Projektnummer und die Projekt-ID werden nach der Überschrift Willkommen angezeigt.
ENDPOINT_REGION
: Die Region, in der Sie den Endpunkt bereitgestellt haben.ENDPOINT_ID
: Die Endpunkt-ID finden Sie in der Konsole oder indem Sie den Befehlgcloud ai endpoints list
ausführen. Sie benötigen den Endpunktnamen und die Region aus dem Bereich Modell bereitstellen.Console
Sie können die Endpunktdetails aufrufen, indem Sie auf Onlinevorhersage > Endpunkte klicken und Ihre Region auswählen. Notieren Sie sich die Zahl, die in der Spalte
ID
angezeigt wird.gcloud
Mit dem Befehl
gcloud ai endpoints list
können Sie die Endpunktdetails aufrufen.gcloud ai endpoints list \ --region=ENDPOINT_REGION \ --filter=display_name=ENDPOINT_NAME
Die Ausgabe sieht so aus:
Using endpoint [https://us-central1-aiplatform.googleapis.com/] ENDPOINT_ID: 1234567891234567891 DISPLAY_NAME: gemma2-2b-it-mg-one-click-deploy
Beispielcode
Aktualisieren Sie im Beispielcode für Ihre Sprache PROJECT_ID
, ENDPOINT_REGION
und ENDPOINT_ID
. Führen Sie dann Ihren Code aus.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Python-API-Referenzdokumentation.
Node.js
Bevor Sie dieses Beispiel anwenden, folgen Sie den Node.js-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Node.js API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Bevor Sie dieses Beispiel anwenden, folgen Sie den Java-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Java API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Go
Bevor Sie dieses Beispiel anwenden, folgen Sie den Go-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Go API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.