In questo tutorial viene utilizzato Model Garden per eseguire il deployment del modello aperto Gemma 2B in un endpoint Vertex AI supportato da TPU. Devi eseguire il deployment di un modello in un endpoint prima di poterlo utilizzare per fornire previsioni online. Il deployment di un modello associa risorse fisiche al modello in modo che possa fornire previsioni online con bassa latenza.
Dopo aver eseguito il deployment del modello Gemma 2B, esegui l'inferenza del modello addestrato utilizzando PredictionServiceClient
per ottenere previsioni
online. Le previsioni online sono richieste sincrone effettuate a un
modello di cui è stato eseguito il deployment in un endpoint.
Esegui il deployment di Gemma utilizzando Model Garden
Esegui il deployment del modello Gemma 2B su un tipo di macchina Compute Engine ct5lp-hightpu-1t
ottimizzato per l'addestramento su piccola e media scala. Questa macchina
ha un acceleratore TPU v5e. Per saperne di più sull'addestramento dei modelli
utilizzando le TPU, consulta la sezione Addestramento di Cloud TPU v5e.
In questo tutorial, esegui il deployment del modello aperto Gemma 2B ottimizzato per le istruzioni utilizzando la scheda del modello in Model Garden. La versione specifica del modello è gemma2-2b-it
. -it
sta per ottimizzato per le istruzioni.
Il modello Gemma 2B ha dimensioni dei parametri inferiori, il che significa requisiti di risorse inferiori e maggiore flessibilità di implementazione.
Nella console Google Cloud , vai alla pagina Model Garden.
Fai clic sulla scheda del modello Gemma 2.
Fai clic su Esegui il deployment per aprire il riquadro Esegui il deployment del modello.
Nel riquadro Esegui il deployment del modello, specifica questi dettagli.
Per Deployment environment (Ambiente di deployment), fai clic su Vertex AI.
Nella sezione Esegui il deployment del modello:
In ID risorsa, scegli
gemma-2b-it
.Per Nome modello e Nome endpoint, accetta i valori predefiniti. Ad esempio:
- Nome modello:
gemma2-2b-it-1234567891234
- Nome endpoint:
gemma2-2b-it-mg-one-click-deploy
Prendi nota del nome dell'endpoint. Ti servirà per trovare l'ID endpoint utilizzato negli esempi di codice.
- Nome modello:
Nella sezione Impostazioni di deployment:
Accetta l'opzione predefinita per le impostazioni di base.
Per Regione, accetta il valore predefinito o scegli una regione dall'elenco. Prendi nota della regione. Ti servirà per gli esempi di codice.
Per Specifica macchina, scegli l'istanza supportata dalla TPU:
ct5lp-hightpu-1t (1 TPU_V5_LITEPOD; ct5lp-hightpu-1t)
.
Fai clic su Esegui il deployment. Al termine del deployment, ricevi un'email contenente i dettagli del nuovo endpoint. Puoi anche visualizzare i dettagli dell'endpoint facendo clic su Previsione online > Endpoint e selezionando la tua regione.
Inferenza di Gemma 2B con PredictionServiceClient
Dopo aver eseguito il deployment di Gemma 2B, utilizzi PredictionServiceClient
per
ottenere previsioni online per il prompt: "Perché il cielo è blu?"
Parametri di codice
Gli esempi di codice PredictionServiceClient
richiedono di aggiornare quanto segue.
PROJECT_ID
: Per trovare l'ID progetto, segui questi passaggi.Vai alla pagina Benvenuto nella console Google Cloud .
Nel selettore di progetti nella parte superiore della pagina, seleziona il tuo progetto.
Il nome, il numero e l'ID progetto vengono visualizzati dopo l'intestazione Benvenuto.
ENDPOINT_REGION
: la regione in cui hai implementato l'endpoint.ENDPOINT_ID
: per trovare l'ID endpoint, visualizzalo nella console o esegui il comandogcloud ai endpoints list
. Avrai bisogno del nome e della regione dell'endpoint dal riquadro Esegui il deployment del modello.Console
Puoi visualizzare i dettagli dell'endpoint facendo clic su Online prediction > Endpoints e selezionando la tua regione. Prendi nota del numero visualizzato nella colonna
ID
.gcloud
Puoi visualizzare i dettagli dell'endpoint eseguendo il comando
gcloud ai endpoints list
.gcloud ai endpoints list \ --region=ENDPOINT_REGION \ --filter=display_name=ENDPOINT_NAME
L'output è simile al seguente.
Using endpoint [https://us-central1-aiplatform.googleapis.com/] ENDPOINT_ID: 1234567891234567891 DISPLAY_NAME: gemma2-2b-it-mg-one-click-deploy
Codice di esempio
Nel codice campione per la tua lingua, aggiorna PROJECT_ID
,
ENDPOINT_REGION
e ENDPOINT_ID
. Quindi esegui il codice.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI Python, consulta Installare l'SDK Vertex AI Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
Node.js
Prima di provare questo esempio, segui le istruzioni di configurazione di Node.js nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per saperne di più, consulta la documentazione di riferimento dell'API Vertex AI Node.js.
Per eseguire l'autenticazione in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Java
Prima di provare questo esempio, segui le istruzioni di configurazione di Java nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per saperne di più, consulta la documentazione di riferimento dell'API Vertex AI Java.
Per eseguire l'autenticazione in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Go
Prima di provare questo esempio, segui le istruzioni di configurazione di Go nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per saperne di più, consulta la documentazione di riferimento dell'API Vertex AI Go.
Per eseguire l'autenticazione in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.