Se usó la API de Cloud Translation para traducir esta página.

Implementa y realiza inferencias con Gemma usando Model Garden y extremos compatibles con TPU de Vertex AI

En este instructivo, usarás Model Garden para implementar el modelo abierto Gemma 2B en un extremo de Vertex AI respaldado por TPU. Debes implementar un modelo en un extremo antes de que se pueda usar para entregar predicciones en línea. La implementación de un modelo asocia recursos físicos con el modelo para que pueda entregar predicciones en línea con baja latencia.

Después de implementar el modelo de Gemma 2B, puedes realizar la inferencia del modelo entrenado con PredictionServiceClient para obtener predicciones en línea. Las predicciones en línea son solicitudes síncronas realizadas en un modelo que se implementa en un extremo.

Objetivos

En este instructivo, se muestra cómo completar las siguientes tareas:

Implementa el modelo abierto Gemma 2B en un extremo respaldado por TPU con Model Garden
Usa PredictionServiceClient para obtener predicciones en línea

Costos

En este documento, usarás los siguientes componentes facturables de Google Cloud:

A ct5lp-hightpu-1t machine type with one TPU_V5 accelerator
Vertex AI prediction and explanation

Para obtener una estimación de costos en función del uso previsto, usa la calculadora de precios.

Es posible que los usuarios de Google Cloud nuevos cumplan con los requisitos para acceder a una prueba gratuita.

Cuando completes las tareas que se describen en este documento, podrás borrar los recursos que creaste para evitar que se te siga facturando. Para obtener más información, consulta Realiza una limpieza.

Antes de comenzar

En este instructivo, debes hacer lo siguiente:

Configura un Google Cloud proyecto y habilita la API de Vertex AI
En tu máquina local, haz lo siguiente:
- Instala, inicializa y autentica Google Cloud CLI
- Instala el SDK para tu lenguaje

Configura un proyecto de Google Cloud

Configura tu Google Cloud proyecto y habilita la API de Vertex AI.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Configura la CLI de Google Cloud

En tu máquina local, configura Google Cloud CLI.

Instala y, luego, inicializa Google Cloud CLI.
Si ya instalaste gcloud CLI, ejecuta este comando para asegurarte de que se actualicen los componentes de gcloud.
```
gcloud components update
```
Para autenticarte con gcloud CLI, ejecuta este comando para generar un archivo local de credenciales predeterminadas de la aplicación (ADC). El flujo web que inicia el comando se usa para proporcionar tus credenciales de usuario.
```
gcloud auth application-default login
```
Para obtener más información, consulta Configuración de autenticación de gcloud CLI y configuración de ADC.

Configura el SDK para tu lenguaje de programación

Para configurar el entorno que se usa en este instructivo, instala el SDK de Vertex AI para tu lenguaje y la biblioteca de Protocol Buffers. Las muestras de código usan funciones de la biblioteca de búferes de protocolo para convertir el diccionario de entrada al formato JSON que espera la API.

En tu máquina local, haz clic en una de las siguientes pestañas para instalar el SDK de tu lenguaje de programación.

Python

En tu máquina local, haz clic en una de las siguientes pestañas para instalar el SDK de tu lenguaje de programación.

Ejecuta este comando para instalar y actualizar el SDK de Vertex AI para Python.
```
pip3 install --upgrade "google-cloud-aiplatform>=1.64"
```
Ejecuta este comando para instalar la biblioteca de Protocol Buffers para Python.
```
pip3 install --upgrade "protobuf>=5.28"
```

Node.js

Instala o actualiza el SDK de aiplatform para Node.js ejecutando el siguiente comando.

npm install @google-cloud/aiplatform

Java

Para agregar google-cloud-aiplatform como dependencia, agrega el código apropiado para tu entorno.

Maven con BOM

Agrega el siguiente código HTML a tu pom.xml:

<dependencyManagement>
<dependencies>
  <dependency>
    <artifactId>libraries-bom</artifactId>
    <groupId>com.google.cloud</groupId>
    <scope>import</scope>
    <type>pom</type>
    <version>26.34.0</version>
  </dependency>
</dependencies>
</dependencyManagement>
<dependencies>
<dependency>
  <groupId>com.google.cloud</groupId>
  <artifactId>google-cloud-aiplatform</artifactId>
</dependency>
<dependency>
  <groupId>com.google.protobuf</groupId>
  <artifactId>protobuf-java-util</artifactId>
</dependency>
<dependency>
  <groupId>com.google.code.gson</groupId>
  <artifactId>gson</artifactId>
</dependency>
</dependencies>

Maven sin BOM

Agrega lo siguiente a pom.xml:

<dependency>
  <groupId>com.google.cloud</groupId>
  <artifactId>google-cloud-aiplatform</artifactId>
  <version>1.1.0</version>
</dependency>
<dependency>
  <groupId>com.google.protobuf</groupId>
  <artifactId>protobuf-java-util</artifactId>
  <version>5.28</version>
</dependency>
<dependency>
  <groupId>com.google.code.gson</groupId>
  <artifactId>gson</artifactId>
  <version>2.11.0</version>
</dependency>

Gradle sin BOM

Agrega lo siguiente a tu build.gradle:

implementation 'com.google.cloud:google-cloud-aiplatform:1.1.0'

Go

Ejecuta los siguientes comandos para instalar estos paquetes de Go.

go get cloud.google.com/go/aiplatform
go get google.golang.org/protobuf
go get github.com/googleapis/gax-go/v2

Implementa Gemma con Model Garden

Implementarás el modelo Gemma 2B en un tipo de máquina ct5lp-hightpu-1t de Compute Engine optimizado para el entrenamiento a pequeña y mediana escala. Esta máquina tiene un acelerador de TPU v5e. Para obtener más información sobre el entrenamiento de modelos con TPU, consulta Entrenamiento de Cloud TPU v5e.

En este instructivo, implementarás el modelo abierto Gemma 2B ajustado según las instrucciones con la tarjeta de modelo en Model Garden. La versión específica del modelo es gemma2-2b-it; -it significa ajustado según las instrucciones.

El modelo Gemma 2B tiene un tamaño de parámetro más bajo, lo que significa menores requisitos de recursos y más flexibilidad de implementación.

En la consola de Google Cloud , ve a la página Model Garden.

Ir a Model Garden
Haz clic en la tarjeta de modelo Gemma 2.

Ir a Gemma 2
Haz clic en Implementar para abrir el panel Implementar modelo.
En el panel Deploy model, especifica estos detalles.
1. En Entorno de implementación, haz clic en Vertex AI.
2. En la sección Deploy model, haz lo siguiente:
  1. En ID del recurso, elige gemma-2b-it.
  2. En Nombre del modelo y Nombre del extremo, acepta los valores predeterminados. Por ejemplo:
    - Nombre del modelo: gemma2-2b-it-1234567891234
    - Nombre del extremo: gemma2-2b-it-mg-one-click-deploy
    Toma nota del nombre del extremo. Lo necesitarás para encontrar el ID del extremo que se usa en las muestras de código.
3. En la sección Configuración de la implementación, haz lo siguiente:
  1. Acepta la opción predeterminada para la configuración Básica.
  2. En Región, acepta el valor predeterminado o elige una región de la lista. Anota la región. La necesitarás para las muestras de código.
  3. En Especificación de la máquina, elige la instancia respaldada por TPU: ct5lp-hightpu-1t (1 TPU_V5_LITEPOD; ct5lp-hightpu-1t).
Haz clic en Implementar. Cuando finalice la implementación, recibirás un correo electrónico con detalles sobre tu nuevo extremo. También puedes ver los detalles del extremo haciendo clic en Predicción en línea > Endpoints y seleccionando tu región.

Ir a Endpoints

Inferencia de Gemma 2B con PredictionServiceClient

Después de implementar Gemma 2B, usas PredictionServiceClient para obtener predicciones en línea para la instrucción: "¿Por qué el cielo es azul?".

Parámetros de código

En las muestras de código de PredictionServiceClient, debes actualizar lo siguiente.

PROJECT_ID: Para encontrar el ID de tu proyecto, sigue estos pasos.
1. Ve a la página Bienvenida en la consola de Google Cloud .
  Ir a Bienvenida
2. En el selector de proyectos que se encuentra en la parte superior de la página, selecciona tu proyecto.
  
  El nombre, el número y el ID del proyecto aparecen después del encabezado Bienvenido.
ENDPOINT_REGION: Es la región en la que implementaste el extremo.
ENDPOINT_ID: Para encontrar el ID de tu extremo, míralo en la consola o ejecuta el comando gcloud ai endpoints list. Necesitarás el nombre y la región del extremo del panel Implementar modelo.
Console
Para ver los detalles del extremo, haz clic en Predicción en línea > Endpoints y selecciona tu región. Toma nota del número que aparece en la columna ID.

Ir a Endpoints
gcloud
Puedes ver los detalles del extremo ejecutando el comando gcloud ai endpoints list.
```
gcloud ai endpoints list \
  --region=ENDPOINT_REGION \
  --filter=display_name=ENDPOINT_NAME
```
El resultado se verá así:
```
Using endpoint [https://us-central1-aiplatform.googleapis.com/]
ENDPOINT_ID: 1234567891234567891
DISPLAY_NAME: gemma2-2b-it-mg-one-click-deploy
```

Código de muestra

En el código de muestra de tu lenguaje, actualiza PROJECT_ID, ENDPOINT_REGION y ENDPOINT_ID. Luego, ejecuta tu código.

Python

Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python. Para obtener más información, consulta la documentación de referencia de la API de Python.

"""
Sample to run inference on a Gemma2 model deployed to a Vertex AI endpoint with TPU accellerators.
"""

from google.cloud import aiplatform
from google.protobuf import json_format
from google.protobuf.struct_pb2 import Value

# TODO(developer): Update & uncomment lines below
# PROJECT_ID = "your-project-id"
# ENDPOINT_REGION = "your-vertex-endpoint-region"
# ENDPOINT_ID = "your-vertex-endpoint-id"

# Default configuration
config = {"max_tokens": 1024, "temperature": 0.9, "top_p": 1.0, "top_k": 1}

# Prompt used in the prediction
prompt = "Why is the sky blue?"

# Encapsulate the prompt in a correct format for TPUs
# Example format: [{'prompt': 'Why is the sky blue?', 'temperature': 0.9}]
input = {"prompt": prompt}
input.update(config)

# Convert input message to a list of GAPIC instances for model input
instances = [json_format.ParseDict(input, Value())]

# Create a client
api_endpoint = f"{ENDPOINT_REGION}-aiplatform.googleapis.com"
client = aiplatform.gapic.PredictionServiceClient(
    client_options={"api_endpoint": api_endpoint}
)

# Call the Gemma2 endpoint
gemma2_end_point = (
    f"projects/{PROJECT_ID}/locations/{ENDPOINT_REGION}/endpoints/{ENDPOINT_ID}"
)
response = client.predict(
    endpoint=gemma2_end_point,
    instances=instances,
)
text_responses = response.predictions
print(text_responses[0])

Node.js

Antes de probar este ejemplo, sigue las instrucciones de configuración para Node.js incluidas en la guía de inicio rápido de Vertex AI sobre cómo usar bibliotecas cliente. Para obtener más información, consulta la documentación de referencia de la API de Vertex AI Node.js.

Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.

// Imports the Google Cloud Prediction Service Client library
const {
  // TODO(developer): Uncomment PredictionServiceClient before running the sample.
  // PredictionServiceClient,
  helpers,
} = require('@google-cloud/aiplatform');
/**
 * TODO(developer): Update these variables before running the sample.
 */
const projectId = 'your-project-id';
const endpointRegion = 'your-vertex-endpoint-region';
const endpointId = 'your-vertex-endpoint-id';

// Prompt used in the prediction
const prompt = 'Why is the sky blue?';

// Encapsulate the prompt in a correct format for TPUs
// Example format: [{prompt: 'Why is the sky blue?', temperature: 0.9}]
const input = {
  prompt,
  // Parameters for default configuration
  maxOutputTokens: 1024,
  temperature: 0.9,
  topP: 1.0,
  topK: 1,
};

// Convert input message to a list of GAPIC instances for model input
const instances = [helpers.toValue(input)];

// TODO(developer): Uncomment apiEndpoint and predictionServiceClient before running the sample.
// const apiEndpoint = `${endpointRegion}-aiplatform.googleapis.com`;

// Create a client
// predictionServiceClient = new PredictionServiceClient({apiEndpoint});

// Call the Gemma2 endpoint
const gemma2Endpoint = `projects/${projectId}/locations/${endpointRegion}/endpoints/${endpointId}`;

const [response] = await predictionServiceClient.predict({
  endpoint: gemma2Endpoint,
  instances,
});

const predictions = response.predictions;
const text = predictions[0].stringValue;

console.log('Predictions:', text);

Java

Antes de probar este ejemplo, sigue las instrucciones de configuración para Java incluidas en la guía de inicio rápido de Vertex AI sobre cómo usar bibliotecas cliente. Para obtener más información, consulta la documentación de referencia de la API de Vertex AI Java.


import com.google.cloud.aiplatform.v1.EndpointName;
import com.google.cloud.aiplatform.v1.PredictResponse;
import com.google.cloud.aiplatform.v1.PredictionServiceClient;
import com.google.cloud.aiplatform.v1.PredictionServiceSettings;
import com.google.gson.Gson;
import com.google.protobuf.InvalidProtocolBufferException;
import com.google.protobuf.Value;
import com.google.protobuf.util.JsonFormat;
import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class Gemma2PredictTpu {
  private final PredictionServiceClient predictionServiceClient;

  // Constructor to inject the PredictionServiceClient
  public Gemma2PredictTpu(PredictionServiceClient predictionServiceClient) {
    this.predictionServiceClient = predictionServiceClient;
  }

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "YOUR_PROJECT_ID";
    String endpointRegion = "us-west1";
    String endpointId = "YOUR_ENDPOINT_ID";

    PredictionServiceSettings predictionServiceSettings =
        PredictionServiceSettings.newBuilder()
            .setEndpoint(String.format("%s-aiplatform.googleapis.com:443", endpointRegion))
            .build();
    PredictionServiceClient predictionServiceClient =
        PredictionServiceClient.create(predictionServiceSettings);
    Gemma2PredictTpu creator = new Gemma2PredictTpu(predictionServiceClient);

    creator.gemma2PredictTpu(projectId, endpointRegion, endpointId);
  }

  // Demonstrates how to run inference on a Gemma2 model
  // deployed to a Vertex AI endpoint with TPU accelerators.
  public String gemma2PredictTpu(String projectId, String region,
           String endpointId) throws IOException {
    Map<String, Object> paramsMap = new HashMap<>();
    paramsMap.put("temperature", 0.9);
    paramsMap.put("maxOutputTokens", 1024);
    paramsMap.put("topP", 1.0);
    paramsMap.put("topK", 1);
    Value parameters = mapToValue(paramsMap);
    // Prompt used in the prediction
    String instance = "{ \"prompt\": \"Why is the sky blue?\"}";
    Value.Builder instanceValue = Value.newBuilder();
    JsonFormat.parser().merge(instance, instanceValue);
    // Encapsulate the prompt in a correct format for TPUs
    // Example format: [{'prompt': 'Why is the sky blue?', 'temperature': 0.9}]
    List<Value> instances = new ArrayList<>();
    instances.add(instanceValue.build());

    EndpointName endpointName = EndpointName.of(projectId, region, endpointId);

    PredictResponse predictResponse = this.predictionServiceClient
        .predict(endpointName, instances, parameters);
    String textResponse = predictResponse.getPredictions(0).getStringValue();
    System.out.println(textResponse);
    return textResponse;
  }

  private static Value mapToValue(Map<String, Object> map) throws InvalidProtocolBufferException {
    Gson gson = new Gson();
    String json = gson.toJson(map);
    Value.Builder builder = Value.newBuilder();
    JsonFormat.parser().merge(json, builder);
    return builder.build();
  }
}

Go

Antes de probar este ejemplo, sigue las instrucciones de configuración para Go incluidas en la guía de inicio rápido de Vertex AI sobre cómo usar bibliotecas cliente. Para obtener más información, consulta la documentación de referencia de la API de Vertex AI Go.

import (
	"context"
	"fmt"
	"io"

	"cloud.google.com/go/aiplatform/apiv1/aiplatformpb"

	"google.golang.org/protobuf/types/known/structpb"
)

// predictTPU demonstrates how to run interference on a Gemma2 model deployed to a Vertex AI endpoint with TPU accelerators.
func predictTPU(w io.Writer, client PredictionsClient, projectID, location, endpointID string) error {
	ctx := context.Background()

	// Note: client can be initialized in the following way:
	// apiEndpoint := fmt.Sprintf("%s-aiplatform.googleapis.com:443", location)
	// client, err := aiplatform.NewPredictionClient(ctx, option.WithEndpoint(apiEndpoint))
	// if err != nil {
	// 	return fmt.Errorf("unable to create prediction client: %v", err)
	// }
	// defer client.Close()

	gemma2Endpoint := fmt.Sprintf("projects/%s/locations/%s/endpoints/%s", projectID, location, endpointID)
	prompt := "Why is the sky blue?"
	parameters := map[string]interface{}{
		"temperature":     0.9,
		"maxOutputTokens": 1024,
		"topP":            1.0,
		"topK":            1,
	}

	// Encapsulate the prompt in a correct format for TPUs.
	// Example format: [{'prompt': 'Why is the sky blue?', 'temperature': 0.9}]
	promptValue, err := structpb.NewValue(map[string]interface{}{
		"prompt":     prompt,
		"parameters": parameters,
	})
	if err != nil {
		fmt.Fprintf(w, "unable to convert prompt to Value: %v", err)
		return err
	}

	req := &aiplatformpb.PredictRequest{
		Endpoint:  gemma2Endpoint,
		Instances: []*structpb.Value{promptValue},
	}

	resp, err := client.Predict(ctx, req)
	if err != nil {
		return err
	}

	prediction := resp.GetPredictions()
	value := prediction[0].GetStringValue()
	fmt.Fprintf(w, "%v", value)

	return nil
}

Realiza una limpieza

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Borra el proyecto

Precaución: Borrar un proyecto tiene las siguientes consecuencias:

Se borra todo su contenido. Si usaste un proyecto existente para las tareas de este documento, cuando lo borres, también se borrará cualquier otro trabajo que hayas realizado en el proyecto.
Se pierden los IDs personalizados de los proyectos. Cuando creaste este proyecto, es posible que hayas creado un ID personalizado del proyecto que desees utilizar en el futuro. Para conservar las URLs que usan el ID del proyecto, como una URL appspot.com, borra los recursos seleccionados dentro del proyecto, en lugar de todo el proyecto.

Si planeas explorar varios instructivos, arquitecturas o guías de inicio rápido, reutilizar proyectos puede ser útil para no exceder los límites de cuota de los proyectos.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Borra los recursos individuales

Si conservarás el proyecto, borra los recursos que usaste en este instructivo:

Anula la implementación del modelo y borra el extremo
Borra el modelo de Model Registry

Anula la implementación del modelo y borra el extremo

Usa uno de los siguientes métodos para anular la implementación de un modelo y borrar el extremo.

Console

En la consola de Google Cloud , haz clic en Predicción en línea y, luego, en Extremos.

Ir a la página Estremos
En la lista desplegable Región, elige la región en la que implementaste tu extremo.
Haz clic en el nombre del extremo para abrir la página de detalles. Por ejemplo: gemma2-2b-it-mg-one-click-deploy
En la fila del modelo Gemma 2 (Version 1), haz clic en Acciones y, luego, en Anular la implementación del modelo en el extremo.
En el cuadro de diálogo Anular la implementación del modelo desde el extremo, haz clic en Anular la implementación.
Haz clic en el botón Atrás para volver a la página Endpoints.

Ir a la página Estremos
Al final de la fila gemma2-2b-it-mg-one-click-deploy, haz clic en Acciones y, luego, selecciona Borrar extremo.
En el mensaje de confirmación, haz clic en Confirmar.

gcloud

Para anular la implementación del modelo y borrar el extremo con Google Cloud CLI, sigue estos pasos.

En estos comandos, reemplaza lo siguiente:

PROJECT_ID por el nombre del proyecto
LOCATION_ID por la región en la que implementaste el modelo y el extremo
ENDPOINT_ID con el ID del extremo
DEPLOYED_MODEL_NAME con el nombre visible del modelo
DEPLOYED_MODEL_ID con el ID del modelo

Ejecuta el comando gcloud ai endpoints list para obtener el ID del extremo. Este comando enumera los IDs de los extremos de todos los extremos de tu proyecto. Anota el ID del extremo que se usa en este instructivo.
```
gcloud ai endpoints list \
    --project=PROJECT_ID \
    --region=LOCATION_ID
```
El resultado se verá así: En el resultado, el ID se denomina ENDPOINT_ID.
```
Using endpoint [https://us-central1-aiplatform.googleapis.com/]
ENDPOINT_ID: 1234567891234567891
DISPLAY_NAME: gemma2-2b-it-mg-one-click-deploy
```

Obtén el ID del modelo ejecutando el comando gcloud ai models describe. Anota el ID del modelo que implementaste en este instructivo.

gcloud ai models describe DEPLOYED_MODEL_NAME \
    --project=PROJECT_ID \
    --region=LOCATION_ID

El resultado abreviado se ve de la siguiente manera: En el resultado, el ID se denomina deployedModelId.

Using endpoint [https://us-central1-aiplatform.googleapis.com/]
artifactUri: [URI removed]
baseModelSource:
  modelGardenSource:
    publicModelName: publishers/google/models/gemma2
...
deployedModels:
- deployedModelId: '1234567891234567891'
  endpoint: projects/12345678912/locations/us-central1/endpoints/12345678912345
displayName: gemma2-2b-it-12345678912345
etag: [ETag removed]
modelSourceInfo:
  sourceType: MODEL_GARDEN
name: projects/123456789123/locations/us-central1/models/gemma2-2b-it-12345678912345
...

Anula la implementación del modelo desde el extremo. Necesitarás el ID del extremo y el ID del modelo de los comandos anteriores.

gcloud ai endpoints undeploy-model ENDPOINT_ID \
    --project=PROJECT_ID \
    --region=LOCATION_ID \
    --deployed-model-id=DEPLOYED_MODEL_ID

Este comando no produce resultados.

Ejecuta el comando gcloud ai endpoints delete para borrar el extremo.
```
gcloud ai endpoints delete ENDPOINT_ID \
    --project=PROJECT_ID \
    --region=LOCATION_ID
```
Cuando se te solicite, escribe y para confirmar. Este comando no produce resultados.

Borra el modelo

Console

Ve a la página Model Registry desde la sección Vertex AI en la Google Cloud consola.

Ir a la página Model Registry
En la lista desplegable Región, elige la región en la que implementaste tu modelo.
Al final de la fila gemma2-2b-it-1234567891234, haz clic en Acciones.
Selecciona Borrar modelo.

Cuando borras el modelo, todas las versiones y evaluaciones de modelos asociadas se borran de tu proyecto de Google Cloud .
En el mensaje de confirmación, haz clic en Borrar.

gcloud

Para borrar el modelo con Google Cloud CLI, proporciona el nombre visible y la región del modelo al comando gcloud ai models delete.

gcloud ai models delete DEPLOYED_MODEL_NAME \
    --project=PROJECT_ID \
    --region=LOCATION_ID

Reemplaza DEPLOYED_MODEL_NAME por el nombre visible del modelo. Reemplaza PROJECT_ID por el nombre de tu proyecto. Reemplaza LOCATION_ID por la región en la que implementaste el modelo.

¿Qué sigue?

Obtén más información sobre los modelos abiertos de Gemma.
Lee las Condiciones de Uso de Gemma.
Obtén más información sobre los modelos abiertos.
Obtén información para implementar un modelo ajustado.
Aprende a implementar Gemma 2 en Google Kubernetes Engine con HuggingFace Textgen Inference (TGI).
Obtén más información sobre PredictionServiceClient en tu lenguaje preferido: Python, Node.js, Java o Go.

Implementa y realiza inferencias con Gemma usando Model Garden y extremos compatibles con TPU de Vertex AI Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Objetivos

Costos

Antes de comenzar

Configura un proyecto de Google Cloud

Configura la CLI de Google Cloud

Configura el SDK para tu lenguaje de programación

Python

Node.js

Java

Maven con BOM

Maven sin BOM

Gradle sin BOM

Go

Implementa Gemma con Model Garden

Inferencia de Gemma 2B con PredictionServiceClient

Parámetros de código

Console

gcloud

Código de muestra

Python

Node.js

Java

Go

Realiza una limpieza

Borra el proyecto

Borra los recursos individuales

Anula la implementación del modelo y borra el extremo

Console

gcloud

Borra el modelo

Console

gcloud

¿Qué sigue?

Implementa y realiza inferencias con Gemma usando Model Garden y extremos compatibles con TPU de Vertex AI