En este tutorial, usarás Model Garden para desplegar el modelo abierto Gemma 2B en un endpoint de Vertex AI con TPU. Debes desplegar un modelo en un endpoint para poder usarlo y ofrecer predicciones online. Al desplegar un modelo, se asocian recursos físicos a este para que pueda ofrecer predicciones online con baja latencia.
Una vez que hayas desplegado el modelo Gemma 2B, podrás inferir el modelo entrenado mediante PredictionServiceClient
para obtener predicciones online. Las predicciones online son solicitudes síncronas que se envían a un modelo desplegado en un endpoint.
Desplegar Gemma con Model Garden
Implementa el modelo Gemma 2B en un ct5lp-hightpu-1t
tipo de máquina de Compute Engine optimizado para el entrenamiento a pequeña y mediana escala. Esta máquina tiene un acelerador TPU v5e. Para obtener más información sobre cómo entrenar modelos con TPUs, consulta el artículo sobre el entrenamiento con la versión 5e de TPU de Cloud.
En este tutorial, desplegarás el modelo abierto Gemma 2B ajustado para seguir instrucciones mediante la tarjeta de modelo de Model Garden. La versión específica del modelo es gemma2-2b-it
. -it
significa ajustado para instrucciones.
El modelo Gemma 2B tiene un tamaño de parámetro más pequeño, lo que significa que requiere menos recursos y ofrece más flexibilidad de implementación.
En la Google Cloud consola, ve a la página Model Garden.
Haz clic en la tarjeta del modelo Gemma 2.
Haga clic en Implementar para abrir el panel Implementar modelo.
En el panel Implementar modelo, especifica estos detalles.
En Entorno de implementación, haz clic en Vertex AI.
En la sección Desplegar modelo:
En ID de recurso, elige
gemma-2b-it
.En Nombre del modelo y Nombre del endpoint, acepta los valores predeterminados. Por ejemplo:
- Nombre del modelo:
gemma2-2b-it-1234567891234
- Nombre del endpoint:
gemma2-2b-it-mg-one-click-deploy
Anota el nombre del endpoint. Lo necesitará para encontrar el ID de endpoint que se usa en los ejemplos de código.
- Nombre del modelo:
En la sección Ajustes del despliegue:
Acepta la opción predeterminada de Básico.
En Región, acepta el valor predeterminado o elige una región de la lista. Anota la región. Lo necesitarás para los ejemplos de código.
En Especificación de la máquina, elige la instancia con TPU:
ct5lp-hightpu-1t (1 TPU_V5_LITEPOD; ct5lp-hightpu-1t)
.
Haz clic en Desplegar. Cuando finalice la implementación, recibirás un correo con los detalles de tu nuevo endpoint. También puedes ver los detalles del endpoint haciendo clic en Predicción online > Endpoints y seleccionando tu región.
Inferencia de Gemma 2B con PredictionServiceClient
Después de desplegar Gemma 2B, usas la PredictionServiceClient
para obtener predicciones online de la petición "¿Por qué el cielo es azul?".
Parámetros de código
En los ejemplos de código de PredictionServiceClient
, debes actualizar lo siguiente.
PROJECT_ID
: Para encontrar el ID de tu proyecto, sigue estos pasos.Ve a la página Bienvenida de la Google Cloud consola.
En el selector de proyectos de la parte superior de la página, selecciona tu proyecto.
El nombre, el número y el ID del proyecto aparecen después del encabezado Bienvenido.
ENDPOINT_REGION
: es la región en la que has implementado el endpoint.ENDPOINT_ID
: Para encontrar tu ID de endpoint, consúltalo en la consola o ejecuta el comandogcloud ai endpoints list
. Necesitarás el nombre y la región del endpoint del panel Implementar modelo.Consola
Para ver los detalles del endpoint, haga clic en Predicción online > Endpoints y seleccione su región. Fíjate en el número que aparece en la columna
ID
.gcloud
Para ver los detalles del endpoint, ejecuta el comando
gcloud ai endpoints list
.gcloud ai endpoints list \ --region=ENDPOINT_REGION \ --filter=display_name=ENDPOINT_NAME
La salida tiene este aspecto.
Using endpoint [https://us-central1-aiplatform.googleapis.com/] ENDPOINT_ID: 1234567891234567891 DISPLAY_NAME: gemma2-2b-it-mg-one-click-deploy
Código de muestra
En el código de ejemplo de tu idioma, actualiza PROJECT_ID
, ENDPOINT_REGION
y ENDPOINT_ID
. A continuación, ejecuta el código.
Python
Para saber cómo instalar o actualizar el SDK de Vertex AI para Python, consulta Instalar el SDK de Vertex AI para Python. Para obtener más información, consulta la documentación de referencia de la API Python.
Node.js
Antes de probar este ejemplo, sigue las Node.js instrucciones de configuración de la guía de inicio rápido de Vertex AI con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Node.js de Vertex AI.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Java
Antes de probar este ejemplo, sigue las Java instrucciones de configuración de la guía de inicio rápido de Vertex AI con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Java de Vertex AI.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Go
Antes de probar este ejemplo, sigue las Go instrucciones de configuración de la guía de inicio rápido de Vertex AI con bibliotecas de cliente. Para obtener más información, consulta la documentación de referencia de la API Go de Vertex AI.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.