En este instructivo, usarás Model Garden para implementar el modelo abierto Gemma 2B en un extremo de Vertex AI respaldado por TPU. Debes implementar un modelo en un extremo antes de que se pueda usar para entregar predicciones en línea. La implementación de un modelo asocia recursos físicos con el modelo para que pueda entregar predicciones en línea con baja latencia.
Después de implementar el modelo de Gemma 2B, puedes realizar la inferencia del modelo entrenado con PredictionServiceClient para obtener predicciones en línea. Las predicciones en línea son solicitudes síncronas realizadas en un modelo que se implementa en un extremo.
Implementa Gemma con Model Garden
Implementarás el modelo Gemma 2B en un tipo de máquina ct5lp-hightpu-1t de Compute Engine optimizado para el entrenamiento a pequeña y mediana escala. Esta máquina tiene un acelerador de TPU v5e. Para obtener más información sobre el entrenamiento de modelos con TPU, consulta Entrenamiento de Cloud TPU v5e.
En este instructivo, implementarás el modelo abierto Gemma 2B ajustado para instrucciones con la tarjeta de modelo en Model Garden. La versión específica del modelo es gemma2-2b-it; -it significa ajustado según las instrucciones.
El modelo Gemma 2B tiene un tamaño de parámetro más bajo, lo que significa menores requisitos de recursos y más flexibilidad de implementación.
En la consola de Google Cloud , ve a la página Model Garden.
Haz clic en la tarjeta de modelo Gemma 2.
Haz clic en Implementar para abrir el panel Implementar modelo.
En el panel Deploy model, especifica estos detalles.
En Entorno de implementación, haz clic en Vertex AI.
En la sección Implementar modelo, haz lo siguiente:
En ID del recurso, elige
gemma-2b-it.En Nombre del modelo y Nombre del extremo, acepta los valores predeterminados. Por ejemplo:
- Nombre del modelo:
gemma2-2b-it-1234567891234 - Nombre del extremo:
gemma2-2b-it-mg-one-click-deploy
Toma nota del nombre del extremo. Lo necesitarás para encontrar el ID del extremo que se usa en las muestras de código.
- Nombre del modelo:
En la sección Configuración de la implementación, haz lo siguiente:
Acepta la opción predeterminada para la configuración Básica.
En Región, acepta el valor predeterminado o elige una región de la lista. Anota la región. La necesitarás para los ejemplos de código.
En Especificación de la máquina, elige la instancia respaldada por TPU:
ct5lp-hightpu-1t (1 TPU_V5_LITEPOD; ct5lp-hightpu-1t).
Haz clic en Implementar. Cuando finalice la implementación, recibirás un correo electrónico con detalles sobre tu nuevo extremo. También puedes ver los detalles del extremo haciendo clic en Predicción en línea > Endpoints y seleccionando tu región.
Inferencia de Gemma 2B con PredictionServiceClient
Después de implementar Gemma 2B, usas PredictionServiceClient para obtener predicciones en línea para la instrucción: "¿Por qué el cielo es azul?".
Parámetros de código
En las muestras de código de PredictionServiceClient, debes actualizar lo siguiente.
PROJECT_ID: Para encontrar el ID de tu proyecto, sigue estos pasos.Ve a la página Bienvenida en la consola de Google Cloud .
En el selector de proyectos que se encuentra en la parte superior de la página, selecciona tu proyecto.
El nombre, el número y el ID del proyecto aparecen después del encabezado Bienvenido.
ENDPOINT_REGION: Es la región en la que implementaste el extremo.ENDPOINT_ID: Para encontrar el ID de tu extremo, míralo en la consola o ejecuta el comandogcloud ai endpoints list. Necesitarás el nombre y la región del extremo del panel Implementar modelo.Console
Para ver los detalles del extremo, haz clic en Predicción en línea > Endpoints y selecciona tu región. Toma nota del número que aparece en la columna
ID.gcloud
Puedes ver los detalles del extremo ejecutando el comando
gcloud ai endpoints list.gcloud ai endpoints list \ --region=ENDPOINT_REGION \ --filter=display_name=ENDPOINT_NAMEEl resultado se verá así:
Using endpoint [https://us-central1-aiplatform.googleapis.com/] ENDPOINT_ID: 1234567891234567891 DISPLAY_NAME: gemma2-2b-it-mg-one-click-deploy
Código de muestra
En el código de muestra de tu lenguaje, actualiza PROJECT_ID, ENDPOINT_REGION y ENDPOINT_ID. Luego, ejecuta tu código.
Python
Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python. Para obtener más información, consulta la documentación de referencia de la API de Python.
Node.js
Antes de probar este ejemplo, sigue las instrucciones de configuración para Node.js incluidas en la guía de inicio rápido de Vertex AI sobre cómo usar bibliotecas cliente. Para obtener más información, consulta la documentación de referencia de la API de Vertex AI Node.js.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Java
Antes de probar este ejemplo, sigue las instrucciones de configuración para Java incluidas en la guía de inicio rápido de Vertex AI sobre cómo usar bibliotecas cliente. Para obtener más información, consulta la documentación de referencia de la API de Vertex AI Java.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Go
Antes de probar este ejemplo, sigue las instrucciones de configuración para Go incluidas en la guía de inicio rápido de Vertex AI sobre cómo usar bibliotecas cliente. Para obtener más información, consulta la documentación de referencia de la API de Vertex AI Go.
Para autenticarte en Vertex AI, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.