Desplegar modelos de IA generativa

Algunos modelos de IA generativa, como Gemini, tienen APIs gestionadas y están listos para aceptar peticiones sin necesidad de implementarlos. Para ver una lista de los modelos con APIs gestionadas, consulta APIs de modelos básicos.

Otros modelos de IA generativa deben desplegarse en un endpoint para poder aceptar peticiones. Hay dos tipos de modelos generativos que se deben implementar:

Cuando despliegas un modelo en un endpoint, Vertex AI asocia recursos de computación y un URI al modelo para que pueda atender las solicitudes de peticiones.

Desplegar un modelo ajustado

Los modelos ajustados se suben automáticamente al registro de modelos de Vertex AI y se despliegan en un endpoint público compartido de Vertex AI. Los modelos ajustados no aparecen en Model Garden porque se ajustan con tus datos. Para obtener más información, consulta la información general sobre el ajuste de modelos.

Una vez que el endpoint esté activo, estará listo para aceptar solicitudes de peticiones en su URI. El formato de la llamada a la API de un modelo ajustado es el mismo que el del modelo base a partir del que se ha ajustado. Por ejemplo, si tu modelo se ha ajustado en Gemini, tu solicitud de prompt debe seguir la API de Gemini.

Asegúrate de enviar solicitudes de peticiones a los endpoints de tu modelo ajustado en lugar de a la API gestionada. El endpoint del modelo ajustado tiene el siguiente formato:

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

Para obtener el ID del endpoint, consulta Ver o gestionar un endpoint.

Para obtener más información sobre el formato de las solicitudes de peticiones, consulta la referencia de la API Model.

Desplegar un modelo generativo que no tenga una API gestionada

Para usar un modelo de Model Garden que no tenga una API gestionada, debes subirlo a Model Registry y desplegarlo en un endpoint antes de poder enviar solicitudes de peticiones. Es similar a subir y desplegar un modelo entrenado personalizado para hacer predicciones online en Vertex AI.

Para implementar uno de estos modelos, ve a Model Garden y selecciona el modelo que quieras implementar.

Ir a Model Garden

En cada tarjeta de modelo se muestra una o varias de las siguientes opciones de implementación:

  • Botón Implementar: la mayoría de los modelos generativos de Model Garden tienen un botón Implementar que te guía por el proceso de implementación en Vertex AI. Si no ves el botón Implementar, ve al siguiente punto.

    Para desplegar el modelo en Vertex AI, puedes usar los ajustes sugeridos o modificarlos. También puedes definir ajustes de implementación avanzada para, por ejemplo, seleccionar una reserva de Compute Engine.

  • Botón Abrir cuaderno: esta opción abre un cuaderno de Jupyter. Todas las tarjetas de modelo muestran esta opción. El cuaderno de Jupyter incluye instrucciones y código de ejemplo para subir el modelo a Model Registry, desplegarlo en un endpoint y enviar una solicitud de prompt.

Una vez que se haya completado la implementación y el endpoint esté activo, estará listo para aceptar solicitudes de peticiones en su URI. El formato de la API es predict y el formato de cada instance del cuerpo de la solicitud depende del modelo. Para obtener más información, consulta los siguientes recursos:

Asegúrate de que tienes suficiente cuota de máquina para implementar tu modelo. Para ver tu cuota actual o solicitar más cuota, ve a la página Cuotas de la Google Cloud consola.

Ir a Cuotas

A continuación, filtre por el nombre de la cuota Custom Model Serving para ver las cuotas de predicción online. Para obtener más información, consulta Ver y gestionar cuotas.

Asegurar la capacidad de los modelos implementados con reservas de Compute Engine

Puedes desplegar modelos de Model Garden en recursos de VM que se hayan asignado mediante reservas de Compute Engine. Las reservas ayudan a asegurar que la capacidad esté disponible cuando tus solicitudes de predicciones de modelos la necesiten. Para obtener más información, consulta Usar reservas con predicciones.

Ver o gestionar un modelo

En el caso de los modelos ajustados, puedes ver el modelo y su tarea de ajuste en la página Ajustar y destilar de la Google Cloud consola.

Ir a Ajustar y destilar

También puedes ver y gestionar todos los modelos que has subido en el registro de modelos.

Ir a Registro de modelos

En Model Registry, un modelo ajustado se clasifica como Modelo grande y tiene etiquetas que especifican el modelo fundacional y el trabajo de ajuste o la canalización que se ha usado para el ajuste.

Los modelos que se despliegan con el botón Desplegar indicarán Model Garden como Source. Ten en cuenta que, si el modelo se actualiza en Model Garden, el modelo que hayas subido a Model Registry no se actualizará.

Para obtener más información, consulta Introducción a Vertex AI Model Registry.

Ver o gestionar un endpoint

Para ver y gestionar tu endpoint, ve a la página Predicción online de Vertex AI. De forma predeterminada, el nombre del endpoint es el mismo que el nombre del modelo.

Ir a Predicción online

Para obtener más información, consulta Implementar un modelo en un endpoint.

Monitorizar el tráfico de endpoints de modelos

Para saber cómo monitorizar el tráfico de endpoints de modelos, consulta Monitorizar modelos.

Limitaciones

  • Un modelo de Gemini ajustado solo se puede implementar en un endpoint público compartido. No se admite la implementación en endpoints públicos dedicados, endpoints de Private Service Connect ni endpoints privados.

Precios

En el caso de los modelos ajustados, se te cobra por token a la misma tarifa que el modelo base a partir del cual se ha ajustado tu modelo. El endpoint no tiene ningún coste porque el ajuste se implementa como un pequeño adaptador sobre el modelo base. Para obtener más información, consulta los precios de la IA generativa en Vertex AI.

En el caso de los modelos sin APIs gestionadas, se te facturan las horas de máquina que usa tu endpoint al mismo precio que las predicciones online de Vertex AI. No se te cobra por token. Para obtener más información, consulta los precios de las predicciones en Vertex AI.

Siguientes pasos