En esta guía se ofrece una descripción general sobre cómo usar Cloud Run para alojar aplicaciones, ejecutar inferencias y crear flujos de trabajo de IA.
Cloud Run para alojar aplicaciones de IA, agentes y endpoints de API escalables
Cloud Run ofrece una plataforma totalmente gestionada que escala tus aplicaciones y cargas de trabajo de IA.
Cuando alojas aplicaciones de IA en Cloud Run, normalmente tienes los siguientes componentes de arquitectura:
- Servicio y orquestación: despliega el código o el contenedor de tu aplicación en Cloud Run.
- Modelos de IA: usas modelos de IA de Google, modelos de código abierto o modelos personalizados con tu aplicación.
- Integraciones: puedes conectarte a Google Cloud servicios o servicios de terceros para la memoria, las bases de datos, el almacenamiento, la seguridad y más.
- Herramientas: puedes conectarte a herramientas para realizar otras tareas y operaciones.
En el siguiente diagrama se muestra una descripción general de alto nivel del uso de Cloud Run como plataforma de alojamiento de aplicaciones de IA:
Como se muestra en el diagrama:
En la capa de servicio y orquestación, un servicio de Cloud Run actúa como endpoint de API escalable para la lógica principal de tu aplicación. Gestiona de forma eficiente varios usuarios simultáneos mediante el escalado automático, rápido y bajo demanda de las instancias.
Tú proporcionas el contenedor para desplegarlo en Cloud Run. Puedes empaquetar tu aplicación y sus dependencias en un contenedor o proporcionar tu código fuente y dejar que Cloud Run compile automáticamente tu código en un contenedor para el despliegue. En el caso de las implementaciones de código fuente, puedes usar cualquier lenguaje, framework abierto o SDK para crear tus aplicaciones de IA.
Tu aplicación de IA actúa como un endpoint de API escalable que gestiona las solicitudes entrantes y envía datos a un modelo de IA preentrenado para que los procese y, a continuación, devuelve los resultados.
Cloud Run se integra con los modelos de Google, como los modelos de Gemini y Vertex AI, y puede integrarse con modelos de código abierto, como Llama y Gemma. Si tienes un modelo personalizado que has entrenado tú mismo, también puedes usarlo con tu recurso de Cloud Run.
Google Cloud ofrece una amplia variedad de soluciones para admitir la infraestructura de tu aplicación de IA. Algunas Google Cloud integraciones que funcionan bien con tu aplicación de IA son las siguientes:
- Memoria y bases de datos
- A corto plazo
- Memorystore es un servicio de gestión de datos de acceso alto, temporal y de almacenamiento en caché que proporciona una caché rápida y externa para el almacenamiento de datos a corto plazo.
- A largo plazo
- AlloyDB para PostgreSQL
es una base de datos compatible con PostgreSQL diseñada para cargas de trabajo transaccionales y analíticas exigentes. Ofrece una generación de incrustaciones de vectores integrada y un índice de vectores de alta velocidad, lo que hace que la búsqueda semántica sea rápida en comparación con la implementación estándar de
pgvector. - Cloud SQL es un servicio de bases de datos relacionales para MySQL, PostgreSQL y SQL Server que también puede servir como almacén de vectores con la extensión
pgvectorpara PostgreSQL. - Firestore es un servicio de base de datos de documentos NoSQL escalable que incluye funciones de búsqueda vectorial integradas.
- AlloyDB para PostgreSQL
es una base de datos compatible con PostgreSQL diseñada para cargas de trabajo transaccionales y analíticas exigentes. Ofrece una generación de incrustaciones de vectores integrada y un índice de vectores de alta velocidad, lo que hace que la búsqueda semántica sea rápida en comparación con la implementación estándar de
- A corto plazo
- Almacenamiento
- Cloud Storage es una solución de almacenamiento de objetos que permite conservar grandes conjuntos de datos para el entrenamiento de modelos, archivos de entrada y salida para tu aplicación o artefactos de modelos.
- Seguridad
- Secret Manager es un servicio de gestión de secretos y credenciales que proporciona una forma segura y centralizada de almacenar datos sensibles, como claves de API, contraseñas y credenciales, que suelen ser necesarios para que las aplicaciones de IA interactúen con servicios externos.
Para obtener más información, consulta Conectarse a servicios de Google Cloud .
- Memoria y bases de datos
Las herramientas permiten que tus aplicaciones y modelos de IA interactúen con servicios, APIs o sitios web que se ejecutan de forma externa o en Cloud Run.
Por ejemplo, si tu aplicación de IA es un agente de IA, tu agente puede enviar una solicitud a un servidor MCP para ejecutar una herramienta externa o usar herramientas que se ejecuten en tu contenedor, como la ejecución de código, el uso de ordenadores, la obtención de información, etc.
Alojar modelos en Cloud Run para la inferencia de IA
Además de crear aplicaciones y agentes que usen un modelo de lenguaje extenso (LLM), también puedes habilitar GPUs con Cloud Run para ejecutar modelos preentrenados o personalizados autodesplegados para la inferencia de IA.
Las GPUs de Cloud Run permiten gestionar el gran número de operaciones necesarias para ejecutar tareas computacionalmente exigentes en cargas de trabajo de inferencia de IA. Despliega modelos de IA como imágenes de contenedor o desde código fuente, y usa varios métodos para desplegar tus recursos de Cloud Run.