En esta guía, se proporciona una descripción general del uso de Cloud Run para alojar apps, ejecutar inferencias y compilar flujos de trabajo de IA.
Cloud Run para alojar aplicaciones de IA, agentes y extremos de API escalables
Cloud Run proporciona una plataforma completamente administrada que ajusta la escala de tus apps y cargas de trabajo de IA.
Cuando alojas apps basadas en IA en Cloud Run, sueles tener los siguientes componentes de arquitectura:
- Publicación y organización: Implementas el código o el contenedor de tu aplicación en Cloud Run.
- Modelos de IA: Usas modelos de IA de Google, modelos de código abierto o modelos personalizados con tu app.
- Integraciones: Puedes conectarte a servicios de Google Cloud o a servicios de terceros para obtener memoria, bases de datos, almacenamiento, seguridad y mucho más.
- Herramientas: Puedes conectarte a herramientas para otras tareas y operaciones.
En el siguiente diagrama, se muestra una descripción general de alto nivel del uso de Cloud Run como plataforma de hosting para apps basadas en IA:
Como se muestra en el diagrama:
Dentro de la capa de entrega y organización, un servicio de Cloud Run actúa como un extremo de API escalable para la lógica principal de tu aplicación. Administra de manera eficiente a varios usuarios simultáneos a través del ajuste de escala automático, rápido y a pedido de las instancias.
Trae tu contenedor para implementarlo en Cloud Run. Puedes empaquetar tu aplicación y su dependencia en un contenedor, o bien proporcionar tu código fuente y permitir que Cloud Run compile automáticamente tu código en un contenedor para la implementación. Para las implementaciones de código fuente, puedes usar cualquier lenguaje, frameworks abiertos o SDKs para compilar tus apps de IA.
Tu app de IA actúa como un extremo de API escalable que controla las solicitudes entrantes y envía datos a un modelo de IA previamente entrenado para su procesamiento y, luego, devuelve los resultados.
Cloud Run se integra con los modelos de Google, como los modelos de Gemini y Vertex AI, y también se puede integrar con modelos de código abierto, como Llama y Gemma. Si tienes un modelo personalizado que entrenaste tú mismo, también puedes usarlo con tu recurso de Cloud Run.
Google Cloud ofrece una amplia variedad de soluciones para admitir la infraestructura de tu aplicación de IA. Algunas Google Cloud integraciones que funcionan bien con tu app de IA incluyen las siguientes:
- Memoria y bases de datos
- A corto plazo
- Memorystore es un servicio de administración de datos de alta velocidad, temporales y de almacenamiento en caché que proporciona una caché externa y rápida para el almacenamiento de datos a corto plazo.
- Largo plazo
- AlloyDB para PostgreSQL
es una base de datos compatible con PostgreSQL diseñada para cargas de trabajo
transaccionales y analíticas exigentes. Ofrece generación de embeddings de vectores integradas y un índice de vectores de alta velocidad, lo que lo hace rápido para la búsqueda semántica en comparación con la implementación estándar de
pgvector. - Cloud SQL es un servicio de bases de datos relacionales para MySQL, PostgreSQL y SQL Server que también puede funcionar como un almacén de vectores con la extensión
pgvectorpara PostgreSQL. - Firestore es un servicio de base de datos de documentos NoSQL escalable que incluye capacidades de búsqueda vectorial integradas.
- AlloyDB para PostgreSQL
es una base de datos compatible con PostgreSQL diseñada para cargas de trabajo
transaccionales y analíticas exigentes. Ofrece generación de embeddings de vectores integradas y un índice de vectores de alta velocidad, lo que lo hace rápido para la búsqueda semántica en comparación con la implementación estándar de
- A corto plazo
- Almacenamiento
- Cloud Storage es una solución de almacenamiento de objetos para almacenar grandes conjuntos de datos para el entrenamiento de modelos, archivos de entrada/salida para tu aplicación o artefactos de modelos.
- Seguridad
- Secret Manager es un servicio de administración de secretos y credenciales que proporciona una forma segura y centralizada de almacenar datos sensibles, como claves de API, contraseñas y credenciales, que a menudo son necesarios para que las aplicaciones basadas en IA interactúen con servicios externos.
Para obtener más información, consulta Cómo conectarse a los servicios de Google Cloud .
- Memoria y bases de datos
Las herramientas permiten que tus apps y modelos de IA interactúen con servicios, APIs o sitios web que se ejecutan de forma externa o en Cloud Run.
Por ejemplo, si tu app basada en IA es un agente de IA, este podría enviar una solicitud a un servidor de MCP para ejecutar una herramienta externa o usar herramientas que se ejecutan en tu contenedor, como la ejecución de código, el uso de la computadora, la recuperación de información, etcétera.
Cómo alojar modelos en Cloud Run para la inferencia de IA
Además de compilar aplicaciones y agentes que usan un modelo de lenguaje grande (LLM), también puedes habilitar GPUs con Cloud Run para ejecutar modelos previamente entrenados o personalizados implementados por tu cuenta para la inferencia de IA.
Las GPUs de Cloud Run permiten controlar la gran cantidad de operaciones necesarias para ejecutar tareas de procesamiento exigentes para las cargas de trabajo de inferencia de IA. Implementa modelos de IA como imágenes de contenedor o desde el código fuente, y usa una variedad de métodos para implementar tus recursos de Cloud Run.