Aloja agentes de IA en Cloud Run

En esta página, se destacan los casos de uso para alojar agentes de IA en Cloud Run.

Los agentes de IA son entidades de software autónomas que usan sistemas potenciados por LLM para percibir, decidir y actuar en pos de lograr objetivos. A medida que se crean más agentes autónomos, su capacidad de comunicarse y colaborar se vuelve fundamental.

Para obtener una introducción a los agentes de IA, consulta ¿Qué es un agente de IA?.

Casos de uso de agentes de IA en Cloud Run

Puedes implementar agentes de IA como servicios de Cloud Run para coordinar un conjunto de tareas asíncronas y proporcionar información a través de múltiples interacciones de solicitud-respuesta.

Un servicio de Cloud Run es un extremo de API escalable para la lógica principal de tu aplicación. Administra de manera eficiente a varios usuarios simultáneos a través del ajuste de escala automático, rápido y a pedido de las instancias.

Arquitectura del agente de IA en Cloud Run

Una arquitectura típica de agente de IA implementada en Cloud Run puede incluir varios componentes de Google Cloud y fuera de Google Cloud:

Los cuatro componentes del agente de IA alojado en Cloud Run. — **Figura 1.** Arquitectura de un agente de IA en Cloud Run.

En el diagrama se muestra lo siguiente:

Plataforma de hosting: Cloud Run es una plataforma de hosting para ejecutar agentes y ofrece los siguientes beneficios:
- Admite la ejecución de cualquier framework de agentes para compilar diferentes tipos de agentes y arquitecturas basadas en agentes. Entre los ejemplos de frameworks de agentes, se incluyen Agent Development Kit (ADK), Dify, LangGraph y n8n.
- Proporciona funciones integradas para administrar tu agente. Por ejemplo, Cloud Run proporciona una identidad de servicio integrada que puedes usar como identidad del agente para llamar a las APIs con credenciales seguras y automáticas. Google Cloud
- Admite la conexión de tu framework de agentes a otros servicios. Puedes conectar tu agente a herramientas de origen o de terceros implementadas en Cloud Run. Por ejemplo, para obtener visibilidad sobre las tareas y ejecuciones de tu agente, puedes implementar y usar herramientas como Langfuse y Arize.
Interacciones del agente: Cloud Run admite respuestas HTTP de transmisión al usuario y WebSockets para interacciones en tiempo real.
Modelos de IA generativa: La capa de organización llama a los modelos para obtener capacidades de razonamiento. Estos modelos se pueden alojar en servicios, como los siguientes:
- API de Gemini para los modelos de IA generativa de Google
- Endpoints de Vertex AI para modelos personalizados o modelos de base.
- Servicio de Cloud Run habilitado para GPU para tus propios modelos ajustados
Memoria: Los agentes a menudo necesitan memoria para conservar el contexto y aprender de las interacciones pasadas. Puedes usar los siguientes servicios:
- Memorystore para Redis para la memoria a corto plazo
- Firestore para la memoria a largo plazo, como almacenar el historial de conversaciones o recordar las preferencias del usuario en función de los datos sin procesar
- Memory Bank de Vertex AI Agent Engine para la memoria personalizada a largo plazo. Esta función extrae automáticamente información del historial de conversaciones del usuario para recordar y actualizar sus preferencias con el tiempo. Ten en cuenta que debes crear al menos una instancia de Agent Engine para usar esta función con Cloud Run.
Base de datos de vectores: Para la Generación mejorada por recuperación (RAG) o la recuperación de datos estructurados, usa una base de datos de vectores para consultar información específica de entidades o realizar una búsqueda de vectores sobre embeddings. Usa la extensión pgvector con los siguientes servicios:
- Cloud SQL para PostgreSQL
- AlloyDB para PostgreSQL
Herramientas: El orquestador usa herramientas para realizar tareas específicas y, así, interactuar con servicios, APIs o sitios web externos. Esto puede incluir lo siguiente:
- Protocolo de contexto del modelo (MCP): Usa este protocolo estandarizado para comunicarte con herramientas externas que se ejecutan a través de un servidor de MCP.
- Utilidades básicas: Cálculos matemáticos precisos, conversiones de tiempo o utilidades similares
- Llamadas a la API: Realiza llamadas a otras APIs internas o de terceros (acceso de lectura o escritura).
- Generación de imágenes o gráficos: Crea contenido visual de forma rápida y eficaz.
- Automatización del SO y el navegador: Ejecuta un SO gráfico completo o sin encabezado dentro de instancias de contenedores para permitir que el agente navegue por la Web, extraiga información de sitios web o realice acciones con clics y entradas de teclado.
- Ejecución de código: Ejecuta código en un entorno seguro con zona de pruebas de varias capas, con permisos de IAM mínimos o nulos.
- Ejecución de código de Vertex AI Agent Engine: Ejecuta código en entornos de zona de pruebas seguros, aislados y administrados que admiten entrada y salida de archivos, ejecución de código en menos de un segundo y memoria de larga duración. Ten en cuenta que debes crear al menos una instancia de Vertex AI Agent Engine para usar esta función en Cloud Run.

¿Qué sigue?

Mira el video Build AI agents on Cloud Run.
Prueba el codelab para aprender a compilar e implementar una app con LangChain en Cloud Run.
Aprende a implementar el Kit de desarrollo de agentes (ADK) en Cloud Run.
Prueba el codelab para usar un servidor de MCP en Cloud Run con un agente de ADK.
Prueba el codelab para implementar tu agente del ADK en Cloud Run con GPU.
Encuentra muestras de agentes listas para usar en Muestras del Kit de desarrollo de agentes (ADK).
Aloja servidores del Protocolo de contexto del modelo (MCP) en Cloud Run.

Aloja agentes de IA en Cloud Run Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Casos de uso de agentes de IA en Cloud Run

Arquitectura del agente de IA en Cloud Run

¿Qué sigue?

Aloja agentes de IA en Cloud Run