En esta página, se destacan los casos de uso para alojar agentes de IA en Cloud Run.
Los agentes de IA son entidades de software autónomas que usan sistemas potenciados por LLMs para percibir, decidir y actuar con el objetivo de lograr metas. A medida que se crean más agentes autónomos, su capacidad de comunicarse y colaborar se vuelve fundamental.
Para obtener una introducción a los agentes de IA, consulta ¿Qué es un agente de IA?.
Casos de uso de agentes de IA en Cloud Run
Puedes implementar agentes de IA como servicios de Cloud Run para coordinar un conjunto de tareas asíncronas y proporcionar información a través de múltiples interacciones de solicitud-respuesta.
Un servicio de Cloud Run es un extremo de API escalable para la lógica principal de tu aplicación. Administra de manera eficiente a varios usuarios simultáneos a través del ajuste de escala automático, rápido y a pedido de las instancias.
Arquitectura del agente de IA en Cloud Run
Una arquitectura típica de agente de IA implementada en Cloud Run puede incluir varios componentes de Google Cloud y fuera de Google Cloud:
En el diagrama se muestra lo siguiente:
Plataforma de hosting: Cloud Run es una plataforma de hosting para ejecutar agentes y ofrece los siguientes beneficios:
- Admite la ejecución de cualquier framework de agentes para compilar diferentes tipos de agentes y arquitecturas basadas en agentes. Entre los ejemplos de frameworks de agentes, se incluyen Agent Development Kit (ADK), Dify, LangGraph y n8n.
- Proporciona funciones integradas para administrar tu agente. Por ejemplo, Cloud Run proporciona una identidad de servicio integrada que puedes usar como identidad del agente para llamar a las APIs con credenciales seguras y automáticas. Google Cloud
- Admite la conexión de tu framework de agentes a otros servicios. Puedes conectar tu agente a herramientas de origen o de terceros implementadas en Cloud Run. Por ejemplo, para obtener visibilidad sobre las tareas y ejecuciones de tu agente, puedes implementar y usar herramientas como Langfuse y Arize.
Interacciones del agente: Cloud Run admite respuestas HTTP de transmisión al usuario y WebSockets para interacciones en tiempo real.
Modelos de IA generativa: La capa de orquestación llama a los modelos para obtener capacidades de razonamiento. Estos modelos se pueden alojar en servicios, como los siguientes:
- API de Gemini para los modelos de IA generativa de Google
- Extremos de Vertex AI para modelos personalizados o modelos de base.
- Servicio de Cloud Run habilitado para GPU para tus propios modelos ajustados.
Memoria: Los agentes a menudo necesitan memoria para conservar el contexto y aprender de las interacciones pasadas. Puedes usar los siguientes servicios:
- Memorystore para Redis para la memoria a corto plazo
- Firestore para la memoria a largo plazo, como almacenar el historial de conversaciones o recordar las preferencias del usuario
Base de datos de vectores: Para la Generación mejorada por recuperación (RAG) o la recuperación de datos estructurados, usa una base de datos de vectores para consultar información específica de entidades o realizar una búsqueda de vectores sobre embeddings. Usa la extensión
pgvectorcon los siguientes servicios:Herramientas: El orquestador usa herramientas para realizar tareas específicas y, así, interactuar con servicios, APIs o sitios web externos. Esto puede incluir lo siguiente:
- Protocolo de contexto del modelo (MCP): Usa este protocolo estandarizado para comunicarte con herramientas externas que se ejecutan a través de un servidor de MCP.
- Utilidades básicas: Cálculos matemáticos precisos, conversiones de tiempo o utilidades similares
- Llamadas a la API: Realiza llamadas a otras APIs internas o de terceros (acceso de lectura o escritura).
- Generación de imágenes o gráficos: Crea contenido visual de forma rápida y eficaz.
- Automatización del SO y el navegador: Ejecuta un sistema operativo gráfico completo o sin interfaz gráfica dentro de instancias de contenedores para permitir que el agente navegue por la Web, extraiga información de sitios web o realice acciones con clics y entradas de teclado.
- Ejecución de código: Ejecuta código en un entorno seguro con zona de pruebas de varias capas, con permisos de IAM mínimos o nulos.
¿Qué sigue?
- Mira Build AI agents on Cloud Run.
- Prueba el codelab para aprender a compilar e implementar una app con LangChain en Cloud Run.
- Aprende a implementar el Kit de desarrollo de agentes (ADK) en Cloud Run.
- Prueba el codelab para usar un servidor de MCP en Cloud Run con un agente de ADK.
- Prueba el codelab para implementar tu agente de ADK en Cloud Run con GPU.
- Encuentra muestras de agentes listas para usar en Muestras del Kit de desarrollo de agentes (ADK).
- Aloja servidores del Protocolo de contexto del modelo (MCP) en Cloud Run.