En este documento, se proporciona una arquitectura de alto nivel para un sistema de IA multiagente implementado en Cloud Run que analiza datos multimodales dispares y produce una clasificación de alta confianza. Este enfoque valida de forma cruzada los medios fragmentados comparando los datos en tiempo real con la verdad fundamental histórica para producir estadísticas fundamentadas y verificables.
El público objetivo de este documento incluye arquitectos, desarrolladores y administradores que compilan y administran infraestructura y aplicaciones de IA en la nube. En este documento, se supone que tienes conocimientos básicos sobre los agentes y modelos de IA. En el documento, no se proporciona orientación específica para diseñar y programar agentes de IA.
En la sección Implementación de este documento, se enumeran muestras de código que puedes usar para aprender a compilar e implementar sistemas de IA multiagente.
Arquitectura
En el siguiente diagrama, se muestra la arquitectura del sistema de IA de varios agentes que usa un patrón de diseño de agentes paralelos para coordinar el análisis independiente de datos multimodales y producir una sola clasificación.
La arquitectura muestra el siguiente flujo de datos:
- La aplicación web envía una solicitud al agente raíz para analizar un conjunto de datos multimodales para la clasificación. El agente raíz es un agente coordinador que recibe solicitudes y se implementa en un servicio de Cloud Run.
- El agente raíz controla la solicitud de la siguiente manera:
- El agente raíz inicia un
before_agent_callbackpara recopilar parámetros de configuración del entorno, validar la entrada del usuario y guardar rutas de acceso a recursos en un estado de sesión compartido. Todos los subagentes pueden acceder al estado de la sesión compartida, lo que elimina las llamadas redundantes para recuperar datos de estado y disminuye la latencia general. - El agente raíz usa Gemini en Vertex AI para interpretar la solicitud del usuario y distribuir tareas a subagentes especializados que se ejecutan en paralelo.
- El agente raíz inicia un
- Cada subagente se especializa en un dominio en particular y realiza las siguientes tareas de forma independiente:
- Los subagentes de análisis de imágenes y videos interactúan con servidores personalizados del Protocolo de contexto del modelo (MCP) para realizar las siguientes acciones:
- Recupera datos sin procesar no estructurados almacenados en un bucket de Cloud Storage.
- Envía una solicitud a Gemini para que interprete los datos de entrada, los clasifique y calcule un nivel de confianza.
- Gemini envía la clasificación sugerida y el nivel de confianza al servidor de MCP personalizado.
- El servidor de MCP personalizado reenvía la respuesta al subagente.
- El subagente de analista de datos estructurados organiza el análisis completando las siguientes tareas:
- Interactúa con el servidor de MCP de BigQuery para recuperar datos estructurados y contextuales (como registros históricos, registros de eventos o lecturas de sensores) almacenados en un conjunto de datos de BigQuery.
- El analista de datos estructurados envía una solicitud a Gemini para que interprete los datos de entrada, los clasifique y calcule un nivel de confianza.
- Gemini envía la clasificación sugerida y el nivel de confianza al subagente.
- Los subagentes de análisis de imágenes y videos interactúan con servidores personalizados del Protocolo de contexto del modelo (MCP) para realizar las siguientes acciones:
- Cada subagente envía la clasificación sugerida y el nivel de confianza al agente raíz.
- El agente raíz usa Gemini para resumir los resultados de los subagentes especializados y producir una sola clasificación con un alto nivel de confianza.
- Si la mayoría de las clasificaciones de los subagentes especializados coinciden, el agente raíz envía la clasificación coincidente a la aplicación web.
- Si los subagentes no proporcionan una clasificación coincidente, el agente raíz selecciona la clasificación con el nivel de confianza más alto y la envía a la aplicación web.
Productos usados
En esta arquitectura de referencia, se usan los siguientes Google Cloud productos y herramientas:
- Cloud Run es una plataforma de procesamiento administrada que te permite ejecutar contenedores directamente sobre la infraestructura escalable de Google.
- Vertex AI: Es una plataforma de AA que te permite entrenar y, también, implementar modelos de AA y aplicaciones de IA, y personalizar LLM para usarlos en aplicaciones impulsadas por IA.
- Gemini: Es una familia de modelos de IA multimodales desarrollados por Google.
- BigQuery: Un almacén de datos empresarial que te ayuda a administrar y analizar tus datos con funciones integradas como el análisis geoespacial de aprendizaje automático y la inteligencia empresarial.
- Cloud Storage: Un depósito de objetos de bajo costo y sin límites para varios tipos de datos. Se puede acceder a los datos desde y hacia Google Cloud, y estos se replican en las ubicaciones para aumentar la redundancia.
- Servidores de MCP de Google Cloud: Servicios remotos administrados por Google que implementan el Protocolo de contexto del modelo (MCP) para proporcionar a las aplicaciones basadas en IA acceso a los productos y servicios de Google y Google Cloud.
- Protocolo de contexto del modelo (MCP): Es un estándar de código abierto para conectar aplicaciones de IA a sistemas externos.
- Kit de desarrollo de agentes (ADK): Es un conjunto de herramientas y bibliotecas para desarrollar, probar e implementar agentes de IA.
Si deseas obtener información para seleccionar componentes alternativos para tu sistema de IA con agentes, incluidos el framework, el tiempo de ejecución del agente, las herramientas, la memoria y los patrones de diseño, consulta Elige los componentes de la arquitectura de tu IA con agentes.
Caso de uso
Esta arquitectura está diseñada para casos de uso que sintetizan diversos datos multimodales para tareas de clasificación y detección. Para mejorar la precisión y la escalabilidad, la arquitectura usa un sistema de IA multiagente en lugar de un enfoque monolítico de un solo agente. Este patrón de diseño proporciona instrucciones enfocadas, evita directivas contradictorias, permite conjuntos de herramientas más pequeños para tomar decisiones más rápidas y admite actualizaciones independientes, lo que genera resultados más sólidos y sofisticados.
A continuación, se muestran ejemplos de casos de uso para la arquitectura que se describe en este documento:
- Diagnóstico médico: Proporciona evaluaciones de diagnóstico integrales implementando agentes especializados para analizar de forma independiente imágenes médicas, síntomas de pacientes y resultados de laboratorio. El sistema de IA resume estos hallazgos en función de un umbral de confianza determinado para proporcionar estadísticas fundamentadas y verificables a los profesionales clínicos.
- Detección de fraudes: Detecta y marca posibles fraudes implementando agentes para analizar de forma independiente los patrones de comportamiento de los usuarios y los datos de transacciones, como recibos escaneados y facturas de comercios. Al comparar la evidencia visual de los documentos con la actividad de la red digital, el sistema identifica las discrepancias y marca las transacciones en las que un solo agente identifica un indicador sospechoso.
- Procesamiento de documentos: Automatiza la clasificación y la extracción de información de documentos implementando agentes especializados para el reconocimiento óptico de caracteres (OCR), la clasificación de documentos y la extracción de datos. Para admitir el procesamiento de alta confianza, el sistema de IA requiere que todos los agentes acuerden el resultado.
- Control de calidad: Clasifica la calidad del producto o detecta anomalías implementando agentes especializados para la inspección visual, el análisis de datos de sensores y la verificación de especificaciones. El sistema determina si la respuesta es correcta o incorrecta según un umbral de confianza determinado entre los agentes.
Consideraciones del diseño
Para implementar esta arquitectura en producción, ten en cuenta las siguientes recomendaciones:
- Seguridad del agente: Para limitar la capacidad de un agente de realizar acciones peligrosas, crea una identidad del agente y, luego, protege el acceso a tus servidores de MCP con atributos de Identity and Access Management (IAM). Si aplicas el principio de privilegio mínimo, puedes ayudar a garantizar que tu sistema de IA basado en agentes se comporte según lo esperado y evitar el acceso de lectura y escritura no deseado a tus recursos de producción.
- Seguridad de Ingress: Para controlar el acceso a la aplicación, inhabilita la URL predeterminada de run.app del servicio de Cloud Run de frontend y configura un balanceador de cargas de aplicaciones externo regional. Además de balancear la carga del tráfico entrante a la aplicación, el balanceador de cargas controla la administración de certificados SSL. Para obtener mayor protección, usa las políticas de seguridad de Google Cloud Armor para proporcionar filtrado de solicitudes, protección DSD y límite de frecuencia para el servicio.
- Seguridad de imágenes de contenedor: Para garantizar que solo se implementen imágenes de contenedor autorizadas en Cloud Run, usa la Autorización Binaria. Para identificar y mitigar los riesgos de seguridad en las imágenes de contenedores, ejecuta automáticamente análisis de vulnerabilidades con Artifact Analysis. Para obtener más información, consulta Descripción general del análisis de contenedores.
- Instrucciones rentables: La longitud de tus instrucciones (entrada) y las respuestas generadas (salida) afectan directamente el rendimiento y el costo. Escribe instrucciones que sean breves, directas y proporcionen contexto suficiente. Para obtener más información, consulta las prácticas recomendadas para el diseño de instrucciones.
- Costos de almacenamiento: Para controlar los costos de almacenamiento, puedes elegir la clase de almacenamiento Estándar y habilitar la administración del ciclo de vida de los objetos y la Clase automática. Estas funciones te ayudan a optimizar los costos, ya que mueven o borran automáticamente los datos entre las clases de almacenamiento según tus patrones de acceso o las reglas que establezcas.
- Seguridad del almacenamiento: Cloud Storage admite dos sistemas para controlar el acceso de los usuarios a tus buckets y objetos: IAM y las listas de control de acceso (LCA). En la mayoría de los casos, recomendamos usar IAM, que te permite otorgar permisos a nivel de proyecto y de bucket. Para obtener más información, consulta Descripción general del control de acceso.
- Asignación de recursos: Según tus requisitos de rendimiento, configura los límites de memoria y los límites de CPU que se asignarán al servicio de Cloud Run. Para obtener más orientación sobre la optimización del rendimiento, consulta Sugerencias generales para el desarrollo de Cloud Run.
Si deseas obtener información sobre los factores de diseño y las prácticas recomendadas, así como recomendaciones para compilar y, luego, implementar un sistema de IA multiagente, consulta Sistema de IA multiagente en Google Cloud.
Implementación
Para implementar una muestra de esta arquitectura, prueba el codelab de nivel 1 de Way Back Home.
¿Qué sigue?
- Obtén más información para alojar agentes de IA en Cloud Run.
- Obtén información para compilar e implementar un servidor de MCP remoto en Cloud Run.
- Obtén más información para elegir los componentes de la arquitectura de IA basada en agentes
- (Video) Mira el podcast de Agent Factory sobre la creación de herramientas personalizadas para agentes.
- Explora más guías de arquitectura de IA basada en agentes.
- Para obtener una descripción general de los principios y las recomendaciones de arquitectura específicos para las cargas de trabajo de IA y AA en Google Cloud, consulta la perspectiva de IA y AA en Well-Architected Framework.
- Para obtener más información sobre las arquitecturas de referencia, los diagramas y las prácticas recomendadas, explora Cloud Architecture Center.
Colaboradores
Autora: Samantha He | Escritora técnica
Otros colaboradores:
- Amina Mansour | Jefa del equipo de evaluaciones de Cloud Platform
- Andrey Shakirov | Arquitecto de soluciones, Google Cloud
- Ayo Adedeji | Ingeniero de Relaciones con Desarrolladores
- Christina Lin | Administradora de ingenieros de relaciones con desarrolladores
- Autor: Kumar Dhanagopal | Desarrollador de soluciones entre productos
- Ryan Pei | Gerente de productos, Google Cloud