En este documento, se proporciona una arquitectura de alto nivel para un sistema de IA multiagente implementado en Cloud Run que analiza datos multimodales dispares y produce una clasificación de alta confianza. Este enfoque valida de forma cruzada los medios fragmentados haciendo coincidir los datos en vivo con la verdad fundamental histórica para producir estadísticas fundamentadas y verificables.
El público previsto para este documento incluye arquitectos, desarrolladores y administradores que compilan y administran infraestructura y aplicaciones de IA en la nube. En este documento, se supone que tienes conocimientos básicos sobre los agentes y modelos de IA. El documento no proporciona orientación específica para diseñar y codificar agentes de IA.
En la sección Implementación de este documento, se enumeran ejemplos de código que puedes usar para aprender a compilar e implementar sistemas de IA multiagente.
Arquitectura
En el siguiente diagrama, se muestra la arquitectura del sistema de IA multiagente que usa un patrón de diseño de agente paralelo para coordinar el análisis independiente de datos multimodales y producir una sola clasificación.
La arquitectura muestra el siguiente flujo de datos:
- La aplicación web envía una solicitud al agente raíz para analizar un conjunto de datos multimodales para la clasificación. El agente raíz es un agente coordinador que recibe solicitudes y se implementa en un servicio de Cloud Run.
- El agente raíz controla la solicitud de la siguiente manera:
- El agente raíz inicia un
before_agent_callbackpara recopilar configuraciones de entorno, validar la entrada del usuario y guardar las rutas de recursos en un estado de sesión compartido. Todos los subagentes pueden acceder al estado de sesión compartido, lo que elimina las llamadas redundantes para recuperar datos de estado y disminuye la latencia general. - El agente raíz usa Gemini en Vertex AI para interpretar la solicitud del usuario y distribuir tareas a subagentes especializados que se ejecutan en paralelo.
- El agente raíz inicia un
- Cada subagente se especializa en un dominio en particular y realiza las siguientes tareas de forma independiente:
- Los subagentes de analista de imágenes y videos interactúan con servidores personalizados del Protocolo de contexto del modelo (MCP) para
realizar las siguientes acciones:
- Recuperar datos no estructurados sin procesar almacenados en un bucket de Cloud Storage
- Enviar una solicitud a Gemini para interpretar los datos de entrada, clasificarlos y calcular un nivel de confianza
- Gemini envía la clasificación sugerida y el nivel de confianza al servidor de MCP personalizado.
- El servidor de MCP personalizado reenvía la respuesta al subagente.
- El subagente de analista de datos estructurados organiza el análisis completando las siguientes tareas:
- Interactúa con el servidor de MCP de BigQuery para recuperar datos contextuales estructurados (como registros históricos, registros de eventos o lecturas de sensores) almacenados en un conjunto de datos de BigQuery.
- El analista de datos estructurados envía una solicitud a Gemini para interpretar los datos de entrada, clasificarlos y calcular un nivel de confianza.
- Gemini envía la clasificación sugerida y el nivel de confianza al subagente.
- Los subagentes de analista de imágenes y videos interactúan con servidores personalizados del Protocolo de contexto del modelo (MCP) para
realizar las siguientes acciones:
- Cada subagente envía la clasificación sugerida y el nivel de confianza al agente raíz.
- El agente raíz usa Gemini para resumir los resultados de los subagentes especializados y producir una sola clasificación de alta confianza.
- Si la mayoría de las clasificaciones de los subagentes especializados coinciden, el agente raíz envía la clasificación coincidente a la aplicación web.
- Si los subagentes no proporcionan una clasificación coincidente, el agente raíz selecciona la clasificación con el nivel de confianza más alto y la envía a la aplicación web.
Productos usados
En esta arquitectura de referencia, se usan los siguientes Google Cloud productos y herramientas:
- Cloud Run: Una plataforma de procesamiento administrada que te permite ejecutar contenedores directamente sobre la infraestructura escalable de Google.
- Vertex AI: Es una plataforma de AA que te permite entrenar y, también, implementar modelos de AA y aplicaciones de IA, y personalizar LLM para usarlos en aplicaciones impulsadas por IA.
- Gemini: Una familia de modelos de IA multimodales desarrollados por Google.
- BigQuery: Es un almacén de datos empresarial que te ayuda a administrar y analizar tus datos con funciones integradas como el análisis geoespacial de aprendizaje automático y la inteligencia empresarial.
- Cloud Storage: Un almacén de objetos de bajo costo y sin límites para diversos tipos de datos. Se puede acceder a los datos desde y hacia Google Cloud Google Cloud, y estos se replican en las ubicaciones para aumentar la redundancia.
- Servidores de MCP de Google Cloud: Son servicios remotos administrados por Google que implementan el Protocolo de contexto del modelo (MCP) para proporcionar a las aplicaciones de IA acceso a los productos y servicios de Google y Google Cloud.
- Protocolo de contexto del modelo (MCP): Es un estándar de código abierto para conectar aplicaciones de IA a sistemas externos.
- Kit de desarrollo de agentes (ADK): Es un conjunto de herramientas y bibliotecas para desarrollar, probar y, luego, implementar agentes de IA.
Si deseas obtener información para seleccionar componentes alternativos para tu sistema de IA de agentes incluidos el framework, el tiempo de ejecución del agente, las herramientas, la memoria y los patrones de diseño, consulta Elige los componentes de la arquitectura de IA de agentes.
Caso de uso
Esta arquitectura está diseñada para casos de uso que sintetizan diversos datos multimodales para tareas de clasificación y detección. Para mejorar la precisión y la escalabilidad, la arquitectura usa un sistema de IA multiagente en lugar de un enfoque monolítico de un solo agente. Este patrón de diseño proporciona instrucciones enfocadas, evita directivas en conflicto, habilita conjuntos de herramientas más pequeños para decisiones más rápidas y admite actualizaciones independientes, lo que genera resultados más sólidos y sofisticados.
A continuación, se muestran ejemplos de casos de uso para la arquitectura que se describe en este documento:
- Diagnóstico médico: Proporciona evaluaciones de diagnóstico integrales mediante la implementación de agentes especializados para analizar de forma independiente imágenes médicas, síntomas de pacientes y resultados de laboratorio. El sistema de IA resume estos hallazgos en función de un umbral de confianza determinado para proporcionar estadísticas fundamentadas y verificables para los profesionales clínicos.
- Detección de fraude: Detecta y marca posibles fraudes mediante la implementación de agentes para analizar de forma independiente los patrones de comportamiento del usuario y los datos de transacciones, como recibos escaneados y facturas de comerciantes. Al hacer referencias cruzadas de la evidencia visual de los documentos con la actividad de la red digital, el sistema identifica discrepancias y marca cualquier transacción en la que un solo agente identifique un indicador sospechoso.
- Procesamiento de documentos: Automatiza la clasificación y la extracción de información de documentos mediante la implementación de agentes especializados para el reconocimiento óptico de caracteres (OCR), la clasificación de documentos y la extracción de datos. Para admitir el procesamiento de alta confianza, el sistema de IA requiere que todos los agentes estén de acuerdo con el resultado.
- Control de calidad: Clasifica la calidad del producto o detecta anomalías mediante la implementación de agentes especializados para la inspección visual, el análisis de datos de sensores y la verificación de especificaciones. El sistema determina si se aprueba o falla en función de un umbral de confianza determinado entre los agentes.
Consideraciones del diseño
Para implementar esta arquitectura para la producción, considera las siguientes recomendaciones:
- Seguridad del agente: Para limitar la capacidad de un agente de realizar acciones peligrosas, crea una identidad de agente y, luego, protege el acceso a tus servidores de MCP con atributos de Identity and Access Management (IAM). Si aplicas el principio de privilegio mínimo, puedes asegurarte de que tu sistema de IA de agentes se comporte como se espera y evitar el acceso de lectura y escritura no deseado a tus recursos de producción.
- Seguridad de entrada: Para controlar el acceso a la aplicación, inhabilita la URL run.app predeterminada del servicio de Cloud Run de frontend y configura un balanceador de cargas de aplicaciones externo regional. Además de balancear el tráfico entrante a la aplicación, el balanceador de cargas controla la administración de certificados SSL. Para mayor protección, usa las políticas de seguridad de Google Cloud Armor para proporcionar filtrado de solicitudes, protección DSD y límite de frecuencia para el servicio.
- Seguridad de la imagen de contenedor: Para garantizar que solo se implementen imágenes de contenedor autorizadas en Cloud Run, usa la autorización binaria. Para identificar y mitigar los riesgos de seguridad en las imágenes de contenedor, ejecuta automáticamente análisis de vulnerabilidades con Artifact Analysis. Para obtener más información, consulta Descripción general del análisis de contenedores.
- Instrucciones rentables: La longitud de tus instrucciones (entrada) y las respuestas generadas (salida) afectan directamente el rendimiento y el costo. Escribe instrucciones que sean breves, directas y que proporcionen suficiente contexto. Para obtener más información, consulta las prácticas recomendadas para el diseño de instrucciones.
- Costos de almacenamiento: Para controlar los costos de almacenamiento, puedes elegir la clase de almacenamiento Standard y habilitar la administración del ciclo de vida de los objetos y Autoclass. Estas funciones te ayudan a optimizar los costos moviendo o borrando automáticamente los datos entre las clases de almacenamiento según tus patrones de acceso o las reglas que establezcas.
- Seguridad del almacenamiento: Cloud Storage admite dos sistemas para controlar el acceso de los usuarios a tus buckets y objetos: IAM y las listas de control de acceso (LCA). En la mayoría de los casos, recomendamos usar IAM, que te permite otorgar permisos a nivel de proyecto y de bucket. Para obtener más información, consulta Descripción general del control de acceso.
- Asignación de recursos: Según tus requisitos de rendimiento, configura los límites de memoria y los límites de CPU que se asignarán al servicio de Cloud Run. Para obtener más orientación sobre la optimización del rendimiento, consulta Sugerencias generales para el desarrollo de Cloud Run.
Para obtener información sobre los factores de diseño y las prácticas recomendadas, y para obtener recomendaciones sobre la compilación y la implementación de un sistema de IA multiagente, consulta Sistema de IA multiagente en Google Cloud.
Deployment
Para implementar una implementación de muestra de esta arquitectura, prueba el codelab Way Back Home Level 1.
¿Qué sigue?
- Aprende a alojar agentes de IA en Cloud Run.
- Aprende a compilar e implementar un servidor de MCP remoto en Cloud Run.
- Aprende a elegir los componentes de la arquitectura de IA de agentes.
- (Video) Mira el podcast The Agent Factory sobre la compilación de herramientas personalizadas para agentes.
- Explora más guías de arquitectura de IA de agentes.
- Para obtener una descripción general de los principios y las recomendaciones de arquitectura que son específicos de las cargas de trabajo de IA y AA en Google Cloud, consulta la perspectiva de IA y AA en el Well-Architected Framework.
- Para obtener más información sobre las arquitecturas de referencia, los diagramas y las prácticas recomendadas, explora el Cloud Architecture Center.
Colaboradores
Autor: Samantha He | Escritora técnica
Otros colaboradores:
- Amina Mansour | Jefa del equipo de evaluaciones de Cloud Platform
- Andrey Shakirov | Arquitecto de soluciones, Google Cloud
- Ayo Adedeji | Ingeniero de relaciones con desarrolladores
- Christina Lin | Administradora de ingenieros de relaciones con desarrolladores
- Kumar Dhanagopal | Desarrollador de soluciones entre productos
- Ryan Pei | Gerente de producto, Google Cloud