Caso de uso de la IA de agentes: Clasifica datos multimodales

Last reviewed 2026-03-03 UTC

En este documento, se proporciona una arquitectura de alto nivel para un sistema de IA multiagente implementado en Cloud Run que analiza datos multimodales dispares y produce una clasificación de alta confianza. Este enfoque valida de forma cruzada los medios fragmentados haciendo coincidir los datos en vivo con la verdad fundamental histórica para producir estadísticas fundamentadas y verificables.

El público previsto para este documento incluye arquitectos, desarrolladores y administradores que compilan y administran infraestructura y aplicaciones de IA en la nube. En este documento, se supone que tienes conocimientos básicos sobre los agentes y modelos de IA. El documento no proporciona orientación específica para diseñar y codificar agentes de IA.

En la sección Implementación de este documento, se enumeran ejemplos de código que puedes usar para aprender a compilar e implementar sistemas de IA multiagente.

Arquitectura

En el siguiente diagrama, se muestra la arquitectura del sistema de IA multiagente que usa un patrón de diseño de agente paralelo para coordinar el análisis independiente de datos multimodales y producir una sola clasificación.

Arquitectura de un sistema de IA multiagente que clasifica datos multimodales.

La arquitectura muestra el siguiente flujo de datos:

  1. La aplicación web envía una solicitud al agente raíz para analizar un conjunto de datos multimodales para la clasificación. El agente raíz es un agente coordinador que recibe solicitudes y se implementa en un servicio de Cloud Run.
  2. El agente raíz controla la solicitud de la siguiente manera:
    1. El agente raíz inicia un before_agent_callback para recopilar configuraciones de entorno, validar la entrada del usuario y guardar las rutas de recursos en un estado de sesión compartido. Todos los subagentes pueden acceder al estado de sesión compartido, lo que elimina las llamadas redundantes para recuperar datos de estado y disminuye la latencia general.
    2. El agente raíz usa Gemini en Vertex AI para interpretar la solicitud del usuario y distribuir tareas a subagentes especializados que se ejecutan en paralelo.
  3. Cada subagente se especializa en un dominio en particular y realiza las siguientes tareas de forma independiente:
    1. Los subagentes de analista de imágenes y videos interactúan con servidores personalizados del Protocolo de contexto del modelo (MCP) para realizar las siguientes acciones:
      1. Recuperar datos no estructurados sin procesar almacenados en un bucket de Cloud Storage
      2. Enviar una solicitud a Gemini para interpretar los datos de entrada, clasificarlos y calcular un nivel de confianza
      3. Gemini envía la clasificación sugerida y el nivel de confianza al servidor de MCP personalizado.
      4. El servidor de MCP personalizado reenvía la respuesta al subagente.
    2. El subagente de analista de datos estructurados organiza el análisis completando las siguientes tareas:
      1. Interactúa con el servidor de MCP de BigQuery para recuperar datos contextuales estructurados (como registros históricos, registros de eventos o lecturas de sensores) almacenados en un conjunto de datos de BigQuery.
      2. El analista de datos estructurados envía una solicitud a Gemini para interpretar los datos de entrada, clasificarlos y calcular un nivel de confianza.
      3. Gemini envía la clasificación sugerida y el nivel de confianza al subagente.
  4. Cada subagente envía la clasificación sugerida y el nivel de confianza al agente raíz.
  5. El agente raíz usa Gemini para resumir los resultados de los subagentes especializados y producir una sola clasificación de alta confianza.
    • Si la mayoría de las clasificaciones de los subagentes especializados coinciden, el agente raíz envía la clasificación coincidente a la aplicación web.
    • Si los subagentes no proporcionan una clasificación coincidente, el agente raíz selecciona la clasificación con el nivel de confianza más alto y la envía a la aplicación web.

Productos usados

En esta arquitectura de referencia, se usan los siguientes Google Cloud productos y herramientas:

  • Cloud Run: Una plataforma de procesamiento administrada que te permite ejecutar contenedores directamente sobre la infraestructura escalable de Google.
  • Vertex AI: Es una plataforma de AA que te permite entrenar y, también, implementar modelos de AA y aplicaciones de IA, y personalizar LLM para usarlos en aplicaciones impulsadas por IA.
  • Gemini: Una familia de modelos de IA multimodales desarrollados por Google.
  • BigQuery: Es un almacén de datos empresarial que te ayuda a administrar y analizar tus datos con funciones integradas como el análisis geoespacial de aprendizaje automático y la inteligencia empresarial.
  • Cloud Storage: Un almacén de objetos de bajo costo y sin límites para diversos tipos de datos. Se puede acceder a los datos desde y hacia Google Cloud Google Cloud, y estos se replican en las ubicaciones para aumentar la redundancia.
  • Servidores de MCP de Google Cloud: Son servicios remotos administrados por Google que implementan el Protocolo de contexto del modelo (MCP) para proporcionar a las aplicaciones de IA acceso a los productos y servicios de Google y Google Cloud.
  • Protocolo de contexto del modelo (MCP): Es un estándar de código abierto para conectar aplicaciones de IA a sistemas externos.
  • Kit de desarrollo de agentes (ADK): Es un conjunto de herramientas y bibliotecas para desarrollar, probar y, luego, implementar agentes de IA.

Si deseas obtener información para seleccionar componentes alternativos para tu sistema de IA de agentes incluidos el framework, el tiempo de ejecución del agente, las herramientas, la memoria y los patrones de diseño, consulta Elige los componentes de la arquitectura de IA de agentes.

Caso de uso

Esta arquitectura está diseñada para casos de uso que sintetizan diversos datos multimodales para tareas de clasificación y detección. Para mejorar la precisión y la escalabilidad, la arquitectura usa un sistema de IA multiagente en lugar de un enfoque monolítico de un solo agente. Este patrón de diseño proporciona instrucciones enfocadas, evita directivas en conflicto, habilita conjuntos de herramientas más pequeños para decisiones más rápidas y admite actualizaciones independientes, lo que genera resultados más sólidos y sofisticados.

A continuación, se muestran ejemplos de casos de uso para la arquitectura que se describe en este documento:

  • Diagnóstico médico: Proporciona evaluaciones de diagnóstico integrales mediante la implementación de agentes especializados para analizar de forma independiente imágenes médicas, síntomas de pacientes y resultados de laboratorio. El sistema de IA resume estos hallazgos en función de un umbral de confianza determinado para proporcionar estadísticas fundamentadas y verificables para los profesionales clínicos.
  • Detección de fraude: Detecta y marca posibles fraudes mediante la implementación de agentes para analizar de forma independiente los patrones de comportamiento del usuario y los datos de transacciones, como recibos escaneados y facturas de comerciantes. Al hacer referencias cruzadas de la evidencia visual de los documentos con la actividad de la red digital, el sistema identifica discrepancias y marca cualquier transacción en la que un solo agente identifique un indicador sospechoso.
  • Procesamiento de documentos: Automatiza la clasificación y la extracción de información de documentos mediante la implementación de agentes especializados para el reconocimiento óptico de caracteres (OCR), la clasificación de documentos y la extracción de datos. Para admitir el procesamiento de alta confianza, el sistema de IA requiere que todos los agentes estén de acuerdo con el resultado.
  • Control de calidad: Clasifica la calidad del producto o detecta anomalías mediante la implementación de agentes especializados para la inspección visual, el análisis de datos de sensores y la verificación de especificaciones. El sistema determina si se aprueba o falla en función de un umbral de confianza determinado entre los agentes.

Consideraciones del diseño

Para implementar esta arquitectura para la producción, considera las siguientes recomendaciones:

Para obtener información sobre los factores de diseño y las prácticas recomendadas, y para obtener recomendaciones sobre la compilación y la implementación de un sistema de IA multiagente, consulta Sistema de IA multiagente en Google Cloud.

Deployment

Para implementar una implementación de muestra de esta arquitectura, prueba el codelab Way Back Home Level 1.

¿Qué sigue?

Colaboradores

Autor: Samantha He | Escritora técnica

Otros colaboradores: