Caso de uso de la IA de agentes: Clasifica datos multimodales

Last reviewed 2026-03-03 UTC

En este documento, se proporciona una arquitectura de alto nivel para un sistema de IA multiagente implementado en Cloud Run que analiza datos multimodales dispares y produce una clasificación de alta confianza. Este enfoque valida de forma cruzada los medios fragmentados comparando los datos en tiempo real con la verdad fundamental histórica para producir estadísticas fundamentadas y verificables.

El público objetivo de este documento incluye arquitectos, desarrolladores y administradores que compilan y administran infraestructura y aplicaciones de IA en la nube. En este documento, se supone que tienes conocimientos básicos sobre los agentes y modelos de IA. En el documento, no se proporciona orientación específica para diseñar y programar agentes de IA.

En la sección Implementación de este documento, se enumeran muestras de código que puedes usar para aprender a compilar e implementar sistemas de IA multiagente.

Arquitectura

En el siguiente diagrama, se muestra la arquitectura del sistema de IA de varios agentes que usa un patrón de diseño de agentes paralelos para coordinar el análisis independiente de datos multimodales y producir una sola clasificación.

Arquitectura de un sistema de IA de agentes múltiples que clasifica datos multimodales.

La arquitectura muestra el siguiente flujo de datos:

  1. La aplicación web envía una solicitud al agente raíz para analizar un conjunto de datos multimodales para la clasificación. El agente raíz es un agente coordinador que recibe solicitudes y se implementa en un servicio de Cloud Run.
  2. El agente raíz controla la solicitud de la siguiente manera:
    1. El agente raíz inicia un before_agent_callback para recopilar parámetros de configuración del entorno, validar la entrada del usuario y guardar rutas de acceso a recursos en un estado de sesión compartido. Todos los subagentes pueden acceder al estado de la sesión compartida, lo que elimina las llamadas redundantes para recuperar datos de estado y disminuye la latencia general.
    2. El agente raíz usa Gemini en Vertex AI para interpretar la solicitud del usuario y distribuir tareas a subagentes especializados que se ejecutan en paralelo.
  3. Cada subagente se especializa en un dominio en particular y realiza las siguientes tareas de forma independiente:
    1. Los subagentes de análisis de imágenes y videos interactúan con servidores personalizados del Protocolo de contexto del modelo (MCP) para realizar las siguientes acciones:
      1. Recupera datos sin procesar no estructurados almacenados en un bucket de Cloud Storage.
      2. Envía una solicitud a Gemini para que interprete los datos de entrada, los clasifique y calcule un nivel de confianza.
      3. Gemini envía la clasificación sugerida y el nivel de confianza al servidor de MCP personalizado.
      4. El servidor de MCP personalizado reenvía la respuesta al subagente.
    2. El subagente de analista de datos estructurados organiza el análisis completando las siguientes tareas:
      1. Interactúa con el servidor de MCP de BigQuery para recuperar datos estructurados y contextuales (como registros históricos, registros de eventos o lecturas de sensores) almacenados en un conjunto de datos de BigQuery.
      2. El analista de datos estructurados envía una solicitud a Gemini para que interprete los datos de entrada, los clasifique y calcule un nivel de confianza.
      3. Gemini envía la clasificación sugerida y el nivel de confianza al subagente.
  4. Cada subagente envía la clasificación sugerida y el nivel de confianza al agente raíz.
  5. El agente raíz usa Gemini para resumir los resultados de los subagentes especializados y producir una sola clasificación con un alto nivel de confianza.
    • Si la mayoría de las clasificaciones de los subagentes especializados coinciden, el agente raíz envía la clasificación coincidente a la aplicación web.
    • Si los subagentes no proporcionan una clasificación coincidente, el agente raíz selecciona la clasificación con el nivel de confianza más alto y la envía a la aplicación web.

Productos usados

En esta arquitectura de referencia, se usan los siguientes Google Cloud productos y herramientas:

  • Cloud Run es una plataforma de procesamiento administrada que te permite ejecutar contenedores directamente sobre la infraestructura escalable de Google.
  • Vertex AI: Es una plataforma de AA que te permite entrenar y, también, implementar modelos de AA y aplicaciones de IA, y personalizar LLM para usarlos en aplicaciones impulsadas por IA.
  • Gemini: Es una familia de modelos de IA multimodales desarrollados por Google.
  • BigQuery: Un almacén de datos empresarial que te ayuda a administrar y analizar tus datos con funciones integradas como el análisis geoespacial de aprendizaje automático y la inteligencia empresarial.
  • Cloud Storage: Un depósito de objetos de bajo costo y sin límites para varios tipos de datos. Se puede acceder a los datos desde y hacia Google Cloud, y estos se replican en las ubicaciones para aumentar la redundancia.
  • Servidores de MCP de Google Cloud: Servicios remotos administrados por Google que implementan el Protocolo de contexto del modelo (MCP) para proporcionar a las aplicaciones basadas en IA acceso a los productos y servicios de Google y Google Cloud.
  • Protocolo de contexto del modelo (MCP): Es un estándar de código abierto para conectar aplicaciones de IA a sistemas externos.
  • Kit de desarrollo de agentes (ADK): Es un conjunto de herramientas y bibliotecas para desarrollar, probar e implementar agentes de IA.

Si deseas obtener información para seleccionar componentes alternativos para tu sistema de IA con agentes, incluidos el framework, el tiempo de ejecución del agente, las herramientas, la memoria y los patrones de diseño, consulta Elige los componentes de la arquitectura de tu IA con agentes.

Caso de uso

Esta arquitectura está diseñada para casos de uso que sintetizan diversos datos multimodales para tareas de clasificación y detección. Para mejorar la precisión y la escalabilidad, la arquitectura usa un sistema de IA multiagente en lugar de un enfoque monolítico de un solo agente. Este patrón de diseño proporciona instrucciones enfocadas, evita directivas contradictorias, permite conjuntos de herramientas más pequeños para tomar decisiones más rápidas y admite actualizaciones independientes, lo que genera resultados más sólidos y sofisticados.

A continuación, se muestran ejemplos de casos de uso para la arquitectura que se describe en este documento:

  • Diagnóstico médico: Proporciona evaluaciones de diagnóstico integrales implementando agentes especializados para analizar de forma independiente imágenes médicas, síntomas de pacientes y resultados de laboratorio. El sistema de IA resume estos hallazgos en función de un umbral de confianza determinado para proporcionar estadísticas fundamentadas y verificables a los profesionales clínicos.
  • Detección de fraudes: Detecta y marca posibles fraudes implementando agentes para analizar de forma independiente los patrones de comportamiento de los usuarios y los datos de transacciones, como recibos escaneados y facturas de comercios. Al comparar la evidencia visual de los documentos con la actividad de la red digital, el sistema identifica las discrepancias y marca las transacciones en las que un solo agente identifica un indicador sospechoso.
  • Procesamiento de documentos: Automatiza la clasificación y la extracción de información de documentos implementando agentes especializados para el reconocimiento óptico de caracteres (OCR), la clasificación de documentos y la extracción de datos. Para admitir el procesamiento de alta confianza, el sistema de IA requiere que todos los agentes acuerden el resultado.
  • Control de calidad: Clasifica la calidad del producto o detecta anomalías implementando agentes especializados para la inspección visual, el análisis de datos de sensores y la verificación de especificaciones. El sistema determina si la respuesta es correcta o incorrecta según un umbral de confianza determinado entre los agentes.

Consideraciones del diseño

Para implementar esta arquitectura en producción, ten en cuenta las siguientes recomendaciones:

Si deseas obtener información sobre los factores de diseño y las prácticas recomendadas, así como recomendaciones para compilar y, luego, implementar un sistema de IA multiagente, consulta Sistema de IA multiagente en Google Cloud.

Implementación

Para implementar una muestra de esta arquitectura, prueba el codelab de nivel 1 de Way Back Home.

¿Qué sigue?

Colaboradores

Autora: Samantha He | Escritora técnica

Otros colaboradores: