Caso de uso da IA agêntica: classificar dados multimodais

Last reviewed 2026-03-03 UTC

Este documento fornece uma arquitetura de alto nível para um sistema de IA multiagente implantado no Cloud Run que analisa dados multimodais diferentes e produz uma classificação de alta confiança. Essa abordagem valida cruzadamente a mídia fragmentada, comparando dados ativos com informações empíricas históricas para produzir insights fundamentados e verificáveis.

O público-alvo deste documento inclui arquitetos, desenvolvedores e administradores que criam e gerenciam infraestrutura e aplicativos de IA na nuvem. Este documento pressupõe que você tenha um entendimento básico de agentes e modelos de IA. O documento não fornece orientações específicas para projetar e codificar agentes de IA.

A seção Implantação deste documento lista exemplos de código que podem ser usados para aprender a criar e implantar sistemas de IA multiagente.

Arquitetura

O diagrama a seguir mostra a arquitetura do sistema de IA multiagente que usa um padrão de design de agente paralelo para coordenar a análise independente de dados multimodais e produzir uma única classificação.

Arquitetura de um sistema de IA multiagente que classifica dados multimodais.

A arquitetura mostra o seguinte fluxo de dados:

  1. O aplicativo da Web envia uma solicitação ao agente raiz para analisar um conjunto de dados multimodais para classificação. O agente raiz é um agente coordenador que recebe solicitações e é implantado em um serviço do Cloud Run.
  2. O agente raiz processa a solicitação da seguinte maneira:
    1. O agente raiz inicia um before_agent_callback para coletar configurações de ambiente, validar a entrada do usuário e salvar caminhos de recursos em um estado de sessão compartilhada. Todos os subagentes podem acessar o estado de sessão compartilhada, o que elimina chamadas redundantes para buscar dados de estado e diminui a latência geral.
    2. O agente raiz usa o Gemini na Vertex AI para interpretar a solicitação do usuário e distribuir tarefas para subagentes especializados que são executados em paralelo.
  3. Cada subagente é especializado em um domínio específico e realiza as seguintes tarefas de forma independente:
    1. Os subagentes de analista de imagem e vídeo interagem com servidores personalizados do Protocolo de Contexto de Modelo (MCP) para realizar as seguintes ações:
      1. Buscar dados brutos não estruturados armazenados em um bucket do Cloud Storage.
      2. Enviar uma solicitação ao Gemini para interpretar os dados de entrada, classificar os dados e calcular um nível de confiança.
      3. O Gemini envia a classificação sugerida e o nível de confiança de volta ao servidor MCP personalizado.
      4. O servidor MCP personalizado encaminha a resposta de volta ao subagente.
    2. O subagente de analista de dados estruturados orquestra a análise concluindo as seguintes tarefas:
      1. Interage com o servidor MCP do BigQuery para buscar dados estruturados e contextuais (como registros históricos, registros de eventos ou leituras de sensores) armazenados em um conjunto de dados do BigQuery.
      2. O analista de dados estruturados envia uma solicitação ao Gemini para interpretar os dados de entrada, classificar os dados e calcular um nível de confiança.
      3. O Gemini envia a classificação sugerida e o nível de confiança de volta ao subagente.
  4. Cada subagente envia a classificação sugerida e o nível de confiança de volta ao agente raiz.
  5. O agente raiz usa o Gemini para resumir as saídas dos subagentes especializados e produzir uma classificação única de alta confiança.
    • Se a maioria das classificações dos subagentes especializados corresponder, o agente raiz enviará a classificação correspondente ao aplicativo da Web.
    • Se os subagentes não fornecerem uma classificação correspondente, o agente raiz selecionará a classificação com o nível de confiança mais alto e a enviará ao aplicativo da Web.

Produtos usados

Esta arquitetura de referência usa os seguintes Google Cloud produtos e ferramentas:

Para informações sobre como selecionar componentes alternativos para seu sistema de IA agêntico incluindo framework, ambiente de execução do agente, ferramentas, memória e padrões de design, consulte Escolher os componentes da arquitetura de IA agêntica.

Caso de uso

Essa arquitetura foi projetada para casos de uso que sintetizam dados multimodais diversos para tarefas de classificação e detecção. Para maior precisão e escalabilidade, a arquitetura usa um sistema de IA multiagente em vez de uma abordagem monolítica de agente único. Esse padrão de design fornece instruções focadas, evita diretivas conflitantes, permite conjuntos de ferramentas menores para decisões mais rápidas e oferece suporte a atualizações independentes, o que leva a resultados mais robustos e sofisticados.

A seguir, apresentamos exemplos de casos de uso para a arquitetura descrita neste documento:

  • Diagnóstico médico: forneça avaliações diagnósticas abrangentes implantando agentes especializados para analisar de forma independente imagens médicas, sintomas do paciente e resultados de exames laboratoriais. O sistema de IA resume essas descobertas com base em um limite de confiança determinado para fornecer insights fundamentados e verificáveis para os médicos.
  • Detecção de fraudes: detecte e sinalize possíveis fraudes implantando agentes para analisar de forma independente padrões de comportamento do usuário e dados de transação, como recibos digitalizados e faturas de comerciantes. Ao fazer referência cruzada de evidências visuais de documentos com a atividade de rede digital, o sistema identifica discrepâncias e sinaliza todas as transações em que um único agente identifica um indicador suspeito.
  • Processamento de documentos: automatize a classificação e a extração de informações de documentos implantando agentes especializados para reconhecimento óptico de caracteres (OCR), classificação de documentos e extração de dados. Para oferecer suporte ao processamento de alta confiança, o sistema de IA exige que todos os agentes concordem com a saída.
  • Controle de qualidade: classifique a qualidade do produto ou detecte anomalias implantando agentes especializados para inspeção visual, análise de dados de sensores e verificação de especificações. O sistema determina uma aprovação ou reprovação com base em um limite de confiança determinado entre os agentes.

Considerações sobre o design

Para implementar essa arquitetura na produção, considere as seguintes recomendações:

Para informações sobre fatores de design e práticas recomendadas, e para recomendações sobre como criar e implantar um sistema de IA multiagente, consulte Sistema de IA multiagente em Google Cloud.

Implantação

Para implantar uma implementação de exemplo dessa arquitetura, consulte o codelab Way Back Home Level 1.

A seguir

Colaboradores

Autor: Samantha He, redatora técnica

Outros colaboradores: