Caso de uso da IA agêntica: classificar dados multimodais

Last reviewed 2026-03-03 UTC

Este documento fornece uma arquitetura de alto nível para um sistema de IA multiagente implantado no Cloud Run que analisa dados multimodais diferentes e produz uma classificação de alta confiança. Essa abordagem valida cruzadamente a mídia fragmentada ao comparar dados em tempo real com informações empíricas históricas para gerar insights embasados e verificáveis.

O público-alvo deste documento inclui arquitetos, desenvolvedores e administradores que criam e gerenciam infraestrutura e aplicativos de IA na nuvem. Este documento pressupõe que você tenha um entendimento básico de agentes e modelos de IA. O documento não oferece orientações específicas para projetar e programar agentes de IA.

A seção Implantação deste documento lista exemplos de código que você pode usar para aprender a criar e implantar sistemas de IA multiagente.

Arquitetura

O diagrama a seguir mostra a arquitetura do sistema de IA multiagente que usa um padrão de design de agente paralelo para coordenar análises independentes em dados multimodais e produzir uma única classificação.

Arquitetura de um sistema de IA multiagente que classifica dados multimodais.

A arquitetura mostra o seguinte fluxo de dados:

  1. O aplicativo da Web envia uma solicitação ao agente raiz para analisar um conjunto de dados multimodais para classificação. O agente raiz é um agente coordenador que recebe solicitações e é implantado em um serviço do Cloud Run.
  2. O agente raiz processa a solicitação da seguinte maneira:
    1. O agente raiz inicia um before_agent_callback para coletar configurações de ambiente, validar a entrada do usuário e salvar caminhos de recursos em um estado de sessão compartilhado. Todos os subagentes podem acessar o estado da sessão compartilhada, o que elimina chamadas redundantes para buscar dados de estado e diminui a latência geral.
    2. O agente raiz usa o Gemini na Vertex AI para interpretar a solicitação do usuário e distribuir tarefas para subagentes especializados que são executados em paralelo.
  3. Cada subagente é especializado em um domínio específico e realiza as seguintes tarefas de forma independente:
    1. Os subagentes de análise de imagem e vídeo interagem com servidores personalizados do Protocolo de Contexto de Modelo (MCP) para realizar as seguintes ações:
      1. Extrair dados brutos não estruturados armazenados em um bucket do Cloud Storage.
      2. Envie uma solicitação ao Gemini para interpretar os dados de entrada, classificar os dados e calcular um nível de confiança.
      3. O Gemini envia a classificação sugerida e o nível de confiança de volta ao servidor MCP personalizado.
      4. O servidor MCP personalizado encaminha a resposta de volta para o subagente.
    2. O subagente analista de dados estruturados orquestra a análise concluindo as seguintes tarefas:
      1. Interage com o servidor MCP do BigQuery para buscar dados estruturados e contextuais (como registros históricos, registros de eventos ou leituras de sensores) armazenados em um conjunto de dados do BigQuery.
      2. O analista de dados estruturados envia uma solicitação ao Gemini para interpretar e classificar os dados de entrada e calcular um nível de confiança.
      3. O Gemini envia a classificação sugerida e o nível de confiança de volta para o subagente.
  4. Cada subagente envia a classificação sugerida e o nível de confiança de volta para o agente raiz.
  5. O agente raiz usa o Gemini para resumir as saídas dos subagentes especializados e produzir uma classificação única e de alta confiança.
    • Se a maioria das classificações dos subagentes especializados corresponder, o agente raiz enviará a classificação correspondente ao aplicativo da Web.
    • Se os subagentes não fornecerem uma classificação correspondente, o agente raiz vai selecionar a classificação com o maior nível de confiança e enviá-la ao aplicativo da Web.

Produtos usados

Esta arquitetura de referência usa os seguintes produtos e ferramentas do Google Cloud :

Para informações sobre como selecionar componentes alternativos para seu sistema de IA agêntica, incluindo framework, tempo de execução do agente, ferramentas, memória e padrões de design, consulte Escolher os componentes de arquitetura de IA agêntica.

Caso de uso

Essa arquitetura foi projetada para casos de uso que sintetizam diversos dados multimodais para tarefas de classificação e detecção. Para aumentar a acurácia e a escalabilidade, a arquitetura usa um sistema de IA multiagente em vez de uma abordagem monolítica de agente único. Esse padrão de design oferece instruções focadas, evita diretivas conflitantes, permite conjuntos de ferramentas menores para decisões mais rápidas e aceita atualizações independentes, o que leva a resultados mais robustos e sofisticados.

Confira a seguir exemplos de casos de uso para a arquitetura descrita neste documento:

  • Diagnóstico médico: ofereça avaliações de diagnóstico abrangentes implantando agentes especializados para analisar de forma independente imagens médicas, sintomas do paciente e resultados de laboratório. O sistema de IA resume essas descobertas com base em um limite de confiança determinado para fornecer insights embasados e verificáveis para os médicos.
  • Detecção de fraudes: detecte e sinalize possíveis fraudes implantando agentes para analisar de forma independente padrões de comportamento do usuário e dados de transações, como recibos digitalizados e faturas de comerciantes. Ao fazer uma comparação cruzada entre evidências visuais de documentos e atividades de rede digital, o sistema identifica discrepâncias e sinaliza transações em que um único agente identifica um indicador suspeito.
  • Processamento de documentos: automatize a classificação e a extração de informações de documentos implantando agentes especializados para reconhecimento óptico de caracteres (OCR), classificação de documentos e extração de dados. Para oferecer suporte ao processamento de alta confiança, o sistema de IA exige que todos os agentes concordem com a saída.
  • Controle de qualidade: classifique a qualidade do produto ou detecte anomalias implantando agentes especializados para inspeção visual, análise de dados de sensores e verificação de especificações. O sistema determina uma aprovação ou reprovação com base em um limite de confiança determinado entre os agentes.

Considerações sobre o design

Para implementar essa arquitetura em produção, considere as seguintes recomendações:

Para informações sobre fatores de design e práticas recomendadas, além de recomendações sobre como criar e implantar um sistema de IA multiagente, consulte Sistema de IA multiagente em Google Cloud.

Implantação

Para implantar uma implementação de exemplo dessa arquitetura, consulte o codelab Way Back Home Level 1.

A seguir

Colaboradores

Autora: Samantha He | Redatora técnica

Outros colaboradores: