Este documento fornece uma arquitetura de alto nível para um sistema de IA multiagente implantado no Cloud Run que analisa dados multimodais diferentes e produz uma classificação de alta confiança. Essa abordagem valida cruzadamente a mídia fragmentada, comparando dados ativos com informações empíricas históricas para produzir insights fundamentados e verificáveis.
O público-alvo deste documento inclui arquitetos, desenvolvedores e administradores que criam e gerenciam infraestrutura e aplicativos de IA na nuvem. Este documento pressupõe que você tenha um entendimento básico de agentes e modelos de IA. O documento não fornece orientações específicas para projetar e codificar agentes de IA.
A seção Implantação deste documento lista exemplos de código que podem ser usados para aprender a criar e implantar sistemas de IA multiagente.
Arquitetura
O diagrama a seguir mostra a arquitetura do sistema de IA multiagente que usa um padrão de design de agente paralelo para coordenar a análise independente de dados multimodais e produzir uma única classificação.
A arquitetura mostra o seguinte fluxo de dados:
- O aplicativo da Web envia uma solicitação ao agente raiz para analisar um conjunto de dados multimodais para classificação. O agente raiz é um agente coordenador que recebe solicitações e é implantado em um serviço do Cloud Run.
- O agente raiz processa a solicitação da seguinte maneira:
- O agente raiz inicia um
before_agent_callbackpara coletar configurações de ambiente, validar a entrada do usuário e salvar caminhos de recursos em um estado de sessão compartilhada. Todos os subagentes podem acessar o estado de sessão compartilhada, o que elimina chamadas redundantes para buscar dados de estado e diminui a latência geral. - O agente raiz usa o Gemini na Vertex AI para interpretar a solicitação do usuário e distribuir tarefas para subagentes especializados que são executados em paralelo.
- O agente raiz inicia um
- Cada subagente é especializado em um domínio específico e realiza as seguintes tarefas de forma independente:
- Os subagentes de analista de imagem e vídeo interagem com servidores personalizados do Protocolo de Contexto de Modelo (MCP) para
realizar as seguintes ações:
- Buscar dados brutos não estruturados armazenados em um bucket do Cloud Storage.
- Enviar uma solicitação ao Gemini para interpretar os dados de entrada, classificar os dados e calcular um nível de confiança.
- O Gemini envia a classificação sugerida e o nível de confiança de volta ao servidor MCP personalizado.
- O servidor MCP personalizado encaminha a resposta de volta ao subagente.
- O subagente de analista de dados estruturados orquestra a análise concluindo as seguintes tarefas:
- Interage com o servidor MCP do BigQuery para buscar dados estruturados e contextuais (como registros históricos, registros de eventos ou leituras de sensores) armazenados em um conjunto de dados do BigQuery.
- O analista de dados estruturados envia uma solicitação ao Gemini para interpretar os dados de entrada, classificar os dados e calcular um nível de confiança.
- O Gemini envia a classificação sugerida e o nível de confiança de volta ao subagente.
- Os subagentes de analista de imagem e vídeo interagem com servidores personalizados do Protocolo de Contexto de Modelo (MCP) para
realizar as seguintes ações:
- Cada subagente envia a classificação sugerida e o nível de confiança de volta ao agente raiz.
- O agente raiz usa o Gemini para resumir as saídas dos subagentes especializados e produzir uma classificação única de alta confiança.
- Se a maioria das classificações dos subagentes especializados corresponder, o agente raiz enviará a classificação correspondente ao aplicativo da Web.
- Se os subagentes não fornecerem uma classificação correspondente, o agente raiz selecionará a classificação com o nível de confiança mais alto e a enviará ao aplicativo da Web.
Produtos usados
Esta arquitetura de referência usa os seguintes Google Cloud produtos e ferramentas:
- Cloud Run: uma plataforma de computação sem servidor que permite executar contêineres diretamente na infraestrutura escalonável do Google.
- Vertex AI: uma plataforma de ML que permite treinar e implantar modelos de ML e aplicativos de IA, além de personalizar LLMs para uso em aplicativos com tecnologia de IA.
- Gemini: uma família de modelos de IA multimodais desenvolvida pelo Google.
- BigQuery: um data warehouse corporativo que ajuda a gerenciar e analisar seus dados com recursos integrados, como análise geoespacial de machine learning e Business Intelligence.
- Cloud Storage: um repositório de objetos de baixo custo e sem limite para diversos tipos de dados. Os dados podem ser acessados de dentro e de fora Google Cloud, e são replicados entre locais para redundância.
- Servidores MCP do Google Cloud: serviços remotos gerenciados pelo Google que implementam o Protocolo de Contexto de Modelo (MCP) para fornecer acesso de aplicativos de IA aos produtos e serviços do Google e do Google Cloud.
- Protocolo de Contexto de Modelo (MCP): um padrão de código aberto para conectar aplicativos de IA a sistemas externos.
- Kit de Desenvolvimento de Agente (ADK): um conjunto de ferramentas e bibliotecas para desenvolver, testar e implantar agentes de IA.
Para informações sobre como selecionar componentes alternativos para seu sistema de IA agêntico incluindo framework, ambiente de execução do agente, ferramentas, memória e padrões de design, consulte Escolher os componentes da arquitetura de IA agêntica.
Caso de uso
Essa arquitetura foi projetada para casos de uso que sintetizam dados multimodais diversos para tarefas de classificação e detecção. Para maior precisão e escalabilidade, a arquitetura usa um sistema de IA multiagente em vez de uma abordagem monolítica de agente único. Esse padrão de design fornece instruções focadas, evita diretivas conflitantes, permite conjuntos de ferramentas menores para decisões mais rápidas e oferece suporte a atualizações independentes, o que leva a resultados mais robustos e sofisticados.
A seguir, apresentamos exemplos de casos de uso para a arquitetura descrita neste documento:
- Diagnóstico médico: forneça avaliações diagnósticas abrangentes implantando agentes especializados para analisar de forma independente imagens médicas, sintomas do paciente e resultados de exames laboratoriais. O sistema de IA resume essas descobertas com base em um limite de confiança determinado para fornecer insights fundamentados e verificáveis para os médicos.
- Detecção de fraudes: detecte e sinalize possíveis fraudes implantando agentes para analisar de forma independente padrões de comportamento do usuário e dados de transação, como recibos digitalizados e faturas de comerciantes. Ao fazer referência cruzada de evidências visuais de documentos com a atividade de rede digital, o sistema identifica discrepâncias e sinaliza todas as transações em que um único agente identifica um indicador suspeito.
- Processamento de documentos: automatize a classificação e a extração de informações de documentos implantando agentes especializados para reconhecimento óptico de caracteres (OCR), classificação de documentos e extração de dados. Para oferecer suporte ao processamento de alta confiança, o sistema de IA exige que todos os agentes concordem com a saída.
- Controle de qualidade: classifique a qualidade do produto ou detecte anomalias implantando agentes especializados para inspeção visual, análise de dados de sensores e verificação de especificações. O sistema determina uma aprovação ou reprovação com base em um limite de confiança determinado entre os agentes.
Considerações sobre o design
Para implementar essa arquitetura na produção, considere as seguintes recomendações:
- Segurança do agente: para limitar a capacidade de um agente de realizar ações perigosas, crie uma identidade de agente e, em seguida, proteja o acesso aos servidores MCP usando atributos do Identity and Access Management (IAM). Ao aplicar o princípio de privilégio mínimo, você pode garantir que o sistema de IA agêntico tenha o comportamento esperado e impeça o acesso de leitura/gravação não intencional aos recursos de produção.
- Segurança de entrada: para controlar o acesso ao aplicativo, desative o URL run.app padrão do serviço de front-end do Cloud Run e configure um balanceador de carga de aplicativo externo regional. Além de balancear o tráfego de entrada para o aplicativo, o balanceador de carga processa o gerenciamento de certificados SSL. Para maior proteção, use as políticas de segurança do Google Cloud Armor para fornecer filtragem de solicitações, proteção contra DDoS e limitação de taxa para o serviço.
- Segurança da imagem do contêiner: para garantir que apenas imagens de contêiner autorizadas sejam implantadas no Cloud Run, use a autorização binária. Para identificar e mitigar riscos de segurança nas imagens de contêiner, execute verificações de vulnerabilidade automaticamente usando o Artifact Analysis. Para mais informações, consulte Visão geral da verificação de contêineres.
- Comandos econômicos: o tamanho dos comandos (entrada) e das respostas geradas (saída) afeta diretamente o desempenho e o custo. Escreva comandos curtos, diretos e que forneçam contexto suficiente. Para mais informações, consulte as práticas recomendadas para o design de comandos.
- Custos de armazenamento: para controlar os custos de armazenamento, escolha a classe de armazenamento Standard e ative o gerenciamento do ciclo de vida de objetos e a Classe automática. Esses recursos ajudam a otimizar os custos movendo ou excluindo dados automaticamente entre as classes de armazenamento com base nos padrões de acesso ou nas regras definidas.
- Segurança de armazenamento: o Cloud Storage é compatível com dois métodos para controlar o acesso dos usuários aos buckets e objetos: IAM e listas de controle de acesso (ACLs). Na maioria dos casos, recomendamos usar o IAM, que permite conceder permissões no nível do bucket e do projeto. Para mais informações, consulte Visão geral do controle de acesso.
- Alocação de recursos: dependendo dos requisitos de desempenho, configure os limites de memória e limites de CPU a serem alocados ao serviço do Cloud Run. Para mais orientações sobre otimização de desempenho, consulte Dicas gerais de desenvolvimento do Cloud Run.
Para informações sobre fatores de design e práticas recomendadas, e para recomendações sobre como criar e implantar um sistema de IA multiagente, consulte Sistema de IA multiagente em Google Cloud.
Implantação
Para implantar uma implementação de exemplo dessa arquitetura, consulte o codelab Way Back Home Level 1.
A seguir
- Saiba como hospedar agentes de IA no Cloud Run.
- Saiba como criar e implantar um servidor MCP remoto no Cloud Run.
- Saiba como escolher os componentes da arquitetura de IA agêntica
- (Vídeo) Assista ao podcast The Agent Factory sobre como criar ferramentas personalizadas para agentes.
- Descoberta avançada guias de arquitetura de IA agêntica.
- Para uma visão geral dos princípios e recomendações arquitetônicas específicos para cargas de trabalho de IA e ML em Google Cloud, consulte a perspectiva de IA e ML no Well-Architected Framework.
- Para mais arquiteturas de referência, diagramas e práticas recomendadas, confira a Central de arquitetura do Cloud.
Colaboradores
Autor: Samantha He, redatora técnica
Outros colaboradores:
- Amina Mansour, chefe da equipe de avaliações do Cloud Platform
- Andrey Shakirov, arquiteto de soluções do Google Cloud
- Ayo Adedeji, engenheiro de relações com desenvolvedores
- Christina Lin, gerente de engenharia de relações com desenvolvedores
- Kumar Dhanagopal, desenvolvedor de soluções para vários produtos
- Ryan Pei, gerente de produtos do Google Cloud