Este documento fornece uma arquitetura de alto nível para um sistema de IA multiagente implantado no Cloud Run que analisa dados multimodais diferentes e produz uma classificação de alta confiança. Essa abordagem valida cruzadamente a mídia fragmentada ao comparar dados em tempo real com informações empíricas históricas para gerar insights embasados e verificáveis.
O público-alvo deste documento inclui arquitetos, desenvolvedores e administradores que criam e gerenciam infraestrutura e aplicativos de IA na nuvem. Este documento pressupõe que você tenha um entendimento básico de agentes e modelos de IA. O documento não oferece orientações específicas para projetar e programar agentes de IA.
A seção Implantação deste documento lista exemplos de código que você pode usar para aprender a criar e implantar sistemas de IA multiagente.
Arquitetura
O diagrama a seguir mostra a arquitetura do sistema de IA multiagente que usa um padrão de design de agente paralelo para coordenar análises independentes em dados multimodais e produzir uma única classificação.
A arquitetura mostra o seguinte fluxo de dados:
- O aplicativo da Web envia uma solicitação ao agente raiz para analisar um conjunto de dados multimodais para classificação. O agente raiz é um agente coordenador que recebe solicitações e é implantado em um serviço do Cloud Run.
- O agente raiz processa a solicitação da seguinte maneira:
- O agente raiz inicia um
before_agent_callbackpara coletar configurações de ambiente, validar a entrada do usuário e salvar caminhos de recursos em um estado de sessão compartilhado. Todos os subagentes podem acessar o estado da sessão compartilhada, o que elimina chamadas redundantes para buscar dados de estado e diminui a latência geral. - O agente raiz usa o Gemini na Vertex AI para interpretar a solicitação do usuário e distribuir tarefas para subagentes especializados que são executados em paralelo.
- O agente raiz inicia um
- Cada subagente é especializado em um domínio específico e realiza as
seguintes tarefas de forma independente:
- Os subagentes de análise de imagem e vídeo interagem com servidores personalizados do Protocolo de Contexto de Modelo (MCP) para realizar as seguintes ações:
- Extrair dados brutos não estruturados armazenados em um bucket do Cloud Storage.
- Envie uma solicitação ao Gemini para interpretar os dados de entrada, classificar os dados e calcular um nível de confiança.
- O Gemini envia a classificação sugerida e o nível de confiança de volta ao servidor MCP personalizado.
- O servidor MCP personalizado encaminha a resposta de volta para o subagente.
- O subagente analista de dados estruturados orquestra a análise concluindo
as seguintes tarefas:
- Interage com o servidor MCP do BigQuery para buscar dados estruturados e contextuais (como registros históricos, registros de eventos ou leituras de sensores) armazenados em um conjunto de dados do BigQuery.
- O analista de dados estruturados envia uma solicitação ao Gemini para interpretar e classificar os dados de entrada e calcular um nível de confiança.
- O Gemini envia a classificação sugerida e o nível de confiança de volta para o subagente.
- Os subagentes de análise de imagem e vídeo interagem com servidores personalizados do Protocolo de Contexto de Modelo (MCP) para realizar as seguintes ações:
- Cada subagente envia a classificação sugerida e o nível de confiança de volta para o agente raiz.
- O agente raiz usa o Gemini para resumir as saídas dos subagentes especializados e produzir uma classificação única e de alta confiança.
- Se a maioria das classificações dos subagentes especializados corresponder, o agente raiz enviará a classificação correspondente ao aplicativo da Web.
- Se os subagentes não fornecerem uma classificação correspondente, o agente raiz vai selecionar a classificação com o maior nível de confiança e enviá-la ao aplicativo da Web.
Produtos usados
Esta arquitetura de referência usa os seguintes produtos e ferramentas do Google Cloud :
- Cloud Run: uma plataforma de computação sem servidor que permite executar contêineres diretamente na infraestrutura escalonável do Google.
- Vertex AI: uma plataforma de ML que permite treinar e implantar modelos de ML e aplicativos de IA, além de personalizar LLMs para uso em aplicativos com tecnologia de IA.
- Gemini: uma família de modelos multimodais de IA desenvolvida pelo Google.
- BigQuery: um data warehouse corporativo que ajuda a gerenciar e analisar seus dados com recursos integrados, como análise geoespacial de machine learning e Business Intelligence.
- Cloud Storage: um armazenamento de objetos de baixo custo e sem limite para diversos tipos de dados. Os dados podem ser acessados de dentro e fora Google Cloude são replicados entre locais para redundância.
- Servidores MCP do Google Cloud: serviços remotos gerenciados pelo Google que implementam o Protocolo de Contexto de Modelo (MCP) para dar aos aplicativos de IA acesso a produtos e serviços do Google e do Google Cloud.
- Protocolo de Contexto de Modelo (MCP): um padrão de código aberto para conectar aplicativos de IA a sistemas externos.
- Kit de Desenvolvimento de Agente (ADK): um conjunto de ferramentas e bibliotecas para desenvolver, testar e implantar agentes de IA.
Para informações sobre como selecionar componentes alternativos para seu sistema de IA agêntica, incluindo framework, tempo de execução do agente, ferramentas, memória e padrões de design, consulte Escolher os componentes de arquitetura de IA agêntica.
Caso de uso
Essa arquitetura foi projetada para casos de uso que sintetizam diversos dados multimodais para tarefas de classificação e detecção. Para aumentar a acurácia e a escalabilidade, a arquitetura usa um sistema de IA multiagente em vez de uma abordagem monolítica de agente único. Esse padrão de design oferece instruções focadas, evita diretivas conflitantes, permite conjuntos de ferramentas menores para decisões mais rápidas e aceita atualizações independentes, o que leva a resultados mais robustos e sofisticados.
Confira a seguir exemplos de casos de uso para a arquitetura descrita neste documento:
- Diagnóstico médico: ofereça avaliações de diagnóstico abrangentes implantando agentes especializados para analisar de forma independente imagens médicas, sintomas do paciente e resultados de laboratório. O sistema de IA resume essas descobertas com base em um limite de confiança determinado para fornecer insights embasados e verificáveis para os médicos.
- Detecção de fraudes: detecte e sinalize possíveis fraudes implantando agentes para analisar de forma independente padrões de comportamento do usuário e dados de transações, como recibos digitalizados e faturas de comerciantes. Ao fazer uma comparação cruzada entre evidências visuais de documentos e atividades de rede digital, o sistema identifica discrepâncias e sinaliza transações em que um único agente identifica um indicador suspeito.
- Processamento de documentos: automatize a classificação e a extração de informações de documentos implantando agentes especializados para reconhecimento óptico de caracteres (OCR), classificação de documentos e extração de dados. Para oferecer suporte ao processamento de alta confiança, o sistema de IA exige que todos os agentes concordem com a saída.
- Controle de qualidade: classifique a qualidade do produto ou detecte anomalias implantando agentes especializados para inspeção visual, análise de dados de sensores e verificação de especificações. O sistema determina uma aprovação ou reprovação com base em um limite de confiança determinado entre os agentes.
Considerações sobre o design
Para implementar essa arquitetura em produção, considere as seguintes recomendações:
- Segurança do agente: para limitar a capacidade de um agente de realizar ações perigosas, crie uma identidade de agente e proteja o acesso aos servidores MCP usando atributos do Identity and Access Management (IAM). Ao aplicar o princípio de privilégio mínimo, você ajuda a garantir que seu sistema de IA agêntica tenha o comportamento esperado e evite o acesso de leitura/gravação não intencional aos recursos de produção.
- Segurança de entrada:para controlar o acesso ao aplicativo, desative o URL run.app padrão do serviço do Cloud Run de front-end e configure um balanceador de carga de aplicativo externo regional. Além de balancear a carga do tráfego de entrada para o aplicativo, o balanceador de carga processa o gerenciamento de certificados SSL. Para mais proteção, use as políticas de segurança do Google Cloud Armor para fornecer filtragem de solicitações, proteção contra DDoS e limitação de taxa para o serviço.
- Segurança de imagens de contêiner:para garantir que apenas imagens de contêiner autorizadas sejam implantadas no Cloud Run, use a autorização binária. Para identificar e reduzir riscos de segurança nas imagens de contêiner, execute automaticamente verificações de vulnerabilidade usando o Artifact Analysis. Para mais informações, consulte Visão geral da verificação de contêineres.
- Comandos econômicos: o tamanho dos comandos (entrada) e das respostas geradas (saída) afeta diretamente o desempenho e o custo. Escreva comandos curtos, diretos e que forneçam contexto suficiente. Para mais informações, consulte as práticas recomendadas para design de comandos.
- Custos de armazenamento:para controlar os custos de armazenamento, escolha a classe de armazenamento Standard e ative o gerenciamento do ciclo de vida de objetos e a Classe automática. Esses recursos ajudam a otimizar os custos movendo ou excluindo automaticamente os dados entre as classes de armazenamento com base nos seus padrões de acesso ou nas regras definidas.
- Segurança de armazenamento: o Cloud Storage é compatível com dois métodos para controlar o acesso dos usuários aos buckets e objetos: IAM e listas de controle de acesso (ACLs). Na maioria dos casos, recomendamos usar o IAM, que permite conceder permissões nos níveis do bucket e do projeto. Para mais informações, consulte Visão geral do controle de acesso.
- Alocação de recursos:dependendo dos requisitos de desempenho, configure os limites de memória e limites de CPU a serem alocados para o serviço do Cloud Run. Para mais orientações sobre otimização de performance, consulte Dicas gerais de desenvolvimento do Cloud Run.
Para informações sobre fatores de design e práticas recomendadas, além de recomendações sobre como criar e implantar um sistema de IA multiagente, consulte Sistema de IA multiagente em Google Cloud.
Implantação
Para implantar uma implementação de exemplo dessa arquitetura, consulte o codelab Way Back Home Level 1.
A seguir
- Saiba como hospedar agentes de IA no Cloud Run.
- Saiba como criar e implantar um servidor MCP remoto no Cloud Run.
- Saiba como escolher os componentes da arquitetura de IA agêntica.
- (Vídeo) Assista o podcast Agent Factory sobre como criar ferramentas personalizadas para agentes.
- Confira mais guias de arquitetura de IA autônoma.
- Para uma visão geral dos princípios e recomendações de arquitetura específicos para cargas de trabalho de IA e ML no Google Cloud, consulte a perspectiva de IA e ML no framework bem arquitetado.
- Para mais arquiteturas de referência, diagramas e práticas recomendadas, confira a Central de arquitetura do Cloud.
Colaboradores
Autora: Samantha He | Redatora técnica
Outros colaboradores:
- Amina Mansour | Líder da equipe de avaliações do Cloud Platform
- Andrey Shakirov | Arquiteto de soluções, Google Cloud
- Ayo Adedeji | Engenheiro de relações com desenvolvedores
- Christina Lin | Gerente de engenheiros de relações com desenvolvedores
- Kumar Dhanagopal | Desenvolvedor de soluções para vários produtos
- Ryan Pei | Gerente de produtos, Google Cloud