Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Sistema de IA de agente único com o ADK e o Cloud Run

Last reviewed 2025-12-09 UTC

Este documento fornece uma arquitetura de referência para ajudar a criar um sistema de IA de agente único no Google Cloud. O sistema de agente único nesta arquitetura é criado através do Agent Development Kit (ADK) e é implementado no Cloud Run. Também pode implementar o agente no Vertex AI Agent Engine ou no Google Kubernetes Engine (GKE). A arquitetura usa o protocolo Model Context Protocol (MCP), que permite ao agente aceder e processar informações de várias fontes para poder fornecer estatísticas detalhadas.

Este documento destina-se a arquitetos, programadores e administradores de aplicações de IA. Parte do princípio de que tem uma compreensão básica dos conceitos de IA, aprendizagem automática (AA) e modelo de linguagem (conteúdo extenso) (MDL/CE). O documento também pressupõe que tem uma compreensão básica dos agentes e modelos de IA. Não fornece orientações específicas para a conceção e a programação de agentes de IA.

A secção Implementação deste documento apresenta exemplos de código que pode usar para saber como criar e implementar sistemas de IA de agente único.

Arquitetura

O diagrama seguinte mostra uma arquitetura para um sistema de IA de agente único implementado no Cloud Run:

Uma arquitetura de agente único implementada no Cloud Run.

Componentes de arquitetura

A arquitetura de exemplo é composta pelos seguintes componentes:

Componente	Descrição
Front-End	Os utilizadores interagem com o agente através de uma interface, como uma interface de chat, que é executada como um serviço Cloud Run sem servidor.
Agente	O agente recebe pedidos do utilizador, interpreta a intenção do utilizador, seleciona as ferramentas adequadas e, em seguida, sintetiza informações para responder a consultas.
Tempo de execução do agente	O agente é criado através do ADK e é implementado como um serviço do Cloud Run sem servidor. Também pode implementar o agente no Vertex AI Agent Engine ou como uma app contentorizada no GKE. Para ver informações sobre como escolher um tempo de execução do agente, consulte o artigo Escolha os componentes da sua arquitetura de IA agentiva.
ADK	O ADK fornece ferramentas e uma estrutura para desenvolver, testar e implementar agentes. O ADK abstrai a complexidade da criação de agentes e permite que os programadores de IA se concentrem na lógica e nas capacidades do agente. Quando desenvolve agentes através do ADK, pode configurá-los para acederem e usarem ferramentas incorporadas, como a Pesquisa Google.
Modelo de IA e tempo de execução do modelo	Para o serviço de inferência, o agente nesta arquitetura de exemplo usa o modelo de IA Gemini na Vertex AI.
Caixa de ferramentas do MCP	A caixa de ferramentas do MCP para bases de dados oferece ferramentas específicas da base de dados para o agente. Pode processar complexidades, como a pool de ligações e a autenticação.
Clientes, servidores e ferramentas do MCP	MCP facilita o acesso às ferramentas através da padronização da interação entre agentes e ferramentas. Para cada par agente-ferramenta, um cliente MCP envia pedidos a um servidor MCP através do qual o agente acede a uma ferramenta, como um sistema de ficheiros ou uma API. Por exemplo, as ferramentas externas, como a ferramenta LangChain do StackOverflow e a ferramenta de Pesquisa Google, podem fornecer dados e fundamentação.
Observabilidade	O agente é monitorizado através da Google Cloud Observability para registo, monitorização e rastreio.

Fluxo agêntico

O exemplo de sistema de agente único na arquitetura anterior tem o seguinte fluxo:

Um utilizador introduz um comando através de uma interface, como uma interface de chat, que é executada como um serviço do Cloud Run sem servidor.
O front-end encaminha o comando para o agente.
O agente usa o modelo de IA para raciocinar sobre o comando do utilizador e sintetizar uma resposta:
- O modelo de IA determina que ferramentas usar para recolher informações contextuais ou realizar uma tarefa.
- O agente faz chamadas de ferramentas e adiciona a resposta ao respetivo contexto.
- O agente realiza o enraizamento e a validação intermédia.

Produtos usados

Esta arquitetura de referência usa os seguintes produtos e ferramentas Google Cloud de código aberto:

Cloud Run: uma plataforma de computação sem servidor que lhe permite executar contentores diretamente na infraestrutura escalável da Google.
Gemini : uma família de modelos de IA multimodal desenvolvidos pela Google.

Vertex AI: uma plataforma de ML que lhe permite preparar e implementar modelos de ML e aplicações de IA, bem como personalizar MDIs/CEs para utilização em aplicações com tecnologia de IA.
Protocolo Model Context Protocol (MCP): uma norma de código aberto para ligar aplicações de IA a sistemas externos.
Caixa de ferramentas do MCP para bases de dados: um servidor de protocolo Model Context Protocol (MCP) de código aberto que permite que os agentes de IA se liguem em segurança a bases de dados através da gestão de complexidades de bases de dados, como o agrupamento de ligações, a autenticação e a observabilidade.
Observabilidade do Google Cloud: serviços de observabilidade, incluindo o Cloud Monitoring, o Cloud Logging e o Cloud Trace, para ajudar a compreender o comportamento, o estado e o desempenho das suas aplicações.

Exemplos de utilização

Esta secção descreve possíveis exemplos de utilização para a arquitetura descrita neste documento.

Triagem automatizada de relatórios de erros

Pode adaptar esta arquitetura de referência para automatizar a triagem de relatórios de erros recebidos: compreender o problema, procurar duplicados, recolher contexto técnico relevante e, em seguida, criar um erro no sistema. Um agente com tecnologia de IA pode atuar como um assistente inteligente que pode realizar a investigação inicial, o que permite que os especialistas humanos se concentrem na resolução de problemas mais complexa.

Para este exemplo de utilização, a arquitetura oferece as seguintes vantagens:

Tempos de resolução mais rápidos: o agente automatiza a investigação inicial e a recolha de contexto, o que pode reduzir significativamente o tempo necessário para atribuir e resolver pedidos de registo de erros.
Precisão e consistência melhoradas: o agente pode pesquisar sistematicamente em várias origens de dados (bases de dados internas, repositórios de código e a Web pública). Esta capacidade oferece uma análise mais abrangente e consistente do que a triagem manual.
Redução da carga de trabalho manual: o agente pode transferir tarefas de triagem repetitivas das equipas de apoio técnico de TI e engenharia, o que lhes permite focar-se em trabalho de maior valor.

Esta arquitetura é ideal para qualquer organização que desenvolva software e que queira melhorar a eficiência e a eficácia do respetivo processo de resolução de erros. Para mais informações e opções de implementação, consulte o Software Bug Assistant – Agente de exemplo do Python do ADK e As ferramentas criam um agente: do zero ao Assistente com o ADK.

Serviço de apoio ao cliente

Pode adaptar esta arquitetura de referência para ajudar a oferecer uma experiência de compras personalizada e perfeita aos clientes. Um agente com tecnologia de IA pode fornecer serviço de apoio ao cliente, recomendar produtos, gerir encomendas e agendar serviços, o que permite que os representantes humanos se concentrem noutras tarefas.

Para este exemplo de utilização, a arquitetura oferece as seguintes vantagens:

Venda adicional e promoções: o agente pode ajudar a aumentar as vendas sugerindo produtos, serviços e promoções. As sugestões do agente baseiam-se na encomenda atual do cliente e nas vendas relevantes, no histórico de encomendas do cliente e nos artigos que estão no carrinho.
Gestão de encomendas e agendamento: o agente pode aumentar a eficiência e reduzir o atrito com o cliente gerindo o conteúdo do carrinho de compras de um cliente e facilitando o autoagendamento de serviços.
Redução da carga de trabalho manual: o agente processa consultas gerais, encomendas e agendamentos, o que permite que os agentes humanos do serviço de apoio ao cliente se concentrem em problemas mais complexos dos clientes.

Esta arquitetura é ideal para qualquer organização de retalho que queira melhorar a experiência do cliente, aumentar as vendas e simplificar a gestão de encomendas e a programação. Para mais informações e opções de implementação, consulte o artigo Agente do serviço de apoio ao cliente da Cymbal Home & Garden.

Previsão de séries de tempo

Pode adaptar esta arquitetura de referência para ajudar a prever resultados, como a previsão da procura, a previsão de padrões de tráfego ou a análise e a previsão de falhas de máquinas. Um agente com tecnologia de IA pode analisar dados em tempo real, tendências do histórico e eventos futuros. O agente pode usar estas análises para prever resultados durante um período especificado. Estas previsões podem ajudar a planear e reduzir o tempo gasto por analistas de dados humanos.

Este exemplo de utilização pode beneficiar as organizações em muitos cenários, como os seguintes:

Gestão de inventário: através da utilização de estatísticas avançadas combinadas com dados de vendas históricos e tendências de mercado, o agente pode ajudar a planear encomendas de reposição para que possa preparar-se para aumentos ou diminuições na procura dos clientes.
Trajetos de viagem: o agente pode ajudar a poupar tempo e reduzir os custos de viagem para fornecedores de serviços e entregas, analisando padrões de trânsito em tempo real e históricos, juntamente com eventos como obras ou estradas cortadas.
Evite indisponibilidades: o agente pode ajudar a evitar potenciais interrupções de serviço, ajudando a identificar a causa principal das indisponibilidades históricas. Também pode ajudar a prever potenciais estados de falha futuros para que possa mitigar um problema antes que se torne um problema.

Esta arquitetura é ideal para qualquer organização que precise de se adaptar a padrões em mudança com base em tendências estabelecidas. Também é ideal para organizações cujos clientes podem beneficiar de estatísticas proativas que os ajudam a planear o futuro. Para mais informações e opções de implementação, consulte o artigo Agente de previsão de séries cronológicas com o ADK e o conjunto de ferramentas MCP da Google.

Obtenção de documentos

Pode adaptar esta arquitetura de referência para usar o Vertex AI RAG Engine e criar um agente para gerir a obtenção de dados contextuais. Um agente de obtenção de documentos pode obter dados relevantes de um conjunto organizado de documentos para fornecer respostas factuais com citações do material de origem.

Com um agente de obtenção de documentos, pode ajudar a garantir que os clientes e os utilizadores internos recebem respostas informadas e conscientes do contexto às respetivas consultas. Esta implementação pode ajudar a reduzir erros e imprecisões, garantindo que as respostas se baseiam nas informações que validou.

Uma arquitetura de obtenção de documentos é ideal para bases de conhecimentos sobre políticas e processos, infraestrutura técnica, capacidades dos produtos e outra documentação baseada em factos. Para obter informações sobre como desenvolver um agente de obtenção de documentos com tecnologia de geração aumentada por obtenção (RAG), consulte o artigo Agente de obtenção de documentação.

Alternativas de design

Esta secção apresenta abordagens de design alternativas que pode considerar para a implementação do seu agente de IA no Google Cloud.

Tempo de execução do agente

Na arquitetura descrita neste documento, o agente e as respetivas ferramentas são implementados no Cloud Run. Também pode usar o GKE ou o Vertex AI Agent Engine como um tempo de execução alternativo. Para obter informações sobre como escolher um tempo de execução do agente, consulte Tempo de execução do agente em "Escolha os componentes da arquitetura de IA generativa".

Tempo de execução do modelo de IA

Na arquitetura descrita neste documento, o tempo de execução do modelo de IA é o Vertex AI. Também pode usar o Cloud Run ou o GKE como um tempo de execução alternativo. Para obter informações sobre como escolher um tempo de execução do modelo, consulte o artigo Tempo de execução do modelo em "Escolha os componentes da arquitetura de IA baseada em agentes".

Considerações de design

Esta secção fornece orientações para ajudar a usar esta arquitetura de referência para desenvolver uma arquitetura que cumpra os seus requisitos específicos de segurança, fiabilidade, custo, eficiência operacional e desempenho.

Design do sistema

Esta secção fornece orientações para ajudar a escolher Google Cloud regiões para a sua implementação e a selecionar Google Cloud produtos e ferramentas adequados.

Seleção de região

Quando seleciona Google Cloud regiões para as suas aplicações de IA, considere os seguintes fatores:

Disponibilidade dos Google Cloud serviços em cada região.
Requisitos de latência do utilizador final.
Custo dos Google Cloud recursos.
Requisitos regulamentares.

Para selecionar Google Cloud localizações adequadas para as suas candidaturas, use as seguintes ferramentas:

Google Cloud Seletor de regiões: Uma ferramenta interativa baseada na Web para selecionar a região Google Cloud ideal para as suas aplicações e dados com base em fatores como a pegada de carbono, o custo e a latência.
API Cloud Location Finder: Uma API pública que oferece uma forma programática de encontrar localizações de implementação no Google Cloud, Google Distributed Cloud e outros fornecedores de nuvem.

Design de agentes

Esta secção apresenta recomendações gerais para a conceção de agentes de IA. As orientações detalhadas sobre como escrever código e lógica de agentes estão fora do âmbito deste documento.

Foco no design	Recomendações
Definição e design do agente	Defina claramente o objetivo de negócio do sistema de IA com agência e a tarefa que cada agente realiza. Escolha um padrão de design de agente que melhor satisfaça os seus requisitos. Use o ADK para criar, implementar e gerir de forma eficiente a sua arquitetura de agentes.
Interações do agente	Conceba os agentes orientados para o utilizador na arquitetura de modo a suportarem interações em linguagem natural. Certifique-se de que cada agente comunica claramente as respetivas ações e estado aos clientes dependentes. Conceba os agentes para detetarem e processarem consultas ambíguas e interações com nuances.
Contexto, ferramentas e dados	Certifique-se de que os agentes têm contexto suficiente para acompanhar as interações de vários turnos e os parâmetros de sessão. Descreva claramente a finalidade, os argumentos e a utilização das ferramentas que os agentes podem usar. Certifique-se de que as respostas dos agentes se baseiam em origens de dados fiáveis para reduzir as alucinações. Implemente lógica para processar situações de não correspondência, como quando um comando não está relacionado com o tema.

Memória e armazenamento da sessão

A arquitetura de exemplo apresentada neste documento não inclui memória nem armazenamento de sessões. Num ambiente de produção, pode melhorar as respostas e adicionar personalização integrando o estado e a memória no seu agente.

Sessão: Uma sessão é a sequência de conversa entre um utilizador e o agente, desde a interação inicial até ao fim do diálogo.
Estado: O estado são os dados que o agente usa e recolhe numa sessão específica. Os dados de estado recolhidos incluem o histórico de mensagens que o utilizador e o agente trocaram, os resultados de quaisquer chamadas de ferramentas e outras variáveis de que o agente precisa para compreender o contexto da conversa.

O ADK pode acompanhar as sessões na memória de curto prazo através do objeto Session e dos atributos state. O ADK também suporta memória a longo prazo em várias sessões com o mesmo utilizador, inclusive através do Memory Bank. Para armazenar o estado da sessão, também pode usar serviços como o Memorystore for Redis.

Para obter informações sobre as opções de memória do agente, consulte o artigo Escolha os componentes da arquitetura de IA agentiva.

Segurança

Esta secção descreve as considerações e as recomendações de design para criar uma topologia no Google Cloud que cumpra os requisitos de segurança da sua carga de trabalho.

Componente	Considerações e recomendações de design
Agentes	Os agentes de IA introduzem determinados riscos de segurança únicos e críticos que as práticas de segurança convencionais e determinísticas podem não conseguir mitigar adequadamente. A Google recomenda uma abordagem que combine os pontos fortes dos controlos de segurança determinísticos com defesas dinâmicas baseadas no raciocínio. Esta abordagem baseia-se em três princípios essenciais: supervisão humana, autonomia dos agentes cuidadosamente definida e observabilidade. Seguem-se recomendações específicas alinhadas com estes princípios fundamentais. Supervisão humana: por vezes, um sistema de IA autónomo pode falhar ou não ter o desempenho esperado. Por exemplo, o modelo pode gerar conteúdo incorreto ou um agente pode selecionar ferramentas inadequadas. Em sistemas de IA autónomos essenciais para a empresa, incorpore um fluxo humano no circuito para permitir que os supervisores humanos monitorizem, substituam e pausem os agentes. Por exemplo, os utilizadores humanos podem rever o resultado dos agentes, aprovar ou rejeitar os resultados e fornecer orientações adicionais para corrigir erros ou tomar decisões estratégicas. Esta abordagem combina a eficiência dos sistemas de IA baseados em agentes com o pensamento crítico e os conhecimentos especializados dos utilizadores humanos. Controlo de acesso para agentes: configure as autorizações dos agentes através dos controlos de gestão de identidade e de acesso (IAM). Conceda a cada agente apenas as autorizações de que precisa para realizar as respetivas tarefas e comunicar com ferramentas e outros agentes. Esta abordagem ajuda a minimizar o potencial impacto de uma violação de segurança, uma vez que um agente comprometido teria acesso limitado a outras partes do sistema. Para mais informações, consulte Configure a identidade e as autorizações para o seu agente e Gerir o acesso para agentes implementados. Monitorização: monitorize o comportamento do agente através de capacidades de rastreio abrangentes que lhe dão visibilidade de todas as ações que um agente realiza, incluindo o respetivo processo de raciocínio, seleção de ferramentas e caminhos de execução. Para mais informações, consulte os artigos Registar um agente no Vertex AI Agent Engine e Registar no ADK. Para mais informações sobre como proteger os agentes de IA, consulte o artigo Segurança para agentes de IA.
Vertex AI	Responsabilidade partilhada: a segurança é uma responsabilidade partilhada. O Vertex AI protege a infraestrutura subjacente e fornece ferramentas e controlos de segurança para ajudar a proteger os seus dados, código e modelos. É responsável por configurar corretamente os seus serviços, gerir os controlos de acesso e proteger as suas aplicações. Para mais informações, consulte o artigo Responsabilidade partilhada da Vertex AI. Controlos de segurança: a Vertex AI suporta Google Cloud controlos de segurança que pode usar para cumprir os seus requisitos de residência de dados, chaves de encriptação geridas pelo cliente (CMEK), segurança de rede através dos VPC Service Controls e transparência de acesso. Para mais informações, consulte a seguinte documentação: Controlos de segurança para o Vertex AI Controlos de segurança para IA generativa IA generativa e retenção de dados zero Segurança: os modelos de IA podem produzir respostas prejudiciais, por vezes, em resposta a comandos maliciosos. Para melhorar a segurança e mitigar o potencial uso indevido do sistema de IA autónomo, pode configurar filtros de conteúdo para atuarem como barreiras a entradas e respostas prejudiciais. Para mais informações, consulte Filtros de segurança e de conteúdo. Para inspecionar e limpar pedidos e respostas de inferência de ameaças como injeção de comandos e conteúdo prejudicial, pode usar o Model Armor. O Model Armor ajuda a evitar entradas maliciosas, validar a segurança do conteúdo, proteger dados confidenciais, manter a conformidade e aplicar políticas de segurança de forma consistente. Acesso ao modelo: pode configurar políticas organizacionais para limitar o tipo e as versões dos modelos de IA que podem ser usados num Google Cloud projeto. Para mais informações, consulte o artigo Controle o acesso aos modelos do Model Garden. Proteção de dados: para descobrir e desidentificar dados sensíveis nos comandos e nas respostas, bem como nos dados de registo, use a API Cloud Data Loss Prevention. Para mais informações, consulte este vídeo: Proteger dados confidenciais em apps de IA.
MCP	Quando configurar os seus agentes para usar o MCP, certifique-se de que o acesso a dados e ferramentas externos está autorizado, implemente controlos de privacidade, como a encriptação, aplique filtros para proteger dados confidenciais e monitorize as interações dos agentes. Para mais informações, consulte o artigo MCP e segurança.
A2A	Segurança de transporte: o protocolo A2A exige o HTTPS para todas as comunicações A2A em ambientes de produção e recomenda as versões 1.2 ou superiores do Transport Layer Security (TLS). Autenticação: o protocolo A2A delega a autenticação em mecanismos Web padrão, como cabeçalhos HTTP, e em normas como o OAuth2 e o OpenID Connect. Cada agente anuncia os requisitos de autenticação no respetivo cartão de agente. Para mais informações, consulte o artigo Autenticação A2A.
Cloud Run	Segurança de entrada (para o serviço de front-end): para controlar o acesso à aplicação, desative o URL `run.app` predefinido do serviço de front-end do Cloud Run e configure um Application Load Balancer externo regional. Além de equilibrar a carga do tráfego recebido para a aplicação, o balanceador de carga processa a gestão de certificados SSL. Para maior proteção, pode usar políticas de segurança do Google Cloud Armor para fornecer filtragem de pedidos, proteção DDoS e limitação de taxa para o serviço. Autenticação de utilizadores: Utilizadores na sua organização: para autenticar o acesso de utilizadores internos ao serviço Cloud Run de front-end, use o Identity-Aware Proxy (IAP). Quando um utilizador tenta aceder a um recurso protegido pelo IAP, o IAP realiza verificações de autenticação e autorização. Utilizadores fora da sua organização: para autenticar o acesso de utilizadores externos ao serviço de front-end, use a Identity Platform ou o Firebase Authentication. Para gerir o acesso de utilizadores externos, configure a sua aplicação para processar um fluxo de início de sessão e fazer chamadas de API autenticadas para o serviço Cloud Run. Para mais informações, consulte o artigo Autenticação de utilizadores. Segurança da imagem do contentor: para garantir que apenas as imagens de contentores autorizadas são implementadas no Cloud Run, pode usar a autorização binária. Para identificar e mitigar riscos de segurança nas imagens de contentores, use a análise de artefactos para executar automaticamente análises de vulnerabilidades. Para mais informações, consulte a Vista geral da análise de contentores. Residência dos dados: o Cloud Run ajuda a cumprir os requisitos de residência dos dados. As suas funções do Cloud Run são executadas na região selecionada. Para mais orientações sobre a segurança de contentores, consulte as sugestões de desenvolvimento do Cloud Run gerais.
Todos os produtos na arquitetura	Encriptação de dados: por predefinição, Google Cloud encripta os dados em repouso através do Google-owned and Google-managed encryption keys. Para proteger os dados dos seus agentes através de chaves de encriptação que controla, pode usar CMEKs que cria e gere no Cloud KMS. Para obter informações sobre os Google Cloud serviços compatíveis com o Cloud KMS, consulte Serviços compatíveis. Mitigue o risco de exfiltração de dados: para reduzir o risco de exfiltração de dados, crie um perímetro dos VPC Service Controls em torno da infraestrutura. Os VPC Service Controls suportam todos os Google Cloud serviços que esta arquitetura de referência usa. Controlo de acesso: quando configurar autorizações para os recursos na sua topologia, siga o princípio do menor privilégio. Segurança do ambiente de nuvem: use as ferramentas no Security Command Center para detetar vulnerabilidades, identificar e mitigar ameaças, definir e implementar uma postura de segurança e exportar dados para análise adicional. Otimização pós-implementação: depois de implementar a sua aplicação no Google Cloud, receba recomendações para otimizar ainda mais a segurança através do Active Assist. Reveja as recomendações e aplique-as conforme adequado para o seu ambiente. Para mais informações, consulte o artigo Encontre recomendações no Active Assist.

Mais recomendações de segurança

Fiabilidade

Esta secção descreve as considerações e as recomendações de design para criar e operar uma infraestrutura fiável para a sua implementação no Google Cloud.

Componente	Considerações e recomendações de design
Agente	Simule falhas: antes de implementar o sistema de IA com base em agentes na produção, valide-o simulando um ambiente de produção. Identificar e corrigir problemas e comportamentos inesperados. Escalar horizontalmente: para ajudar a garantir a alta disponibilidade e a tolerância a falhas, execute várias instâncias da sua aplicação de agente atrás de um balanceador de carga. Esta abordagem também pode ajudar a reduzir a latência e os limites de tempo distribuindo os pedidos pelas instâncias. Alguns tempos de execução do agente processam o equilíbrio de carga automaticamente, como com a escala automática de instâncias nos serviços do Cloud Run. Recuperar de interrupções: para ajudar a garantir que o agente consegue processar reinícios corretamente e manter o contexto, desassocie o estado do tempo de execução. Para implementar uma aplicação de agente sem estado, use um repositório de dados externo, como uma base de dados ou uma cache distribuída. Por exemplo, pode usar o Memory Bank, o Memorystore for Redis ou um serviço de base de dados como o Cloud SQL. Processar erros: para ativar o diagnóstico e a resolução de problemas, implemente mecanismos de registo, processamento de exceções e repetição.
Vertex AI	Gestão de quotas: a Vertex AI suporta a quota partilhada dinâmica (DSQ) para os modelos Gemini. O DSQ ajuda a gerir de forma flexível os pedidos de pagamento conforme o uso e elimina a necessidade de gerir a quota manualmente ou pedir aumentos de quota. O DSQ atribui dinamicamente os recursos disponíveis para um determinado modelo e região em todos os clientes ativos. Com o DSQ, não existem limites de quota predefinidos para clientes individuais. Planeamento da capacidade: se o número de pedidos ao modelo exceder a capacidade atribuída, é devolvido o código de erro 429. Para cargas de trabalho críticas para a empresa e que requerem um débito consistentemente elevado, pode reservar o débito através do débito aprovisionado. Disponibilidade do ponto final do modelo: se os dados puderem ser partilhados em várias regiões ou países, pode usar um ponto final global para o modelo.
Cloud Run	Robustez perante interrupções da infraestrutura: O Cloud Run é um serviço regional. Armazena dados sincronizados em várias zonas numa região e equilibra automaticamente a carga de tráfego nas zonas. Se ocorrer uma interrupção de uma zona, o Cloud Run continua a ser executado e os dados não são perdidos. Se ocorrer uma indisponibilidade na região, o serviço deixa de ser executado até que a Google resolva a indisponibilidade. Escala horizontal: os serviços do Cloud Run tratam da escala automática de instâncias por si. O dimensionamento automático ajuda a garantir que as instâncias conseguem processar todos os pedidos recebidos, eventos e utilização da CPU necessários para garantir a elevada disponibilidade.
Todos os produtos na arquitetura	Otimização pós-implementação: depois de implementar a sua aplicação no Google Cloud, receba recomendações para otimizar ainda mais a segurança através do Active Assist. Reveja as recomendações e aplique-as conforme adequado para o seu ambiente. Para mais informações, consulte o artigo Encontre recomendações no Active Assist.

Para ver princípios e recomendações de fiabilidade específicos das cargas de trabalho de IA e ML, consulte o artigo Perspetiva de IA e ML: fiabilidade no Well-Architected Framework.

Operações

Esta secção descreve os fatores a ter em conta quando usa esta arquitetura de referência para criar uma Google Cloud topologia que pode operar de forma eficiente.

Componente	Considerações e recomendações de design
Agente	Depuração e análise: implemente o registo estruturado na sua aplicação de agente. O registo e o rastreio permitem-lhe capturar informações importantes num formato estruturado, como as ferramentas que foram chamadas, as entradas e as saídas do agente, e a latência de cada passo.
Vertex AI	Monitorização através de registos: por predefinição, os registos do agente que são escritos nos streams `stdout` e `stderr` são encaminhados para o Cloud Logging. Para o registo avançado, pode integrar o registador do Python com o Logging. Se precisar de controlo total sobre o registo e os registos estruturados, use o cliente de registo. Para mais informações, consulte os artigos Registar um agente e Registar-se no ADK. Avaliação contínua: faça regularmente uma avaliação qualitativa do resultado dos agentes e da trajetória ou dos passos dados pelos agentes para produzir o resultado. Para implementar a avaliação de agentes, pode usar o serviço de avaliação de IA gen ou os métodos de avaliação suportados pelo ADK.
Cloud Run	Estado e desempenho: monitorize os seus serviços do Cloud Run através da Google Cloud Observability. Configure alertas na Cloud Monitoring para receber notificações sobre potenciais problemas, como um aumento nas taxas de erro, latência elevada ou utilização anormal de recursos.
Bases de dados	Estado e desempenho: monitorize a sua base de dados através da observabilidade do Google Cloud. Configure alertas na Monitorização para receber notificações sobre potenciais problemas, como um aumento das taxas de erro, latência elevada ou utilização anormal de recursos.
MCP	Ferramentas de base de dados: para gerir eficientemente as ferramentas de base de dados para os seus agentes de IA e garantir que os agentes processam em segurança complexidades como o agrupamento de ligações e a autenticação, use a caixa de ferramentas do MCP para bases de dados. Oferece uma localização centralizada para armazenar e atualizar ferramentas de base de dados. Pode partilhar as ferramentas entre agentes e atualizar as ferramentas sem reimplementar agentes. A caixa de ferramentas inclui uma vasta gama de ferramentas para Google Cloud bases de dados como o AlloyDB para PostgreSQL e para bases de dados de terceiros, como o MongoDB. Modelos de IA generativa: para permitir que os agentes de IA usem modelos de IA generativa da Google, como o Imagen e o Veo, pode usar servidores MCP para Google Cloud APIs de multimédia generativa. Produtos e ferramentas de segurança da Google: para permitir que os seus agentes de IA acedam a produtos e ferramentas de segurança da Google, como o Google Security Operations, o Google Threat Intelligence e o Security Command Center, use servidores MCP para produtos de segurança da Google.
Todos os Google Cloud produtos na arquitetura	Rastreio: recolha e analise continuamente dados de rastreio através do rastreio. Os dados de rastreio permitem-lhe identificar e diagnosticar rapidamente problemas de latência em fluxos de trabalho de agentes complexos. Pode fazer uma análise detalhada através de visualizações na página do Google Cloud explorador de rastreios da consola. Para mais informações, consulte o artigo Rastreie um agente.

Para ver princípios e recomendações de excelência operacional específicos para cargas de trabalho de IA e ML, consulte o artigo Perspetiva de IA e ML: excelência operacional no Framework Well-Architected.

Otimização de custos

Esta secção fornece orientações para otimizar o custo de configuração e funcionamento de uma topologia criada com esta arquitetura de referência. Google Cloud

Componente	Considerações e recomendações de design
Vertex AI	Análise e gestão de custos: para analisar e gerir os custos da Vertex AI, recomendamos que crie métricas de base para consultas por segundo (QPS) e tokens por segundo (TPS). Depois, monitorize estas métricas após a implementação. A base também ajuda no planeamento da capacidade. Por exemplo, a base ajuda a determinar quando o débito processado pode ser necessário. Seleção do modelo: o modelo que seleciona para a sua aplicação de IA afeta diretamente os custos e o desempenho. Para identificar o modelo que oferece um equilíbrio ideal entre o desempenho e o custo para o seu exemplo de utilização específico, teste os modelos iterativamente. Recomendamos que comece com o modelo mais económico e avance gradualmente para opções mais poderosas. Comandos rentáveis: o comprimento dos comandos (entrada) e das respostas geradas (saída) afeta diretamente o desempenho e o custo. Escreva comandos curtos, diretos e que ofereçam contexto suficiente. Crie comandos para receber respostas concisas do modelo. Por exemplo, inclua expressões como "resume em 2 frases" ou "lista 3 pontos-chave". Para mais informações, consulte as práticas recomendadas para o design de comandos. Colocação em cache de contexto: para reduzir o custo dos pedidos que contêm conteúdo repetido com um elevado número de tokens de entrada, use a colocação em cache de contexto. Pedidos em lote: quando relevante, considere a previsão em lote. Os pedidos em lote incorrem num custo inferior ao dos pedidos padrão.
Cloud Run	Atribuição de recursos: quando cria um serviço do Cloud Run, pode especificar a quantidade de memória e CPU a atribuir. Comece com as alocações de CPU e memória predefinidas. Observe a utilização de recursos e o custo ao longo do tempo e ajuste a atribuição conforme necessário. Para mais informações, consulte a seguinte documentação: Configure os limites de memória para os serviços Configure os limites de CPU para os serviços Otimização da taxa: se conseguir prever os requisitos de CPU e memória, pode poupar dinheiro com descontos por utilização garantida (CUDs).
Todos os produtos na arquitetura	Otimização pós-implementação: depois de implementar a sua aplicação no Google Cloud, receba recomendações para otimizar ainda mais o custo através do Active Assist. Reveja as recomendações e aplique-as conforme adequado para o seu ambiente. Para mais informações, consulte o artigo Encontre recomendações no Active Assist.

Componente

Considerações e recomendações de design

Vertex AI

Análise e gestão de custos: para analisar e gerir os custos da Vertex AI, recomendamos que crie métricas de base para consultas por segundo (QPS) e tokens por segundo (TPS). Depois, monitorize estas métricas após a implementação. A base também ajuda no planeamento da capacidade. Por exemplo, a base ajuda a determinar quando o débito processado pode ser necessário.

Seleção do modelo: o modelo que seleciona para a sua aplicação de IA afeta diretamente os custos e o desempenho. Para identificar o modelo que oferece um equilíbrio ideal entre o desempenho e o custo para o seu exemplo de utilização específico, teste os modelos iterativamente. Recomendamos que comece com o modelo mais económico e avance gradualmente para opções mais poderosas.

Comandos rentáveis: o comprimento dos comandos (entrada) e das respostas geradas (saída) afeta diretamente o desempenho e o custo. Escreva comandos curtos, diretos e que ofereçam contexto suficiente. Crie comandos para receber respostas concisas do modelo. Por exemplo, inclua expressões como "resume em 2 frases" ou "lista 3 pontos-chave". Para mais informações, consulte as práticas recomendadas para o design de comandos.

Colocação em cache de contexto: para reduzir o custo dos pedidos que contêm conteúdo repetido com um elevado número de tokens de entrada, use a colocação em cache de contexto.

Pedidos em lote: quando relevante, considere a previsão em lote. Os pedidos em lote incorrem num custo inferior ao dos pedidos padrão.

Cloud Run

Atribuição de recursos: quando cria um serviço do Cloud Run, pode especificar a quantidade de memória e CPU a atribuir. Comece com as alocações de CPU e memória predefinidas. Observe a utilização de recursos e o custo ao longo do tempo e ajuste a atribuição conforme necessário. Para mais informações, consulte a seguinte documentação:

Otimização da taxa: se conseguir prever os requisitos de CPU e memória, pode poupar dinheiro com descontos por utilização garantida (CUDs).

Todos os produtos na arquitetura

Otimização pós-implementação: depois de implementar a sua aplicação no Google Cloud, receba recomendações para otimizar ainda mais o custo através do Active Assist. Reveja as recomendações e aplique-as conforme adequado para o seu ambiente. Para mais informações, consulte o artigo Encontre recomendações no Active Assist.

Para estimar o custo dos seus Google Cloud recursos, use a Google Cloud calculadora de preços.

Para ver princípios e recomendações de otimização de custos específicos das cargas de trabalho de IA e ML, consulte o artigo Perspetiva de IA e ML: otimização de custos no Well-Architected Framework.

Otimização do desempenho

Esta secção descreve as considerações de design e as recomendações para criar uma topologia no Google Cloud que cumpra os requisitos de desempenho das suas cargas de trabalho.

Componente	Considerações e recomendações de design
Agentes	Seleção de modelos: quando selecionar modelos para o seu sistema de IA autónomo, considere as capacidades necessárias para as tarefas que os agentes têm de realizar. Otimização de comandos: para melhorar e otimizar rapidamente o desempenho dos comandos em grande escala e eliminar a necessidade de reescrever manualmente, use o otimizador de comandos do Vertex AI. O otimizador ajuda a adaptar os comandos de forma eficiente em diferentes modelos.
Vertex AI	Seleção do modelo: o modelo que seleciona para a sua aplicação de IA afeta diretamente os custos e o desempenho. Para identificar o modelo que oferece um equilíbrio ideal entre o desempenho e o custo para o seu exemplo de utilização específico, teste os modelos iterativamente. Recomendamos que comece com o modelo mais económico e avance gradualmente para opções mais poderosas. Engenharia de comandos: o comprimento dos comandos (entrada) e das respostas geradas (saída) afeta diretamente o desempenho e o custo. Escreva comandos curtos, diretos e que ofereçam contexto suficiente. Crie comandos para receber respostas concisas do modelo. Por exemplo, inclua expressões como "resume em 2 frases" ou "lista 3 pontos-chave". Para mais informações, consulte as práticas recomendadas para o design de comandos. Colocação em cache de contexto: para reduzir a latência de pedidos que contêm conteúdo repetido com um número elevado de tokens de entrada, use a colocação em cache de contexto.
Cloud Run	Atribuição de recursos: consoante os seus requisitos de desempenho, configure a memória e a CPU a atribuir ao serviço Cloud Run. Para mais informações, consulte a seguinte documentação: Configure os limites de memória para os serviços Configure os limites de CPU para os serviços Para mais orientações sobre a otimização do desempenho, consulte as sugestões gerais de desenvolvimento do Cloud Run.
Todos os produtos na arquitetura	Otimização pós-implementação: depois de implementar a sua aplicação no Google Cloud, receba recomendações para otimizar ainda mais o desempenho através do Active Assist. Reveja as recomendações e aplique-as conforme adequado para o seu ambiente. Para mais informações, consulte o artigo Encontre recomendações no Active Assist.

Para ver princípios e recomendações de otimização do desempenho específicos das cargas de trabalho de IA e ML, consulte o artigo Perspetiva de IA e ML: otimização do desempenho no Well-Architected Framework.

Implementação

A implementação automatizada para esta arquitetura de referência não está disponível. Use os seguintes exemplos de código para ajudar a criar uma arquitetura de agente único:

Implemente uma arquitetura semelhante implementando o Software Bug Assistant – Agente de exemplo do Python do ADK.
Saiba mais sobre a memória e o estado com o Python Tutor - ADK State and Memory Example.

Para ver exemplos de código para começar a usar o ADK juntamente com os servidores MCP, consulte as ferramentas MCP.

Para ver exemplos de sistemas de IA de agente único adicionais, pode usar os seguintes exemplos de código. Estes exemplos de código são pontos de partida totalmente funcionais para a aprendizagem e a experimentação. Para um funcionamento ideal em ambientes de produção, tem de personalizar o código com base nos requisitos específicos da sua empresa e técnicos.

Compras personalizadas: ofereça recomendações de produtos personalizadas para uma marca específica, um comerciante ou um mercado online.
Gestão de incidentes: valide o token e a identidade do utilizador final por pedido através da propagação dinâmica de identidade.
Processamento de encomendas: processe e armazene encomendas, e organize a confirmação por email com uma revisão humana condicional para quantidades de encomendas especificadas.
Engenharia de dados: desenvolver pipelines do Dataform, resolver problemas de pipelines e gerir a engenharia de dados desde consultas SQL complexas a transformações de dados e dependências de dados.
Obtenção de documentação: Use a RAG para consultar documentos que carrega para o Vertex AI RAG Engine e obter respostas com citações de documentação e código.

O que se segue?

Explore agentes e ferramentas de exemplo no Agent Garden.
Crie agentes com o ADK.
Implemente agentes para Google Cloud.
Alojamento de servidores MCP no Cloud Run.
Aloje apps e agentes de IA no Cloud Run.
Saiba como implementar uma infraestrutura de RAG para aplicações de IA generativa no Google Cloud.
Para uma vista geral dos princípios e recomendações de arquitetura específicos das cargas de trabalho de IA e ML no Google Cloud, consulte aperspetiva de IA e ML no Well-Architected Framework.
Para ver mais arquiteturas de referência, diagramas e práticas recomendadas, explore o Centro de arquitetura na nuvem.

Colaboradores

Kumar Dhanagopal | Cross-Product Solution Developer
Megan O'Keefe | Consultora de programadores
Shir Meir Lador | Developer Relations Engineering Manager

Sistema de IA de agente único com o ADK e o Cloud Run Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.