Escolher os componentes da arquitetura de IA agêntica

Last reviewed 2025-11-24 UTC

Este documento oferece orientações para ajudar você a escolher componentes de arquitetura para seus aplicativos de IA agêntica em Google Cloud. Ele descreve como avaliar as características do seu aplicativo e da sua carga de trabalho para escolher um produto ou serviço adequado que melhor atenda às suas necessidades. O processo de design de uma arquitetura de IA agêntica é iterativo. Reavalie periodicamente sua arquitetura à medida que as características da carga de trabalho mudam, os requisitos evoluem ou novos produtos e recursos do Google Cloud ficam disponíveis.

Os agentes de IA são eficazes para aplicativos que resolvem problemas em aberto, que podem exigir tomada de decisões autônomas e gerenciamento complexo de fluxos de trabalho com várias etapas. Os agentes são excelentes para resolver problemas em tempo real usando dados externos e para automatizar tarefas que exigem muito conhecimento. Essas funcionalidades permitem que os agentes ofereçam mais valor comercial do que os recursos assistivos e generativos de um modelo de IA.

É possível usar agentes de IA para problemas determinísticos com etapas predefinidas. No entanto, outras abordagens podem ser mais eficientes e econômicas. Por exemplo, não é necessário um fluxo de trabalho de agente para tarefas como resumir um documento, traduzir texto ou classificar o feedback dos clientes.

Para informações sobre soluções alternativas de IA não baseadas em agentes, consulte os seguintes recursos:

Visão geral da arquitetura do agente

Um agente é um aplicativo que atinge uma meta processando entradas, realizando raciocínios com ferramentas disponíveis e tomando ações com base nas decisões. Um agente usa um modelo de IA como mecanismo de raciocínio principal para automatizar tarefas complexas. O agente usa um conjunto de ferramentas que permitem que o modelo de IA interaja com sistemas e fontes de dados externos. Um agente pode usar um sistema de memória para manter o contexto e aprender com as interações. O objetivo de uma arquitetura agêntica é criar um sistema autônomo que possa entender a intenção de um usuário, criar um plano de várias etapas e executar esse plano usando as ferramentas disponíveis.

O diagrama a seguir mostra uma visão geral de alto nível dos componentes de arquitetura de um sistema de agentes:

Os componentes da arquitetura de um sistema de agente.

A arquitetura do sistema de agente inclui os seguintes componentes:

Framework de front-end: uma coleção de componentes, bibliotecas e ferramentas pré-criados que você usa para criar a interface do usuário (UI) do seu aplicativo.
Framework de desenvolvimento de agentes: os frameworks e as bibliotecas que você usa para criar e estruturar a lógica do seu agente.
Ferramentas do agente: o conjunto de ferramentas, como APIs, serviços e funções, que buscam dados e realizam ações ou transações.
Memória do agente: o sistema que o agente usa para armazenar e recordar informações.
Padrões de design de agentes: abordagens arquitetônicas comuns para estruturar seu aplicativo agêntico.
Tempo de execução do agente: o ambiente de computação em que a lógica de aplicativo do seu agente é executada.
Modelos de IA: o principal mecanismo de raciocínio que alimenta os recursos de tomada de decisões do seu agente.
Tempo de execução do modelo: a infraestrutura que hospeda e veicula seu modelo de IA.

As seções a seguir fornecem uma análise detalhada dos componentes para ajudar você a tomar decisões sobre como criar sua arquitetura. Os componentes escolhidos influenciam a performance, a escalonabilidade, o custo e a segurança do seu agente. Este documento se concentra nos componentes arquitetônicos essenciais que você usa para criar e implantar a lógica principal de raciocínio e execução de um agente. Tópicos como estruturas de segurança de IA responsável e gerenciamento de identidade de agente são considerados fora do escopo deste documento.

Framework de front-end

O framework de front-end é um conjunto de componentes, bibliotecas e ferramentas pré-criados que você usa para criar a UI do seu aplicativo com agente. O framework de front-end escolhido define os requisitos do back-end. Uma interface simples para uma demonstração interna pode exigir apenas uma API HTTP síncrona, enquanto um aplicativo de nível de produção exige um back-end que ofereça suporte a protocolos de streaming e gerenciamento de estado robusto.

Considere as seguintes categorias de frameworks:

Prototipagem e frameworks de ferramentas internas: para desenvolvimento rápido, demonstrações internas e aplicativos de prova de conceito, escolha frameworks que priorizem a experiência e a velocidade do desenvolvedor. Esses frameworks geralmente preferem um modelo simples e síncrono chamado de modelo de solicitação-resposta. Um modelo de solicitação-resposta permite criar uma UI funcional com código mínimo e um back-end mais simples em comparação com um framework de produção. Essa abordagem é ideal para testar rapidamente a lógica do agente e as integrações de ferramentas, mas pode não ser adequada para aplicativos altamente escalonáveis e voltados ao público que exigem interações em tempo real. Estruturas comuns nessa categoria incluem Mesop e Gradio.
Frameworks de produção: para aplicativos escalonáveis, responsivos e ricos em recursos para usuários externos, escolha um framework que permita componentes personalizados. Esses frameworks exigem uma arquitetura de back-end que possa oferecer suporte a uma experiência do usuário moderna. Um framework de produção precisa incluir suporte para protocolos de streaming, um design de API sem estado e um sistema de memória robusto e externalizado para gerenciar o estado da conversa em várias sessões de usuário. Os frameworks comuns para aplicativos de produção incluem Streamlit, React e o Flutter AI Toolkit.

Para gerenciar a comunicação entre esses frameworks e seu agente de IA, use o protocolo de interação agente-usuário (AG-UI). O AG-UI é um protocolo aberto que permite que agentes de IA de back-end interajam com seu framework de front-end. A AG-UI informa ao framework do front-end quando renderizar a resposta do agente, atualizar o estado do aplicativo ou acionar uma ação do lado do cliente. Para criar aplicativos interativos de IA, combine AG-UI com o Kit de Desenvolvimento de Agente (ADK). Para informações sobre o ADK, consulte a próxima seção "Frameworks de desenvolvimento de agentes".

Frameworks de desenvolvimento de agentes

Os frameworks de desenvolvimento de agentes são bibliotecas que simplificam o processo de criar, testar e implantar aplicativos de IA agêntica. Essas ferramentas de desenvolvimento fornecem componentes e abstrações pré-criados para recursos principais do agente, incluindo ciclos de raciocínio, memória e integração de ferramentas.

Para acelerar o desenvolvimento de agentes em Google Cloud, recomendamos que você use o ADK. O ADK é um framework de código aberto, opinativo e modular que oferece um alto nível de abstração para criar e orquestrar fluxos de trabalho, desde tarefas simples até sistemas complexos com vários agentes.

O ADK é otimizado para modelos do Gemini e Google Cloud, mas foi criado para ser compatível com outras estruturas. O ADK é compatível com outros modelos de IA e runtimes. Por isso, você pode usá-lo com qualquer modelo ou método de implantação. Para sistemas multiagentes, o ADK oferece suporte à interação por estados de sessão compartilhados, delegação orientada por modelo para rotear tarefas entre agentes e invocação explícita que permite que um agente chame outro como uma função ou ferramenta.

Para ajudar você a começar rapidamente, o ADK oferece amostras de código em Python, Java e Go que demonstram vários casos de uso em vários setores. Embora muitos desses exemplos destaquem fluxos de conversa, o ADK também é adequado para criar agentes autônomos que realizam tarefas de back-end. Para esses casos de uso não interativos, escolha um padrão de design de agente que seja excelente no processamento de uma única solicitação independente e que implemente um tratamento de erros robusto.

Para criar uma arquitetura de agente personalizada, também é possível usar um framework de IA de uso geral, como o Genkit. O Genkit oferece primitivos que permitem ter controle refinado sobre a lógica do agente sem a abstração de alto nível oferecida pelo ADK. No entanto, uma estrutura de agente dedicada, como o ADK, oferece ferramentas especializadas para desenvolver aplicativos de agentes.

Ferramentas de agentes

A capacidade de um agente interagir com sistemas externos usando ferramentas define a eficácia dele. As ferramentas do agente são funções ou APIs disponíveis para o modelo de IA e que o agente usa para melhorar a saída e permitir a automação de tarefas. Quando você conecta um agente de IA a sistemas externos, as ferramentas transformam o agente de um simples gerador de texto em um sistema que pode automatizar tarefas complexas de várias etapas.

Para ativar as interações com a ferramenta, escolha um dos seguintes padrões de uso:

Caso de uso	Padrão de uso da ferramenta
Você precisa realizar uma tarefa comum, como concluir uma pesquisa na Web, fazer um cálculo ou executar um código, e quer acelerar o desenvolvimento inicial.	Ferramentas integradas
Você quer criar um sistema modular ou multiagente que exija ferramentas interoperáveis e reutilizáveis.	Protocolo de Contexto de Modelo (MCP)
Você precisa gerenciar, proteger e monitorar um grande número de ferramentas baseadas em API em escala empresarial.	Plataforma de gerenciamento de APIs
É necessário fazer a integração com uma API interna ou de terceiros específica que não tem um servidor MCP.	Ferramentas de função personalizada

Ao selecionar ferramentas para seu agente, avalie as funcionalidades e a confiabilidade operacional delas. Priorize ferramentas que sejam observáveis, fáceis de depurar e que incluam um tratamento de erros robusto. Esses recursos ajudam a garantir que você possa rastrear ações e resolver falhas rapidamente. Além disso, avalie a capacidade do agente de selecionar a ferramenta certa para concluir as tarefas atribuídas.

Ferramentas integradas

O ADK oferece várias ferramentas integradas que são integradas diretamente ao ambiente de execução do agente. Você pode chamar essas ferramentas como funções sem configurar protocolos de comunicação externos. Essas ferramentas oferecem funcionalidades comuns, incluindo acesso a informações em tempo real da Web, execução programática de código em um ambiente seguro, recuperação de informações de dados corporativos particulares para implementar RAG e interação com dados estruturados em bancos de dados na nuvem. As ferramentas integradas funcionam com qualquer ferramenta personalizada que você criar.

MCP

Para permitir que os componentes do seu sistema de agente interajam, você precisa estabelecer protocolos de comunicação claros. O MCP é um protocolo aberto que oferece uma interface padronizada para os agentes acessarem e usarem as ferramentas, os dados e outros serviços necessários.

O MCP separa a lógica de raciocínio principal do agente da implementação específica das ferramentas dele, assim como uma porta de hardware padrão permite que diferentes periféricos se conectem a um dispositivo. O MCP simplifica a integração de ferramentas porque oferece uma lista crescente de conectores pré-criados e uma maneira consistente de criar integrações personalizadas. A flexibilidade para integrar ferramentas promove a interoperabilidade entre diferentes modelos e ferramentas.

Você pode se conectar a um servidor MCP remoto, se houver um disponível, ou hospedar seu próprio servidor MCP. Ao hospedar seu próprio servidor MCP, você tem controle total sobre como expõe a API proprietária ou de terceiros aos seus agentes. Para hospedar seu próprio servidor MCP personalizado, implante-o como um aplicativo conteinerizado no Cloud Run ou no GKE.

Plataforma de gerenciamento de APIs

Uma plataforma de gerenciamento de APIs é um sistema centralizado que permite proteger, monitorar e controlar serviços internos ou externos por APIs. Uma plataforma de gerenciamento de APIs oferece um local centralizado para catalogar todas as APIs da sua organização, simplifica a maneira como você expõe os dados e oferece observabilidade por meio do monitoramento de uso.

Para gerenciar as ferramentas baseadas em API do seu agente em escala empresarial no Google Cloud, recomendamos usar o hub de APIs da Apigee. Com o hub de APIs, os agentes se conectam aos dados instantaneamente por chamadas HTTP diretas, conectores pré-criados, APIs personalizadas registradas no hub ou acesso direto a fontes de dados do Google Cloud . Essa abordagem dá aos seus agentes acesso imediato às informações necessárias sem a complexidade de criar pipelines personalizados de carregamento e integração de dados.

Uma plataforma de gerenciamento de API e um protocolo de comunicação como o MCP resolvem problemas arquitetônicos diferentes. Um protocolo de comunicação padroniza o formato de interação entre o agente e a ferramenta, o que garante que os componentes sejam reutilizáveis e possam ser trocados. Por outro lado, uma plataforma de gerenciamento de APIs governa o ciclo de vida e a segurança do endpoint de API, lidando com tarefas como autenticação, limitação de taxa e monitoramento. Esses padrões são complementares. Por exemplo, um agente pode usar o MCP para se comunicar com uma ferramenta, e essa ferramenta pode ser um endpoint de API seguro que o hub de API gerencia e protege.

Ferramenta de função personalizada

Uma ferramenta de função oferece novos recursos a um agente. Você pode escrever uma ferramenta de função personalizada para dar ao seu agente recursos especializados, como integrar com uma API externa ou um sistema comercial proprietário. Escrever uma ferramenta de função personalizada é o padrão mais comum para estender as habilidades de um agente além do que as ferramentas integradas podem oferecer.

Para criar uma ferramenta de função personalizada, escreva uma função na linguagem de programação de sua preferência e forneça uma descrição clara em linguagem natural da finalidade, dos parâmetros e dos valores de retorno dela. O modelo do agente usa essa descrição para decidir quando a ferramenta é necessária, quais entradas fornecer e como interpretar a saída para concluir a solicitação de um usuário.

Você também pode criar uma ferramenta de função personalizada que implementa uma função de agente como ferramenta. Uma função de agente como ferramenta expõe um agente como uma função chamável que outro agente pode invocar. Essa técnica permite criar sistemas multiagentes complexos em que um agente pode coordenar e delegar tarefas especializadas a outros agentes especializados. Para mais informações sobre padrões de design de agentes e coordenação de orquestração multiagente, consulte a seção sobre padrões de design de agentes mais adiante neste documento.

Memória do agente

A capacidade de um agente de lembrar interações anteriores é fundamental para oferecer uma experiência de conversa coerente e útil. Para criar agentes com estado e reconhecimento de contexto, é necessário implementar mecanismos de memória de curto e longo prazo. As seções a seguir exploram as opções de design e os serviços do Google Cloud que você pode usar para implementar a memória de curto e longo prazo no agente.

Memória de curto prazo

A memória de curto prazo permite que um agente mantenha o contexto em uma única conversa em andamento. Para implementar a memória de curto prazo, é necessário gerenciar a sessão e o estado associado a ela.

Sessão: uma sessão é a conversa entre um usuário e o agente, desde a interação inicial até o fim do diálogo.
Estado: o estado são os dados que o agente usa e coleta em uma sessão específica. Os dados de estado coletados incluem o histórico de mensagens trocadas entre o usuário e o agente, os resultados de todas as chamadas de função e outras variáveis necessárias para que o agente entenda o contexto da conversa.

Confira as opções para implementar a memória de curto prazo com o ADK:

Armazenamento na memória: para desenvolvimento, testes ou aplicativos simples que são executados em uma única instância, é possível armazenar o estado da sessão diretamente na memória do aplicativo. O agente usa uma estrutura de dados, como um dicionário ou um objeto, para armazenar uma lista de pares de chave-valor e atualiza esses valores ao longo da sessão. No entanto, quando você usa o armazenamento na memória, o estado da sessão não é persistente. Se o aplicativo for reiniciado, ele vai perder todo o histórico de conversas.
Gerenciamento de estado externo: para aplicativos de produção que exigem escalonabilidade e confiabilidade, recomendamos criar um aplicativo de agente sem estado e gerenciar o estado da sessão em um serviço de armazenamento externo. Nessa arquitetura, sempre que o aplicativo do agente recebe uma solicitação, ele recupera o estado atual da conversa da loja externa, processa o novo turno e salva o estado atualizado de volta na loja. Esse design permite escalonar o aplicativo horizontalmente, porque qualquer instância pode atender à solicitação de qualquer usuário. As opções comuns para gerenciamento de estado externo incluem Memorystore para Redis, Firestore ou sessões do Vertex AI Agent Engine.

Se você usa o ADK, o DatabaseSessionService exige um banco de dados relacional, como o Cloud SQL.

Memória de longo prazo

A memória de longo prazo fornece ao agente uma base de conhecimento persistente que existe em todas as conversas de usuários individuais. A memória de longo prazo permite que o agente recupere e use informações externas, aprenda com interações anteriores e forneça respostas mais precisas e relevantes.

Confira a seguir as opções para implementar a memória de longo prazo com o ADK:

Armazenamento na memória: para desenvolvimento e testes, é possível armazenar o estado da sessão diretamente na memória do aplicativo. Essa abordagem é simples de implementar, mas não é persistente. Se o aplicativo for reiniciado, o histórico de conversas será perdido. Normalmente, esse padrão é implementado usando um provedor na memória em uma estrutura de desenvolvimento, como o InMemoryMemoryService incluído no ADK para testes.
Armazenamento externo: para aplicativos de produção, gerencie a base de conhecimento do seu agente em um serviço de armazenamento externo e permanente. Um serviço de armazenamento externo garante que o conhecimento do seu agente seja durável, escalonável e acessível em várias instâncias de aplicativos. Use o Memory Bank para armazenamento de longo prazo com qualquer ambiente de execução do agente em Google Cloud.

Padrões de design de agentes

Os padrões de projeto de agentes são abordagens arquitetônicas comuns para criar aplicativos de agentes. Esses padrões oferecem uma estrutura distinta para organizar os componentes de um sistema, integrar o modelo de IA e orquestrar um ou vários agentes para realizar um fluxo de trabalho. Para determinar qual abordagem é melhor para seu fluxo de trabalho, considere a complexidade e o fluxo de trabalho das tarefas, latência, desempenho e requisitos de custo.

Um sistema de agente único depende das capacidades de raciocínio de um modelo para interpretar a solicitação de um usuário, planejar uma sequência de etapas e decidir quais ferramentas usar. Essa abordagem é um ponto de partida eficaz que permite refinar a lógica principal, os comandos e as definições de ferramentas antes de adicionar complexidade arquitetônica. No entanto, a performance de um único agente pode diminuir à medida que as tarefas e o número de ferramentas aumentam em complexidade.

Para problemas complexos, um sistema multiagente coordena vários agentes especializados para alcançar uma meta que um único agente não consegue gerenciar com facilidade. Esse design modular pode melhorar a escalonabilidade, a confiabilidade e a capacidade de manutenção do sistema. No entanto, ele também apresenta mais considerações de avaliação, segurança e custo em comparação com um sistema de agente único.

Ao desenvolver um sistema multiagente, é necessário implementar controles de acesso precisos para cada agente especializado, projetar um sistema de orquestração robusto para garantir uma comunicação confiável entre agentes e gerenciar o aumento dos custos operacionais devido à sobrecarga computacional da execução de vários agentes. Para facilitar a comunicação entre agentes, use o protocolo Agent2Agent (A2A) com o ADK. O A2A é um protocolo padrão aberto que permite que agentes de IA se comuniquem e colaborem em diferentes plataformas e frameworks, independentemente das tecnologias subjacentes.

Para mais informações sobre padrões de design de agentes comuns e como selecionar um padrão com base nos requisitos da sua carga de trabalho, consulte Escolher um padrão de design para seu sistema de IA agêntica.

Modelos de IA

Os aplicativos agênticos dependem das capacidades de raciocínio e compreensão de um modelo para atuar como o principal orquestrador de tarefas. Para essa função principal de agente, recomendamos usar o Gemini Pro.

Os modelos do Google, como o Gemini, oferecem acesso aos modelos reservados mais recentes e avançados por uma API gerenciada. Essa abordagem é ideal para minimizar a sobrecarga operacional. Por outro lado, um modelo aberto e auto-hospedado oferece o controle detalhado necessário para ajustes finos em dados reservados. Cargas de trabalho com requisitos rigorosos de segurança e residência de dados também exigem um modelo autohospedado, porque ele permite executar o modelo na sua própria rede.

Para melhorar a performance do agente, ajuste as capacidades de raciocínio do modelo. Modelos como os mais recentes modelos Gemini Pro e Flash têm um processo de pensamento integrado que melhora o raciocínio e o planejamento de várias etapas. Para depuração e refinamento, você pode analisar os resumos de raciocínio do modelo ou versões sintetizadas dos pensamentos internos dele para entender o caminho do raciocínio. Você pode controlar as capacidades de raciocínio do modelo ajustando o orçamento de pensamento ou o número de tokens de pensamento, com base na complexidade da tarefa. Um orçamento de pensamento maior permite que o modelo faça um raciocínio e um planejamento mais detalhados antes de dar uma resposta. Um orçamento de pensamento maior pode melhorar a qualidade da resposta, mas também pode aumentar a latência e o custo.

Para otimizar a performance e o custo, implemente o roteamento de modelos para selecionar dinamicamente o modelo mais adequado para cada tarefa com base na complexidade, no custo ou nos requisitos de latência dela. Por exemplo, é possível encaminhar solicitações simples para um modelo de linguagem pequeno (SLM) para tarefas estruturadas, como geração de código ou classificação de texto, e reservar um modelo mais eficiente e caro para raciocínio complexo. Se você implementar o roteamento de modelos no seu aplicativo agente, poderá criar um sistema econômico que mantenha um alto desempenho.

Google Cloud oferece acesso a uma ampla seleção de modelos do Google, de parceiros e abertos que podem ser usados na sua arquitetura de agente. Para mais informações sobre os modelos disponíveis e como escolher um modelo para atender às suas necessidades, consulte Model Garden na Vertex AI.

Tempo de execução do modelo

Um ambiente de execução de modelo é o ambiente que hospeda e disponibiliza seu modelo de IA e que disponibiliza os recursos de raciocínio dele para seu agente.

Escolher um ambiente de execução de modelo

Para selecionar o melhor ambiente de execução ao hospedar seus modelos de IA, use as seguintes orientações:

Caso de uso	Tempo de execução do modelo
Você precisa de uma API totalmente gerenciada para veicular modelos do Gemini, de parceiros, abertos ou personalizados com segurança, escalonamento e ferramentas de IA generativa de nível empresarial.	Vertex AI
Você precisa implantar um modelo conteinerizado aberto ou personalizado e priorizar a simplicidade e a eficiência de custo sem servidor para tráfego variável.	Cloud Run
Você precisa de controle máximo sobre a infraestrutura para executar um modelo conteinerizado aberto ou personalizado em hardware especializado ou para atender a requisitos complexos de segurança e rede.	GKE

As seções a seguir oferecem uma visão geral dos runtimes de modelo anteriores, incluindo recursos principais e considerações de design. Este documento se concentra na Vertex AI, no Cloud Run e no GKE. No entanto, Google Cloud oferece outros serviços que você pode considerar para um tempo de execução do modelo:

API Gemini: A API Gemini foi criada para desenvolvedores que precisam de acesso rápido e direto aos modelos do Gemini sem os recursos de governança empresarial que sistemas de agentes complexos costumam exigir.
Compute Engine: o Compute Engine é um produto de infraestrutura como serviço (IaaS) adequado para aplicativos legados. Ele introduz uma sobrecarga operacional significativa em comparação com os ambientes de execução modernos baseados em contêineres.

Para mais informações sobre os recursos que distinguem todas as opções de serviço para tempos de execução de modelo, consulte Infraestrutura de hospedagem de modelos.

Vertex AI

A Vertex AI oferece um ambiente sem servidor totalmente gerenciado que hospeda seus modelos de IA. É possível veicular e refinar modelos do Google, de parceiros e de código aberto usando uma API segura e escalonável. Essa abordagem abstrai todo o gerenciamento de infraestrutura e permite que você se concentre na integração da inteligência do modelo aos seus aplicativos.

Ao usar a Vertex AI como um ambiente de execução de modelo, os principais recursos e considerações incluem o seguinte:

Controle de infraestrutura: uma API totalmente gerenciada para seus modelos. O Google gerencia a infraestrutura de base.
Segurança: os padrões de segurança gerenciados e as certificações de compliance padrão são suficientes para suas necessidades. Para oferecer proteção de comandos e respostas e garantir práticas de IA responsável, é possível integrar o Model Armor à Vertex AI.
Disponibilidade de modelos: acesso a uma ampla seleção de modelos, incluindo os mais recentes do Gemini, por uma API gerenciada.
Custo: modelo de preços por utilização que é dimensionado de acordo com o tráfego do seu aplicativo. Para mais informações, consulte Custo de criação e implantação de modelos de IA na Vertex AI.

Cloud Run

O Cloud Run oferece um ambiente de execução sem servidor que hospeda seus modelos em contêineres personalizados. O Cloud Run oferece um equilíbrio entre a simplicidade totalmente gerenciada da Vertex AI e o controle profundo da infraestrutura do GKE. Essa abordagem é ideal quando você precisa da flexibilidade para executar seu modelo em um ambiente conteinerizado sem gerenciar servidores ou clusters.

Ao usar o Cloud Run como um ambiente de execução de modelo, os principais recursos e considerações incluem o seguinte:

Controle de infraestrutura: execute qualquer modelo em um contêiner personalizado, que oferece controle total sobre o ambiente de software, enquanto a plataforma gerencia a infraestrutura sem servidor subjacente.
Segurança: oferece segurança por meio de instâncias de computação efêmeras e isoladas e permite conexões seguras com recursos particulares usando a saída VPC direta ou um conector de acesso VPC sem servidor. Para mais informações, consulte Rede privada e Cloud Run.
Disponibilidade de modelos: disponibilize modelos abertos, como o Gemma, ou seus próprios modelos personalizados. Não é possível hospedar ou veicular modelos do Gemini no Cloud Run.
Custo: tem um modelo de preços por uso e com base em solicitações que é escalonado para zero, o que o torna altamente econômico para modelos com tráfego esporádico ou variável. Para mais informações, consulte Preços do Cloud Run.

GKE

O GKE oferece o máximo de controle e flexibilidade para hospedar seus modelos de IA. Para usar essa abordagem, execute os modelos em contêineres em um cluster do GKE que você configura e gerencia. O GKE é a escolha ideal quando você precisa executar modelos em hardware especializado, colocá-los com seus aplicativos para ter latência mínima ou exigir controle granular sobre todos os aspectos do ambiente de serviço.

Ao usar o GKE como um ambiente de execução de modelo, os principais recursos e considerações incluem o seguinte:

Controle de infraestrutura: oferece controle máximo e granular sobre todo o ambiente de exibição, incluindo configurações de nós, aceleradores de máquinas especializadas e o software específico de disponibilização do modelo.
Segurança: permite o mais alto nível de segurança e isolamento de dados porque permite executar modelos totalmente na sua rede e aplicar políticas de segurança refinadas do Kubernetes. Para filtrar o tráfego de e para um cluster do GKE e proteger todas as interações com os modelos de IA, integre o Model Armor ao GKE .
Disponibilidade de modelos: disponibilize modelos abertos, como o Gemma, ou seus próprios modelos personalizados. Não é possível hospedar ou disponibilizar modelos do Gemini no GKE.
Custo: apresenta um modelo de custo baseado nos recursos de computação e cluster subjacentes que você consome, o que o torna altamente otimizado para cargas de trabalho previsíveis e de alto volume quando você usa descontos por compromisso de uso (CUDs). Para mais informações, consulte Preços do Google Kubernetes Engine.

Ambiente de execução do agente

Para hospedar e implantar seu aplicativo com agentes, escolha um ambiente de execução de agente. Esse serviço executa o código do aplicativo, ou seja, a lógica de negócios e a orquestração que você escreve ao usar um framework de desenvolvimento de agentes. Nesse ambiente de execução, o aplicativo faz chamadas de API para os modelos hospedados e gerenciados pelo ambiente de execução de modelo escolhido.

Escolher um ambiente de execução do agente

Para selecionar o ambiente de execução ao hospedar seus agentes de IA, use as seguintes orientações:

Caso de uso	Ambiente de execução do agente
Seu aplicativo é um agente Python e exige uma experiência totalmente gerenciada com sobrecarga operacional mínima.	Vertex AI Agent Engine
Seu aplicativo é conteinerizado e exige escalonamento sem servidor e orientado a eventos com flexibilidade de linguagem.	Cloud Run
Seu aplicativo é conteinerizado, tem requisitos complexos com estado e precisa de uma configuração detalhada da infraestrutura.	GKE

Se você já gerencia aplicativos no Cloud Run ou no GKE, pode acelerar o desenvolvimento e simplificar as operações de longo prazo usando a mesma plataforma para sua carga de trabalho de agente.

As seções a seguir oferecem uma visão geral de cada ambiente de execução do agente, incluindo recursos principais e considerações de design.

Vertex AI Agent Engine

O Vertex AI Agent Engine é um ambiente de execução totalmente gerenciado e opinativo que pode ser usado para implantar, operar e escalonar aplicativos agênticos. O Vertex AI Agent Engine abstrai a infraestrutura subjacente, permitindo que você se concentre na lógica do agente em vez de operações.

Confira a seguir os recursos e considerações do Vertex AI Agent Engine:

Flexibilidade de linguagem de programação e framework: desenvolva agentes em Python com qualquer framework compatível.
Protocolos de comunicação: orquestre agentes e ferramentas que usam MCP e A2A. O Vertex AI Agent Engine gerencia com eficiência o tempo de execução desses componentes, mas não oferece suporte à hospedagem de servidores MCP personalizados.

Memória: oferece recursos de memória gerenciada e integrada, o que elimina a necessidade de configurar bancos de dados externos para a memória principal do agente.

Requisito	Opções disponíveis
Memória de curto prazo	Sessões do Vertex AI Agent Engine
Memória de longo prazo	Memory Bank (em inglês)
Pesquisa e recuperação de banco de dados	Cloud SQL AlloyDB para PostgreSQL

Escalonabilidade: escalona automaticamente para atender às demandas da sua carga de trabalho de agente, o que elimina a necessidade de configuração manual. O Vertex AI Agent Engine é criado no Cloud Run e usa o escalonamento automático de instâncias integrado do Cloud Run.
Observabilidade: oferece geração de registros, monitoramento e rastreamento integrados pelos serviços do Google Cloud Observability.
Segurança: oferece a seguinte confiabilidade, escalonabilidade e compliance de nível empresarial:
- Identidade de serviço integrada para chamadas seguras e autenticadas às APIs do Cloud.
- Execute código em uma sandbox segura, isolada e gerenciada com a Execução de código do Vertex AI Agent Engine.
- Proteja seus dados com sua própria chave de criptografia gerenciada pelo cliente (CMEK) no Secret Manager.
- Restrinja as permissões do IAM e use regras de firewall da VPC para evitar chamadas de rede indesejadas.
Para informações sobre recursos de segurança do Vertex AI Agent Engine, consulte Segurança empresarial.

O Vertex AI Agent Engine acelera o caminho para a produção porque oferece um ambiente gerenciado e desenvolvido especificamente que lida com muitos aspectos complexos ao operar agentes, como ciclo de vida e gerenciamento de contexto. O Vertex AI Agent Engine é menos adequado para casos de uso que exigem personalização extensa do ambiente de computação ou que exigem linguagens de programação diferentes de Python. Para cargas de trabalho com requisitos de segurança rigorosos para gerenciamento de dependências particulares, o Cloud Run e o GKE oferecem um caminho de configuração mais direto, baseado no IAM.

Cloud Run

O Cloud Run é uma plataforma sem servidor totalmente gerenciada que permite executar o código do aplicativo do agente em um contêiner sem estado. O Cloud Run é ideal quando você quer implantar todo o aplicativo agente, componentes individuais ou ferramentas personalizadas como endpoints HTTP escalonáveis sem precisar gerenciar a infraestrutura.

Confira a seguir os recursos e considerações do Cloud Run:

Flexibilidade de linguagem de programação e framework: ao empacotar seu aplicativo em um contêiner, é possível desenvolver agentes em qualquer linguagem de programação e com qualquer framework.
Protocolos de comunicação: orquestre agentes e ferramentas que usam MCP e A2A. Hospede clientes e servidores MCP com transporte HTTP transmitível no Cloud Run.

Memória: as instâncias do Cloud Run são sem estado, o que significa que uma instância perde todos os dados na memória após a conclusão. Para implementar a memória persistente, conecte seu serviço a um serviço de armazenamentoGoogle Cloud gerenciado:

Requisito	Opções disponíveis
Memória de curto prazo	Memorystore para Redis Vertex AI Agent Engine sessões com o Cloud Run Firestore ADKs `DatabaseSessionService` com o Cloud SQL
Memória de longo prazo	Firestore Memory Bank com Cloud Run
Pesquisa e recuperação de banco de dados	Cloud SQL AlloyDB para PostgreSQL

Escalonabilidade: escalona automaticamente o número de instâncias com base no tráfego de entrada e também reduz as instâncias a zero. Esse recurso ajuda a tornar o Cloud Run econômico para aplicativos com cargas de trabalho variáveis.
Observabilidade: oferece geração de registros, monitoramento e rastreamento integrados pelos serviços do Google Cloud Observability. Para mais informações, consulte a Visão geral do monitoramento e da geração de registros.
Segurança: oferece os seguintes controles de segurança para seus agentes:
- Serviço de identidade integrado para chamadas seguras e autenticadas às APIs do Cloud.
- Execute código não testado em um ambiente seguro com o ambiente de sandbox do Cloud Run ou com a execução de código do Vertex AI Agent Engine.
- Armazene dados sensíveis usados pelo Cloud Run configurando secrets no Secret Manager.
- Evite chamadas de rede indesejadas restringindo as permissões do IAM e usando regras de firewall da VPC.

O Cloud Run oferece simplicidade operacional e custo-benefício significativos porque elimina o gerenciamento da infraestrutura. No entanto, a natureza sem estado do Cloud Run exige que você use um serviço de armazenamento para gerenciar o contexto em um fluxo de trabalho de várias etapas. Além disso, o tempo limite máximo de solicitação para serviços do Cloud Run é de até uma hora, o que pode restringir tarefas de agente de longa duração.

GKE

O Google Kubernetes Engine (GKE) é um serviço gerenciado de orquestração de contêineres que oferece controle granular sobre a arquitetura e a infraestrutura do seu aplicativo de agente. O GKE é adequado para sistemas de agentes complexos que exigem recursos robustos e de nível de produção ou se você já é cliente do GKE e quer implementar um fluxo de trabalho de agente no seu aplicativo atual.

Confira abaixo os recursos e considerações disponíveis no GKE:

Flexibilidade de linguagem de programação e framework: ao empacotar seu aplicativo em um contêiner, é possível desenvolver agentes em qualquer linguagem de programação e com qualquer framework.
Protocolos de comunicação: orquestre agentes e ferramentas que usam MCP e A2A. Hospede clientes e servidores MCP no GKE ao empacotá-los como contêineres.

Memória: os pods do GKE são efêmeros. No entanto, é possível criar agentes com estado e memória persistente usando recursos no cluster ou conectando-se a serviços externos:

Requisito	Opções disponíveis
Memória de curto prazo	Memorystore para Redis Sessões do Vertex AI Agent Engine com o GKE Firestore ADKs `DatabaseSessionService` com o Cloud SQL
Memória de longo prazo	Firestore Memory Bank com GKE
Pesquisa e recuperação de banco de dados	StatefulSets e volumes permanentes para armazenamento durável no cluster. Cloud SQL AlloyDB para PostgreSQL

Escalonabilidade: os clusters do GKE provisionam automaticamente e escalonam seus pools de nós para atender aos requisitos da carga de trabalho.
Observabilidade: oferece geração de registros, monitoramento e rastreamento integrados nos níveis de cluster, nó e pod com o Google Cloud Observability. Para coletar métricas configuradas de terceiros e definidas pelo usuário e enviá-las ao Cloud Monitoring, também é possível usar o Google Cloud Managed Service para Prometheus. Para mais informações, consulte Visão geral da observabilidade do GKE.
Segurança: oferece controles de segurança refinados para seus agentes.
- Use a Federação de Identidade da Carga de Trabalho para GKE para autenticação segura nas APIs do Cloud.
- Isole o código não confiável com o GKE Sandbox.
- Armazene dados sensíveis usados pelos clusters do GKE no Secret Manager.
- Restrinja as permissões do IAM e use regras de firewall da VPC e políticas de rede para evitar chamadas de rede indesejadas.

O GKE oferece controle e flexibilidade máximos, permitindo executar agentes complexos e com estado. No entanto, esse controle introduz uma sobrecarga operacional e uma complexidade significativas. É necessário configurar e gerenciar o cluster do Kubernetes, incluindo pools de nós, rede e políticas de escalonamento, o que exige mais experiência e esforço de desenvolvimento do que uma plataforma sem servidor.

A seguir

Ferramentas de agentes:
Memória do agente:
- Lembre-se de mim: a memória nos agentes.
- Não se esqueça disso: estado e memória do agente com ADK.
Padrões de design de agente:
Ambiente de execução do agente:
Outros recursos de IA generativa no Google Cloud:
Para mais arquiteturas de referência, diagramas e práticas recomendadas, confira a Central de arquitetura do Cloud.

Colaboradores

Autora: Samantha He | Gravadora técnica

Outros colaboradores:

Amina Mansour | Líder da equipe de avaliações do Cloud Platform
Amit Maraj | Engenheiro de relações com desenvolvedores
Casey West | Defensor da arquitetura, Google Cloud
Jack Wotherspoon | Mediador de desenvolvedores
Joe Fernandez | Gravador técnico da equipe
Joe Shirey | Gerente de relações com Cloud Developers
Karl Weinmeister | Diretor de relações com desenvolvedores de produtos de nuvem
Kumar Dhanagopal | Desenvolvedor de soluções para vários produtos
Lisa Shen | Gerente sênior de produtos de saída, Google Cloud
Mandy Grover | Chefe do Centro de arquitetura
Megan O'Keefe | Mediadora de desenvolvedores
Olivier Bourgeois | Engenheiro de relações com desenvolvedores
Polong Lin | Gerente de engenharia de relações com desenvolvedores
Shir Meir Lador | Gerente de engenharia de relações com desenvolvedores
Vlad Kolesnikov | Engenheiro de relações com desenvolvedores

Escolher os componentes da arquitetura de IA agêntica Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Visão geral da arquitetura do agente

Framework de front-end

Frameworks de desenvolvimento de agentes

Ferramentas de agentes

Ferramentas integradas

MCP

Plataforma de gerenciamento de APIs

Ferramenta de função personalizada

Memória do agente

Memória de curto prazo

Memória de longo prazo

Padrões de design de agentes

Modelos de IA

Tempo de execução do modelo

Escolher um ambiente de execução de modelo

Vertex AI

Cloud Run

GKE

Ambiente de execução do agente

Escolher um ambiente de execução do agente

Vertex AI Agent Engine

Cloud Run

GKE

A seguir

Colaboradores

Escolher os componentes da arquitetura de IA agêntica