Escolha os componentes da arquitetura de IA autónoma

Last reviewed 2025-11-24 UTC

Este documento fornece orientações para ajudar a escolher componentes de arquitetura para as suas aplicações de IA autónoma no Google Cloud. Descreve como avaliar as características da sua aplicação e carga de trabalho para escolher um produto ou um serviço adequado que melhor se adapte às suas necessidades. O processo de conceção de uma arquitetura de IA baseada em agentes é iterativo. Deve reavaliar periodicamente a sua arquitetura à medida que as características da carga de trabalho mudam, os seus requisitos evoluem ou novos produtos e funcionalidades ficam disponíveis. Google Cloud

Os agentes de IA são eficazes para aplicações que resolvem problemas não específicos, que podem exigir uma tomada de decisões autónoma e uma gestão complexa de fluxos de trabalho com vários passos. Os agentes destacam-se na resolução de problemas em tempo real através da utilização de dados externos e na automatização de tarefas que exigem muitos conhecimentos. Estas capacidades permitem que os agentes ofereçam mais valor empresarial do que as capacidades de assistência e generativas de um modelo de IA.

Pode usar agentes de IA para problemas determinísticos com passos predefinidos. No entanto, outras abordagens podem ser mais eficientes e rentáveis. Por exemplo, não precisa de um fluxo de trabalho autónomo para tarefas como resumir um documento, traduzir texto ou classificar o feedback dos clientes.

Para informações sobre soluções de IA alternativas não baseadas em agentes, consulte os seguintes recursos:

Vista geral da arquitetura do agente

Um agente é uma aplicação que alcança um objetivo processando entradas, raciocinando com as ferramentas disponíveis e tomando medidas com base nas suas decisões. Um agente usa um modelo de IA como motor de raciocínio principal para automatizar tarefas complexas. O agente usa um conjunto de ferramentas que permitem ao modelo de IA interagir com sistemas externos e origens de dados. Um agente pode usar um sistema de memória para manter o contexto e aprender com as interações. O objetivo de uma arquitetura com agência é criar um sistema autónomo que possa compreender a intenção de um utilizador, criar um plano de vários passos e executar esse plano através das ferramentas disponíveis.

O diagrama seguinte mostra uma vista geral de alto nível dos componentes de arquitetura de um sistema de agentes:

Os componentes de arquitetura de um sistema agêntico.

A arquitetura do sistema de agente inclui os seguintes componentes:

Framework de front-end: uma coleção de componentes, bibliotecas e ferramentas pré-criados que usa para criar a interface do utilizador (IU) da sua aplicação.
Framework de desenvolvimento de agentes: os frameworks e as bibliotecas que usa para criar e estruturar a lógica do seu agente.
Ferramentas de agente: a coleção de ferramentas, como APIs, serviços e funções, que obtêm dados e realizam ações ou transações.
Memória do agente: o sistema que o seu agente usa para armazenar e relembrar informações.
Padrões de design de agentes: abordagens arquitetónicas comuns para estruturar a sua aplicação baseada em agentes.
Tempo de execução do agente: o ambiente de computação onde a lógica da aplicação do seu agente é executada.
Modelos de IA: o motor de raciocínio principal que alimenta as capacidades de tomada de decisões do seu agente.
Tempo de execução do modelo: a infraestrutura que aloja e apresenta o seu modelo de IA.

As secções seguintes fornecem uma análise detalhada dos componentes para ajudar a tomar decisões sobre como criar a sua arquitetura. Os componentes que escolher vão influenciar o desempenho, a escalabilidade, o custo e a segurança do seu agente. Este documento centra-se nos componentes de arquitetura essenciais que usa para criar e implementar a lógica de raciocínio e execução principal de um agente. Os tópicos como as estruturas de segurança da IA responsável e a gestão da identidade dos agentes são considerados fora do âmbito deste documento.

Framework de front-end

O framework de front-end é uma coleção de componentes, bibliotecas e ferramentas pré-criados que usa para criar a IU da sua aplicação baseada em agentes. A estrutura de front-end que escolher define os requisitos do seu back-end. Uma interface simples para uma demonstração interna pode apenas exigir uma API HTTP síncrona, enquanto uma aplicação de nível de produção requer um back-end que suporte protocolos de streaming e uma gestão de estado robusta.

Considere as seguintes categorias de frameworks:

Criação de protótipos e frameworks de ferramentas internas: para um desenvolvimento rápido, demonstrações internas e aplicações de prova de conceito, escolha frameworks que deem prioridade à experiência e à velocidade do programador. Normalmente, estas estruturas favorecem um modelo simples e síncrono denominado modelo de pedido-resposta. Um modelo de pedido-resposta permite-lhe criar uma IU funcional com um código mínimo e um back-end mais simples em comparação com uma framework de produção. Esta abordagem é ideal para testar rapidamente a lógica do agente e as integrações de ferramentas, mas pode não ser adequada para aplicações altamente escaláveis e acessíveis ao público que requerem interações em tempo real. As frameworks comuns nesta categoria incluem Mesop e Gradio.
Frameworks de produção: para aplicações escaláveis, responsivas e com muitas funcionalidades para utilizadores externos, escolha um framework que permita componentes personalizados. Estas estruturas requerem uma arquitetura de back-end que possa suportar uma experiência do utilizador moderna. Uma framework de produção deve incluir: suporte para protocolos de streaming, um design de API sem estado e um sistema de memória robusto e externalizado para gerir o estado da conversa em várias sessões de utilizador. As frameworks comuns para aplicações de produção incluem o Streamlit, o React e o Flutter AI Toolkit.

Para gerir a comunicação entre estas estruturas e o seu agente de IA, pode usar o protocolo de interação agente-utilizador (AG-UI). A AG-UI é um protocolo aberto que permite que os agentes de IA de back-end interajam com a sua framework de front-end. A AG-UI indica à framework de frontend quando renderizar a resposta do agente, atualizar o estado da aplicação ou acionar uma ação do lado do cliente. Para criar aplicações de IA interativas, combine a AG-UI com o Agent Development Kit (ADK). Para obter informações sobre o ADK, avance para a secção seguinte "Frameworks de desenvolvimento de agentes".

Frameworks de desenvolvimento de agentes

Os frameworks de desenvolvimento de agentes são bibliotecas que simplificam o processo de criação, teste e implementação de aplicações de IA baseadas em agentes. Estas ferramentas de desenvolvimento oferecem componentes pré-criados e abstrações para as capacidades principais dos agentes, incluindo ciclos de raciocínio, memória e integração de ferramentas.

Para acelerar o desenvolvimento de agentes no Google Cloud, recomendamos que use o ADK. O ADK é uma framework de código aberto, opinativa e modular que oferece um nível elevado de abstração para criar e orquestrar fluxos de trabalho, desde tarefas simples a sistemas complexos com vários agentes.

O ADK está otimizado para os modelos Gemini e Google Cloud, mas foi criado para ser compatível com outras frameworks. O ADK suporta outros modelos de IA e tempos de execução, pelo que pode usá-lo com qualquer modelo ou método de implementação. Para sistemas com vários agentes, o ADK suporta a interação através de estados de sessão partilhados, delegação orientada por modelos para encaminhar tarefas entre agentes e invocação explícita que permite a um agente chamar outro agente como uma função ou uma ferramenta.

Para ajudar a começar rapidamente, o ADK oferece exemplos de código em Python, Java e Go que demonstram uma variedade de exemplos de utilização em vários setores. Embora muitos destes exemplos realcem os fluxos de conversação, o ADK também é adequado para criar agentes autónomos que realizam tarefas de back-end. Para estes exemplos de utilização não interativos, escolha um padrão de design de agente que se destaque no processamento de um único pedido autónomo e que implemente um processamento de erros robusto.

Para criar uma arquitetura de agente personalizada, também pode usar uma framework de IA de uso geral, como o Genkit. O Genkit oferece primitivas que lhe permitem ter um controlo preciso sobre a sua lógica do agente sem a abstração de alto nível que o ADK oferece. No entanto, uma framework de agentes dedicada, como o ADK, oferece ferramentas especializadas para desenvolver aplicações baseadas em agentes.

Ferramentas de agente

A capacidade de um agente interagir com sistemas externos através de ferramentas define a sua eficácia. As ferramentas de agente são funções ou APIs que estão disponíveis para o modelo de IA e que o agente usa para melhorar o resultado e permitir a automatização de tarefas. Quando liga um agente de IA a sistemas externos, as ferramentas transformam o agente de um simples gerador de texto num sistema que pode automatizar tarefas complexas de vários passos.

Para ativar as interações com ferramentas, escolha um dos seguintes padrões de utilização de ferramentas:

Exemplo de utilização	Padrão de utilização da ferramenta
Precisa de realizar uma tarefa comum, como concluir uma pesquisa na Web, fazer um cálculo ou executar código, e quer acelerar o desenvolvimento inicial.	Ferramentas integradas
Quer criar um sistema modular ou multiagente que exija ferramentas interoperáveis e reutilizáveis.	Protocolo de contexto do modelo (MCP)
Precisa de gerir, proteger e monitorizar um grande número de ferramentas baseadas em API à escala empresarial.	Plataforma de gestão de APIs
Tem de fazer a integração com uma API interna ou de terceiros específica que não tenha um servidor MCP.	Ferramentas de funções personalizadas

Quando selecionar ferramentas para o seu agente, avalie-as com base nas respetivas capacidades funcionais e fiabilidade operacional. Dê prioridade a ferramentas que sejam observáveis, fáceis de depurar e que incluam um processamento de erros robusto. Estas capacidades ajudam a garantir que pode rastrear ações e resolver falhas rapidamente. Além disso, avalie a capacidade do agente de selecionar a ferramenta certa para concluir com êxito as tarefas atribuídas.

Ferramentas integradas

O ADK oferece várias ferramentas incorporadas que estão integradas diretamente no tempo de execução do agente. Pode chamar estas ferramentas como funções sem configurar protocolos de comunicação externos. Estas ferramentas oferecem funcionalidades comuns, incluindo o acesso a informações em tempo real da Web, a execução de código de forma programática num ambiente seguro, a obtenção de informações de dados empresariais privados para implementar a RAG e a interação com dados estruturados em bases de dados na nuvem. As ferramentas incorporadas funcionam em conjunto com as ferramentas personalizadas que criar.

MCP

Para permitir que os componentes do seu sistema de agentes interajam, tem de estabelecer protocolos de comunicação claros. MCP é um protocolo aberto que fornece uma interface padronizada para os agentes acederem e usarem as ferramentas, os dados e outros serviços necessários.

O MCP desassocia a lógica de raciocínio principal do agente da implementação específica das respetivas ferramentas, de forma semelhante à forma como uma porta de hardware padrão permite que diferentes periféricos se liguem a um dispositivo. A MCP simplifica a integração de ferramentas porque oferece uma lista crescente de conectores pré-criados e uma forma consistente de criar integrações personalizadas. A flexibilidade de integrar ferramentas promove a interoperabilidade em diferentes modelos e ferramentas.

Pode estabelecer ligação a um servidor MCP remoto, se estiver disponível, ou alojar o seu próprio servidor MCP. Quando aloja o seu próprio servidor MCP, tem controlo total sobre a forma como expõe a API proprietária ou de terceiros aos seus agentes. Para alojar o seu próprio servidor MCP personalizado, implemente-o como uma aplicação contentorizada no Cloud Run ou no GKE.

Plataforma de gestão de APIs

Uma plataforma de gestão de APIs é um sistema centralizado que lhe permite proteger, monitorizar e controlar serviços internos ou externos através de APIs. Uma plataforma de gestão de APIs oferece uma localização centralizada para catalogar todas as APIs da sua organização, simplifica a forma como expõe os dados e oferece observabilidade através da monitorização da utilização.

Para gerir as ferramentas baseadas em API do seu agente à escala empresarial no Google Cloud, recomendamos que use o hub de APIs da Apigee. O hub de APIs permite que os agentes se liguem instantaneamente aos dados através de chamadas HTTP diretas, conectores pré-criados, APIs personalizadas registadas no hub ou acesso direto a origens de dados. Google Cloud Esta abordagem dá aos seus agentes acesso imediato às informações de que precisam sem a complexidade de criar pipelines de carregamento e integração de dados personalizados.

Uma plataforma de gestão de APIs e um protocolo de comunicação como o MCP resolvem problemas de arquitetura diferentes. Um protocolo de comunicação normaliza o formato de interação entre o agente e a ferramenta, o que garante que os componentes são reutilizáveis e podem ser trocados. Por outro lado, uma plataforma de gestão de APIs rege o ciclo de vida e a segurança do ponto final da API, processando tarefas como autenticação, limites de taxa e monitorização. Estes padrões são complementares. Por exemplo, um agente pode usar o MCP para comunicar com uma ferramenta e, por sua vez, essa ferramenta pode ser um ponto final de API seguro que o hub de APIs gere e proteja.

Ferramenta de funções personalizadas

Uma ferramenta de função dá novas capacidades a um agente. Pode escrever uma ferramenta de função personalizada para dar ao seu agente capacidades especializadas, como a integração com uma API externa ou um sistema empresarial proprietário. Escrever uma ferramenta de função personalizada é o padrão mais comum para expandir as capacidades de um agente além do que as ferramentas incorporadas podem oferecer.

Para criar uma ferramenta de função personalizada, escreve uma função na sua linguagem de programação preferida e, em seguida, fornece uma descrição clara em linguagem natural do respetivo objetivo, parâmetros e valores de devolução. O modelo do agente usa esta descrição para raciocinar sobre quando a ferramenta é necessária, que entradas fornecer e como interpretar o resultado para concluir o pedido de um utilizador.

Também pode criar uma ferramenta de função personalizada que implemente uma função de agente como ferramenta. Uma função de agente como ferramenta expõe um agente como uma função invocável que outro agente pode invocar. Esta técnica permite-lhe criar sistemas complexos com vários agentes, em que um agente pode coordenar e delegar tarefas especializadas a outros agentes especializados. Para mais informações sobre padrões de design de agentes e coordenação da orquestração multiagente, consulte a secção sobre padrões de design de agentes mais adiante neste documento.

Memória do agente

A capacidade de um agente se lembrar de interações anteriores é fundamental para oferecer uma experiência conversacional coerente e útil. Para criar agentes com estado e conscientes do contexto, tem de implementar mecanismos para memória a curto prazo e memória a longo prazo. As secções seguintes exploram as opções de design e os serviços que pode usar para implementar a memória a curto e longo prazo para o seu agente. Google Cloud

Memória de curto prazo

A memória de curto prazo permite que um agente mantenha o contexto numa única conversa em curso. Para implementar a memória de curto prazo, tem de gerir a sessão e o respetivo estado associado.

Sessão: Uma sessão é a sequência de conversa entre um utilizador e o agente, desde a interação inicial até ao fim do diálogo.
Estado: O estado são os dados que o agente usa e recolhe numa sessão específica. Os dados de estado recolhidos incluem o histórico de mensagens que o utilizador e o agente trocaram, os resultados de quaisquer chamadas de ferramentas e outras variáveis de que o agente precisa para compreender o contexto da conversa.

Seguem-se as opções para implementar a memória de curto prazo com o ADK:

Armazenamento na memória: para desenvolvimento, testes ou aplicações simples que são executadas numa única instância, pode armazenar o estado da sessão diretamente na memória da sua aplicação. O agente usa uma estrutura de dados, como um dicionário ou um objeto, para armazenar uma lista de pares de chave/valor e atualiza estes valores ao longo da sessão. No entanto, quando usa o armazenamento na memória, o estado da sessão não é persistente. Se a aplicação for reiniciada, perde todo o histórico de conversas.
Gestão de estado externo: para aplicações de produção que requerem escalabilidade e fiabilidade, recomendamos que crie uma aplicação de agente sem estado e faça a gestão do estado da sessão num serviço de armazenamento externo. Nesta arquitetura, sempre que a aplicação do agente recebe um pedido, esta obtém o estado atual da conversa na loja externa, processa o novo turno e, em seguida, guarda o estado atualizado novamente na loja. Este design permite-lhe dimensionar a sua aplicação horizontalmente, porque qualquer instância pode processar o pedido de qualquer utilizador. As opções comuns para a gestão de estados externos incluem o Memorystore for Redis, o Firestore ou as sessões do Vertex AI Agent Engine.

Se usar o ADK, o DatabaseSessionService requer uma base de dados relacional, como o Cloud SQL.

Memória a longo prazo

A memória a longo prazo oferece ao agente uma base de conhecimentos persistente que existe em todas as conversas para utilizadores individuais. A memória a longo prazo permite que o agente obtenha e use informações externas, aprenda com interações anteriores e forneça respostas mais precisas e relevantes.

Seguem-se as opções para implementar a memória a longo prazo com o ADK:

Armazenamento na memória: para desenvolvimento e testes, pode armazenar o estado da sessão diretamente na memória da sua aplicação. Esta abordagem é simples de implementar, mas não é persistente. Se a aplicação for reiniciada, perde o histórico de conversas. Normalmente, implementa este padrão usando um fornecedor na memória numa framework de desenvolvimento, como o InMemoryMemoryService incluído no ADK para testes.
Armazenamento externo: para aplicações de produção, faça a gestão da base de conhecimentos do seu agente num serviço de armazenamento externo persistente. Um serviço de armazenamento externo garante que o conhecimento do seu agente é duradouro, escalável e acessível em várias instâncias da aplicação. Use o Banco de memória para armazenamento a longo prazo com qualquer tempo de execução do agente no Google Cloud.

Padrões de design de agentes

Os padrões de design de agentes são abordagens arquitetónicas comuns para criar aplicações baseadas em agentes. Estes padrões oferecem uma framework distinta para organizar os componentes de um sistema, integrar o modelo de IA e orquestrar um único agente ou vários agentes para realizar um fluxo de trabalho. Para determinar que abordagem é melhor para o seu fluxo de trabalho, tem de considerar a complexidade e o fluxo de trabalho das suas tarefas, os requisitos de latência, desempenho e custo.

Um sistema de agente único baseia-se nas capacidades de raciocínio de um modelo para interpretar o pedido de um utilizador, planear uma sequência de passos e decidir que ferramentas usar. Esta abordagem é um ponto de partida eficaz que lhe permite focar-se no refinamento da lógica principal, dos comandos e das definições das ferramentas antes de adicionar complexidade arquitetónica. No entanto, o desempenho de um único agente pode degradar-se à medida que as tarefas e o número de ferramentas aumentam em complexidade.

Para problemas complexos, um sistema multiagente coordena vários agentes especializados para alcançar um objetivo que um único agente não consegue gerir facilmente. Este design modular pode melhorar a escalabilidade, a fiabilidade e a capacidade de manutenção do sistema. No entanto, também introduz considerações adicionais de avaliação, segurança e custos em comparação com um sistema de agente único.

Quando desenvolve um sistema multiagente, tem de implementar controlos de acesso precisos para cada agente especializado, criar um sistema de orquestração robusto para garantir uma comunicação fiável entre agentes e gerir os custos operacionais aumentados da sobrecarga computacional da execução de vários agentes. Para facilitar a comunicação entre agentes, use o protocolo Agent2Agent (A2A) com o ADK. A A2A é um protocolo de norma aberta que permite que os agentes de IA comuniquem e colaborem em diferentes plataformas e frameworks, independentemente das respetivas tecnologias subjacentes.

Para mais informações sobre padrões de design de agentes comuns e como selecionar um padrão com base nos requisitos da sua carga de trabalho, consulte o artigo Escolha um padrão de design para o seu sistema de IA com agentes.

Modelos de IA

As aplicações com agentes dependem das capacidades de raciocínio e compreensão de um modelo para atuarem como o orquestrador de tarefas principal. Para esta função de agente principal, recomendamos que use o Gemini Pro.

Os modelos Google, como o Gemini, oferecem acesso aos modelos proprietários mais recentes e mais avançados através de uma API gerida. Esta abordagem é ideal para minimizar as despesas gerais operacionais. Por outro lado, um modelo aberto e autoalojado oferece o controlo detalhado necessário quando faz o ajuste preciso em dados proprietários. As cargas de trabalho com requisitos rigorosos de segurança e residência de dados também requerem um modelo alojado por si, porque lhe permite executar o modelo na sua própria rede.

Para melhorar o desempenho do agente, pode ajustar as capacidades de raciocínio do modelo. Os modelos, como os mais recentes modelos Gemini Pro e Flash, incluem um processo de raciocínio integrado que melhora o raciocínio e o planeamento de vários passos. Para depuração e refinamento, pode rever os resumos de pensamento do modelo ou as versões sintetizadas dos seus pensamentos internos para compreender o seu caminho de raciocínio. Pode controlar as capacidades de raciocínio do modelo ajustando o orçamento de raciocínio ou o número de tokens de raciocínio, com base na complexidade da tarefa. Um orçamento de processamento mais elevado permite que o modelo execute um raciocínio e um planeamento mais detalhados antes de fornecer uma resposta. Um orçamento de raciocínio mais elevado pode melhorar a qualidade das respostas, mas também pode aumentar a latência e o custo.

Para otimizar o desempenho e o custo, implemente o encaminhamento de modelos para selecionar dinamicamente o modelo mais adequado para cada tarefa com base nos requisitos de complexidade, custo ou latência da tarefa. Por exemplo, pode encaminhar pedidos simples para um modelo de linguagem pequeno (SLM) para tarefas estruturadas, como geração de código ou classificação de texto, e reservar um modelo mais potente e caro para raciocínio complexo. Se implementar o encaminhamento de modelos na sua aplicação de agente, pode criar um sistema rentável que mantenha um elevado desempenho.

Google Cloud oferece acesso a uma vasta seleção de modelos Google, modelos de parceiros e modelos abertos que pode usar na sua arquitetura de agência. Para mais informações sobre os modelos disponíveis e como escolher um modelo adequado às suas necessidades, consulte o Model Garden no Vertex AI.

Tempo de execução do modelo

Um tempo de execução do modelo é o ambiente que aloja e disponibiliza o seu modelo de IA e que disponibiliza as respetivas capacidades de raciocínio ao seu agente.

Escolha um tempo de execução do modelo

Para selecionar o melhor tempo de execução quando aloja os seus modelos de IA, use as seguintes orientações:

Exemplo de utilização	Tempo de execução do modelo
Precisa de uma API totalmente gerida para publicar modelos do Gemini, modelos de parceiros, modelos abertos ou modelos personalizados com segurança, escalabilidade e ferramentas de IA generativa de nível empresarial.	Vertex AI
Tem de implementar um modelo contentorizado aberto ou personalizado e dar prioridade à simplicidade sem servidor e à rentabilidade para tráfego variável.	Cloud Run
Precisa do máximo controlo sobre a infraestrutura para executar um modelo contentorizado aberto ou personalizado em hardware especializado ou para cumprir requisitos complexos de segurança e rede.	GKE

As secções seguintes oferecem uma vista geral dos tempos de execução do modelo anterior, incluindo as principais funcionalidades e considerações de design. Este documento foca-se no Vertex AI, no Cloud Run e no GKE. No entanto, Google Cloud oferece outros serviços que pode considerar para um tempo de execução do modelo:

API Gemini: A API Gemini foi concebida para programadores que precisam de acesso rápido e direto aos modelos Gemini sem as funcionalidades de governação empresarial que os sistemas de agentes complexos requerem frequentemente.
Compute Engine: O Compute Engine é um produto de infraestrutura como serviço (IaaS) adequado para aplicações antigas. Introduz custos operacionais significativos em comparação com os tempos de execução modernos baseados em contentores.

Para mais informações sobre as funcionalidades que distinguem todas as opções de serviço para tempos de execução de modelos, consulte o artigo Infraestrutura de alojamento de modelos.

Vertex AI

A Vertex AI oferece um ambiente sem servidor totalmente gerido que aloja os seus modelos de IA. Pode publicar e otimizar os modelos da Google, os modelos de parceiros e os modelos abertos através de uma API segura e escalável. Esta abordagem abstrai toda a gestão de infraestrutura e permite-lhe focar-se na integração da inteligência do modelo nas suas aplicações.

Quando usa o Vertex AI como tempo de execução do modelo, as principais funcionalidades e considerações incluem o seguinte:

Controlo da infraestrutura: uma API totalmente gerida para os seus modelos. A Google gere a infraestrutura subjacente.
Segurança: as predefinições de segurança geridas e as certificações de conformidade padrão são suficientes para as suas necessidades. Para oferecer proteção de comandos e respostas e garantir práticas de IA responsáveis, pode integrar o Model Armor no Vertex AI.
Disponibilidade de modelos: acesso a uma vasta seleção de modelos, incluindo os modelos Gemini mais recentes, através de uma API gerida.
Custo: modelo de preços de pagamento por utilização que se adapta ao tráfego da sua aplicação. Para mais informações, consulte o artigo Custo da criação e implementação de modelos de IA na Vertex AI.

Cloud Run

O Cloud Run oferece um tempo de execução sem servidor que aloja os seus modelos em contentores personalizados. O Cloud Run oferece um equilíbrio entre a simplicidade totalmente gerida do Vertex AI e o controlo profundo da infraestrutura do GKE. Esta abordagem é ideal quando precisa da flexibilidade para executar o seu modelo num ambiente em contentores sem gerir servidores nem clusters.

Quando usa o Cloud Run como tempo de execução do modelo, as principais funcionalidades e considerações incluem o seguinte:

Controlo da infraestrutura: execute qualquer modelo num contentor personalizado, que oferece controlo total sobre o ambiente de software, enquanto a plataforma gere a infraestrutura sem servidores subjacente.
Segurança: oferece segurança através de instâncias de computação isoladas e efémeras e permite ligações seguras a recursos privados através da saída da VPC direta ou de um conetor do Acesso a VPC sem servidor. Para mais informações, consulte o artigo Redes privadas e Cloud Run.
Disponibilidade do modelo: publique modelos abertos, como o Gemma, ou publique os seus próprios modelos personalizados. Não pode alojar nem publicar modelos Gemini no Cloud Run.
Custo: apresenta um modelo de preços de pagamento por utilização baseado em pedidos que é dimensionado para zero, o que o torna altamente rentável para modelos com tráfego esporádico ou variável. Para mais informações, consulte os preços do Cloud Run.

GKE

O GKE oferece o maior controlo e flexibilidade para alojar os seus modelos de IA. Para usar esta abordagem, executa os seus modelos em contentores num cluster do GKE que configura e gere. O GKE é a escolha ideal quando precisa de executar modelos em hardware especializado, colocá-los juntamente com as suas aplicações para ter uma latência mínima ou necessita de um controlo detalhado sobre todos os aspetos do ambiente de publicação.

Quando usa o GKE como tempo de execução do modelo, as principais funcionalidades e considerações incluem o seguinte:

Controlo da infraestrutura: oferece o controlo máximo e detalhado de todo o ambiente de publicação, incluindo configurações de nós, aceleradores de máquinas especializados e o software de publicação de modelos específico.
Segurança: permite o nível mais elevado de segurança e isolamento de dados, uma vez que lhe permite executar modelos inteiramente na sua rede e aplicar políticas de segurança do Kubernetes detalhadas. Para filtrar o tráfego de e para um cluster do GKE e proteger todas as interações com os modelos de IA, pode integrar o Model Armor com o GKE .
Disponibilidade do modelo: publique modelos abertos, como o Gemma, ou publique os seus próprios modelos personalizados. Não pode alojar nem publicar modelos Gemini no GKE.
Custo: apresenta um modelo de custo baseado nos recursos de computação e de cluster subjacentes que consome, o que o torna altamente otimizado para cargas de trabalho previsíveis e de grande volume quando usa descontos por utilização garantida (CUDs). Para mais informações, consulte os preços do Google Kubernetes Engine.

Tempo de execução do agente

Para alojar e implementar a sua aplicação com agentes, tem de escolher um tempo de execução de agentes. Este serviço executa o código da sua aplicação, a lógica empresarial e a organização que escreve quando usa uma estrutura de desenvolvimento de agentes. A partir deste tempo de execução, a sua aplicação faz chamadas de API para os modelos que o tempo de execução do modelo escolhido aloja e gere.

Escolha um tempo de execução do agente

Para selecionar o tempo de execução quando aloja os seus agentes de IA, use as seguintes orientações:

Exemplo de utilização	Tempo de execução do agente
A sua aplicação é um agente Python e requer uma experiência totalmente gerida com custos operacionais mínimos.	Vertex AI Agent Engine
A sua aplicação está contentorizada e requer escalabilidade sem servidor, orientada por eventos e com flexibilidade de linguagem.	Cloud Run
A sua aplicação está contentorizada, tem requisitos com estado complexos e precisa de uma configuração de infraestrutura detalhada.	GKE

Se já gere aplicações no Cloud Run ou no GKE, pode acelerar o desenvolvimento e simplificar as operações a longo prazo usando a mesma plataforma para a sua carga de trabalho baseada em agentes.

As secções seguintes fornecem uma vista geral de cada tempo de execução do agente, incluindo as principais funcionalidades e considerações de design.

Vertex AI Agent Engine

O Vertex AI Agent Engine é um tempo de execução totalmente gerido e com opiniões que pode usar para implementar, operar e dimensionar aplicações baseadas em agentes. O Vertex AI Agent Engine abstrai a infraestrutura subjacente, o que lhe permite focar-se na lógica do agente em vez das operações.

Seguem-se as funcionalidades e as considerações para o Vertex AI Agent Engine:

Flexibilidade da linguagem de programação e da framework: desenvolva agentes em Python com quaisquer frameworks suportadas.
Protocolos de comunicação: orquestre agentes e ferramentas que usam o MCP e o A2A. O Vertex AI Agent Engine gere de forma eficiente o tempo de execução destes componentes, mas não suporta a alojamento de servidores MCP personalizados.

Memória: oferece capacidades de memória geridas incorporadas, o que elimina a necessidade de configurar bases de dados externas para a memória do agente principal.

Requisito	Opções disponíveis
Memória de curto prazo	Sessões do Vertex AI Agent Engine
Memória a longo prazo	Memory Bank
Pesquisa e obtenção de bases de dados	Cloud SQL AlloyDB para PostgreSQL

Escalabilidade: dimensiona-se automaticamente para satisfazer as exigências da sua carga de trabalho de agente, o que elimina a necessidade de configuração manual. O Vertex AI Agent Engine é criado no Cloud Run e usa o dimensionamento de instâncias incorporado do Cloud Run para fornecer este dimensionamento automático.
Observabilidade: fornece registos, monitorização e rastreio integrados através dos serviços de observabilidade do Google Cloud.
Segurança: oferece a seguinte fiabilidade, escalabilidade e conformidade ao nível empresarial:
- Identidade do serviço incorporada para chamadas seguras e autenticadas para as APIs Google Cloud.
- Execute código numa sandbox segura, isolada e gerida com a execução de código do Vertex AI Agent Engine.
- Proteja os seus dados com a sua própria chave de encriptação gerida pelo cliente (CMEK) no Secret Manager.
- Restrinja as autorizações do IAM e use regras de firewall da VPC para impedir chamadas de rede indesejadas.
Para obter informações sobre as funcionalidades de segurança do Vertex AI Agent Engine, consulte o artigo Segurança empresarial.

O Vertex AI Agent Engine acelera o caminho para a produção porque oferece um ambiente gerido e criado especificamente que processa muitos aspetos complexos quando opera agentes, como a gestão do ciclo de vida e do contexto. O Vertex AI Agent Engine é menos adequado para exemplos de utilização que requerem uma personalização extensiva do ambiente de computação ou que requerem linguagens de programação que não sejam Python. Para cargas de trabalho que tenham requisitos de segurança rigorosos para a gestão de dependências privadas, o Cloud Run e o GKE oferecem um caminho de configuração mais direto baseado na IAM.

Cloud Run

O Cloud Run é uma plataforma sem servidores totalmente gerida que lhe permite executar o código da aplicação do seu agente num contentor sem estado. O Cloud Run é ideal quando quer implementar toda a aplicação do agente, componentes individuais ou ferramentas personalizadas como pontos finais HTTP escaláveis sem ter de gerir a infraestrutura subjacente.

Seguem-se as funcionalidades e as considerações para o Cloud Run:

Flexibilidade da linguagem de programação e da framework: quando cria um pacote da sua aplicação num contentor, pode desenvolver agentes em qualquer linguagem de programação e com qualquer framework.
Protocolos de comunicação: orquestre agentes e ferramentas que usam MCP e A2A. Alojamento de clientes e servidores MCP com transporte HTTP streamable no Cloud Run.

Memória: as instâncias do Cloud Run não têm estado, o que significa que uma instância perde todos os dados na memória após a terminação. Para implementar a memória persistente, associe o seu serviço a umGoogle Cloud serviço de armazenamento gerido:

Requisito	Opções disponíveis
Memória de curto prazo	Memorystore para Redis Sessões do Vertex AI Agent Engine com o Cloud Run Firestore ADKs `DatabaseSessionService` com o Cloud SQL
Memória a longo prazo	Firestore Banco de memória com o Cloud Run
Pesquisa e obtenção de bases de dados	Cloud SQL AlloyDB para PostgreSQL

Escalabilidade: dimensiona automaticamente o número de instâncias com base no tráfego recebido e também reduz as instâncias para zero. Esta funcionalidade ajuda a tornar o Cloud Run rentável para aplicações com cargas de trabalho variáveis.
Observabilidade: oferece registo, monitorização e rastreio integrados através dos serviços de observabilidade do Google Cloud. Para mais informações, consulte a vista geral da monitorização e do registo.
Segurança: fornece os seguintes controlos de segurança para os seus agentes:
- Serviço de identidade integrado para chamadas seguras e autenticadas para APIs Google Cloud.
- Execute código não testado num ambiente seguro com o ambiente de sandbox do Cloud Run ou com a execução de código do Vertex AI Agent Engine.
- Armazene dados confidenciais que o Cloud Run usa configurando segredos no Secret Manager.
- Impeça chamadas de rede indesejadas restringindo as autorizações do IAM e usando regras de firewall da VPC.

O Cloud Run oferece uma simplicidade operacional significativa e rentabilidade, uma vez que elimina a gestão da infraestrutura. No entanto, a natureza sem estado do Cloud Run requer que use um serviço de armazenamento para gerir o contexto num fluxo de trabalho de vários passos. Além disso, o tempo limite máximo do pedido para os serviços do Cloud Run é de até uma hora, o que pode restringir as tarefas de agente de longa duração.

GKE

O Google Kubernetes Engine (GKE) é um serviço de orquestração de contentores gerido que oferece um controlo detalhado sobre a arquitetura e a infraestrutura da sua aplicação baseada em agentes. O GKE é adequado para sistemas com agentes complexos que requerem capacidades robustas de nível de produção ou se já for cliente do GKE e quiser implementar um fluxo de trabalho com agentes na sua aplicação existente.

Seguem-se as funcionalidades e as considerações disponíveis no GKE:

Flexibilidade da linguagem de programação e da framework: quando cria um pacote da sua aplicação num contentor, pode desenvolver agentes em qualquer linguagem de programação e com qualquer framework.
Protocolos de comunicação: orquestre agentes e ferramentas que usam o MCP e o A2A. Alojamento de clientes e servidores MCP no GKE quando os empacota como contentores.

Memória: os pods do GKE são efémeros. No entanto, pode criar agentes com estado com memória persistente através de recursos no cluster ou da ligação a serviços externos:

Requisito	Opções disponíveis
Memória de curto prazo	Memorystore para Redis Sessões do Vertex AI Agent Engine com o GKE Firestore ADKs `DatabaseSessionService` com o Cloud SQL
Memória a longo prazo	Firestore Memory Bank com o GKE
Pesquisa e obtenção de bases de dados	StatefulSets e volumes persistentes para armazenamento duradouro no cluster. Cloud SQL AlloyDB para PostgreSQL

Escalabilidade: os clusters do GKE aprovisionam automaticamente e escalam os seus conjuntos de nós para cumprir os requisitos da sua carga de trabalho.
Observabilidade: oferece registo, monitorização e rastreio integrados ao nível do cluster, do nó e do pod com a observabilidade do Google Cloud. Para recolher métricas de terceiros e definidas pelo utilizador configuradas e, em seguida, enviá-las para o Cloud Monitoring, também pode usar o serviço gerido do Google Cloud para Prometheus. Para mais informações, consulte a vista geral da observabilidade do GKE.
Segurança: oferece controlos de segurança detalhados para os seus agentes.
- Use a Workload Identity Federation para o GKE para uma autenticação segura nas APIs Google Cloud.
- Isole código não fidedigno com o GKE Sandbox.
- Armazene dados confidenciais que os seus clusters do GKE usam no Secret Manager.
- Restrinja as autorizações da IAM e use regras de firewall da VPC e políticas de rede para impedir chamadas de rede indesejadas.

O GKE oferece o máximo controlo e flexibilidade, o que lhe permite executar agentes complexos com estado. No entanto, este controlo introduz custos operacionais e complexidade significativos. Tem de configurar e gerir o cluster do Kubernetes, incluindo os conjuntos de nós, o trabalho em rede e as políticas de escalabilidade, o que requer mais conhecimentos especializados e esforço de desenvolvimento do que uma plataforma sem servidor.

O que se segue?

Ferramentas de agente:
Memória do agente:
- Lembra-me, memória nos agentes.
- Lembre-se disto: estado e memória do agente com o ADK.
Padrões de design de agentes:
Tempo de execução do agente:
Outros recursos de IA autónoma em Google Cloud:
Para ver mais arquiteturas de referência, diagramas e práticas recomendadas, explore o Centro de arquitetura na nuvem.

Colaboradores

Autor: Samantha He | Redator técnico

Outros colaboradores:

Amina Mansour | Head of Cloud Platform Evaluations Team
Amit Maraj | Developer Relations Engineer
Casey West | Architecture Advocate, Google Cloud
Jack Wotherspoon | Consultor de programadores
Joe Fernandez | Staff Technical Writer
Joe Shirey | Cloud Developer Relations Manager
Karl Weinmeister | Director of Cloud Product Developer Relations
Kumar Dhanagopal | Cross-Product Solution Developer
Lisa Shen | Senior Outbound Product Manager, Google Cloud
Mandy Grover | Head of Architecture Center
Megan O'Keefe | Consultora de programadores
Olivier Bourgeois | Developer Relations Engineer
Polong Lin | Gestor de engenharia de relações com programadores
Shir Meir Lador | Developer Relations Engineering Manager
Vlad Kolesnikov | Developer Relations Engineer

Escolha os componentes da arquitetura de IA autónoma Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Vista geral da arquitetura do agente

Framework de front-end

Frameworks de desenvolvimento de agentes

Ferramentas de agente

Ferramentas integradas

MCP

Plataforma de gestão de APIs

Ferramenta de funções personalizadas

Memória do agente

Memória de curto prazo

Memória a longo prazo

Padrões de design de agentes

Modelos de IA

Tempo de execução do modelo

Escolha um tempo de execução do modelo

Vertex AI

Cloud Run

GKE

Tempo de execução do agente

Escolha um tempo de execução do agente

Vertex AI Agent Engine

Cloud Run

GKE

O que se segue?

Colaboradores

Escolha os componentes da arquitetura de IA autónoma