Escolher os componentes da arquitetura de IA agêntica

Este documento fornece orientações para ajudar você a escolher componentes de arquitetura para seus aplicativos de IA com agentes no Google Cloud. Ele descreve como avaliar as características do seu aplicativo e da sua carga de trabalho para escolher um produto ou serviço adequado que melhor atenda às suas necessidades. O processo de design de uma arquitetura de IA com agentes é iterativo. Reavalie periodicamente sua arquitetura à medida que as características da carga de trabalho mudam, os requisitos evoluem ou novos produtos e recursos do Google Cloud ficam disponíveis.

Os agentes de IA são eficazes para aplicativos que resolvem problemas em aberto, o que pode exigir tomada de decisões autônomas e gerenciamento complexo de fluxos de trabalho com várias etapas. Os agentes são excelentes para resolver problemas em tempo real usando dados externos e para automatizar tarefas que exigem muito conhecimento. Essas funcionalidades permitem que os agentes ofereçam mais valor comercial do que os recursos assistivos e generativos de um modelo de IA.

É possível usar agentes de IA para problemas determinísticos com etapas predefinidas. No entanto, outras abordagens podem ser mais eficientes e econômicas. Por exemplo, não é necessário um fluxo de trabalho de agente para tarefas como resumir um documento, traduzir texto ou classificar o feedback dos clientes.

Para informações sobre soluções alternativas de IA não baseadas em agentes, consulte os seguintes recursos:

Visão geral da arquitetura do agente

Um agente é um aplicativo que atinge uma meta processando entradas, realizando raciocínios com ferramentas disponíveis e tomando ações com base nas decisões. Um agente usa um modelo de IA como mecanismo de raciocínio principal para automatizar tarefas complexas. O agente usa um conjunto de ferramentas que permitem que o modelo de IA interaja com sistemas externos e fontes de dados. Um agente pode usar um sistema de memória para manter o contexto e aprender com as interações. O objetivo de uma arquitetura agêntica é criar um sistema autônomo que possa entender a intenção de um usuário, criar um plano de várias etapas e executar esse plano usando as ferramentas disponíveis.

O diagrama a seguir mostra uma visão geral de alto nível dos componentes de arquitetura de um sistema de agentes:

Os componentes da arquitetura de um sistema de agente.

A arquitetura do sistema de agente inclui os seguintes componentes:

  • Framework de front-end: uma coleção de componentes, bibliotecas e ferramentas pré-criados que você usa para criar a interface do usuário (UI) do seu aplicativo.
  • Framework de desenvolvimento de agentes: os frameworks e as bibliotecas que você usa para criar e estruturar a lógica do seu agente.
  • Ferramentas do agente: o conjunto de ferramentas, como APIs, serviços e funções, que buscam dados e realizam ações ou transações.
  • Memória do agente: o sistema que o agente usa para armazenar e recordar informações.
  • Padrões de design de agentes: abordagens arquitetônicas comuns para estruturar seu aplicativo agêntico.
  • Tempo de execução do agente: o ambiente de computação em que a lógica de aplicativo do seu agente é executada.
  • Modelos de IA: o principal mecanismo de raciocínio que alimenta os recursos de tomada de decisões do seu agente.
  • Tempo de execução do modelo: a infraestrutura que hospeda e veicula seu modelo de IA.

As seções a seguir fornecem uma análise detalhada dos componentes para ajudar você a tomar decisões sobre como criar sua arquitetura. Os componentes escolhidos influenciam a performance, a escalonabilidade, o custo e a segurança do seu agente. Este documento se concentra nos componentes arquitetônicos essenciais que você usa para criar e implantar a lógica principal de raciocínio e execução de um agente. Tópicos como frameworks de segurança de IA responsável e gerenciamento de identidade de agente estão fora do escopo deste documento.

Framework de front-end

O framework de front-end é um conjunto de componentes, bibliotecas e ferramentas pré-criados que você usa para criar a UI do seu aplicativo de agente. O framework de front-end escolhido define os requisitos do back-end. Uma interface simples para uma demonstração interna pode exigir apenas uma API HTTP síncrona, enquanto um aplicativo de nível de produção exige um back-end que ofereça suporte a protocolos de streaming e gerenciamento de estado robusto.

Considere as seguintes categorias de frameworks:

  • Prototipagem e frameworks de ferramentas internas: para desenvolvimento rápido, demonstrações internas e aplicativos de prova de conceito, escolha frameworks que priorizem a experiência e a velocidade do desenvolvedor. Esses frameworks geralmente preferem um modelo simples e síncrono chamado de modelo de solicitação-resposta. Um modelo de solicitação-resposta permite criar uma UI funcional com código mínimo e um back-end mais simples em comparação com um framework de produção. Essa abordagem é ideal para testar rapidamente a lógica do agente e as integrações de ferramentas, mas pode não ser adequada para aplicativos altamente escalonáveis e voltados ao público que exigem interações em tempo real. Os frameworks comuns nessa categoria incluem Mesop e Gradio.
  • Frameworks de produção: para aplicativos escalonáveis, responsivos e ricos em recursos para usuários externos, escolha um framework que permita componentes personalizados. Esses frameworks exigem uma arquitetura de back-end que possa oferecer suporte a uma experiência do usuário moderna. Um framework de produção precisa incluir suporte para protocolos de streaming, um design de API sem estado e um sistema de memória robusto e externalizado para gerenciar o estado da conversa em várias sessões de usuário. Os frameworks comuns para aplicativos de produção incluem Streamlit, React e o Flutter AI Toolkit.

Para gerenciar a comunicação entre esses frameworks e seu agente de IA, use o protocolo de interação agente-usuário (AG-UI). O AG-UI é um protocolo aberto que permite que agentes de IA de back-end interajam com seu framework de front-end. A AG-UI informa ao framework do front-end quando renderizar a resposta do agente, atualizar o estado do aplicativo ou acionar uma ação do lado do cliente. Para criar aplicativos interativos de IA, combine AG-UI com o Kit de Desenvolvimento de Agente (ADK). Para informações sobre o ADK, consulte a próxima seção "Frameworks de desenvolvimento de agentes".

Frameworks de desenvolvimento de agentes

Os frameworks de desenvolvimento de agentes são bibliotecas que simplificam o processo de criar, testar e implantar aplicativos de IA agêntica. Essas ferramentas de desenvolvimento fornecem componentes e abstrações pré-criados para recursos principais do agente, incluindo loops de raciocínio, memória e integração de ferramentas.

Para acelerar o desenvolvimento de agentes em Google Cloud, recomendamos que você use o ADK. O ADK é um framework de código aberto, opinativo e modular que oferece um alto nível de abstração para criar e orquestrar fluxos de trabalho, desde tarefas simples até sistemas complexos com vários agentes.

O ADK é otimizado para modelos do Gemini e Google Cloud, mas foi criado para ser compatível com outros frameworks. O ADK é compatível com outros modelos de IA e runtimes. Por isso, você pode usá-lo com qualquer modelo ou método de implantação. Para sistemas multiagentes, o ADK oferece suporte à interação por estados de sessão compartilhados, delegação orientada por modelo para rotear tarefas entre agentes e invocação explícita que permite que um agente chame outro como uma função ou ferramenta.

Para ajudar você a começar rapidamente, o ADK oferece amostras de código em Python, Java e Go que demonstram vários casos de uso em vários setores. Embora muitos desses exemplos destaquem fluxos de conversa, o ADK também é adequado para criar agentes autônomos que realizam tarefas de back-end. Para esses casos de uso não interativos, escolha um padrão de design de agente que se destaque no processamento de uma única solicitação independente e que implemente um tratamento de erros robusto.

Embora seja possível usar um framework de IA de uso geral, como o Genkit, recomendamos usar o ADK. O Genkit oferece primitivos que podem ser usados para desenvolver sua própria arquitetura de agente. No entanto, um framework de agente dedicado como ADK oferece ferramentas mais especializadas.

Ferramentas de agentes

A capacidade de um agente interagir com sistemas externos usando ferramentas define a eficácia dele. As ferramentas do agente são funções ou APIs disponíveis para o modelo de IA e que o agente usa para melhorar a saída e permitir a automação de tarefas. Quando você conecta um agente de IA a sistemas externos, as ferramentas transformam o agente de um simples gerador de texto em um sistema que pode automatizar tarefas complexas de várias etapas.

Para ativar as interações com a ferramenta, escolha um dos seguintes padrões de uso:

Caso de uso Padrão de uso da ferramenta
Você precisa realizar uma tarefa comum, como concluir uma pesquisa na Web, fazer um cálculo ou executar um código, e quer acelerar o desenvolvimento inicial. Ferramentas integradas
Você quer criar um sistema modular ou multiagente que exija ferramentas interoperáveis e reutilizáveis. Protocolo de Contexto de Modelo (MCP)
Você precisa gerenciar, proteger e monitorar um grande número de ferramentas baseadas em API em escala empresarial. Plataforma de gerenciamento de APIs
É necessário fazer a integração com uma API interna ou de terceiros específica que não tem um servidor MCP. Ferramentas de função personalizada

Ao selecionar ferramentas para seu agente, avalie as funcionalidades e a confiabilidade operacional delas. Priorize ferramentas que sejam observáveis, fáceis de depurar e que incluam um tratamento de erros robusto. Esses recursos ajudam a garantir que você possa rastrear ações e resolver falhas rapidamente. Além disso, avalie a capacidade do agente de selecionar a ferramenta certa para concluir as tarefas atribuídas.

Ferramentas integradas

O ADK oferece várias ferramentas integradas que são integradas diretamente ao ambiente de execução do agente. Você pode chamar essas ferramentas como funções sem configurar protocolos de comunicação externos. Essas ferramentas oferecem funcionalidades comuns, incluindo acesso a informações em tempo real da Web, execução programática de código em um ambiente seguro, recuperação de informações de dados corporativos particulares para implementar RAG e interação com dados estruturados em bancos de dados na nuvem. As ferramentas integradas funcionam com qualquer ferramenta personalizada que você criar.

MCP

Para permitir que os componentes do seu sistema de agente interajam, é necessário estabelecer protocolos de comunicação claros. O MCP é um protocolo aberto que oferece uma interface padronizada para os agentes acessarem e usarem as ferramentas, os dados e outros serviços necessários.

O MCP separa a lógica de raciocínio principal do agente da implementação específica das ferramentas dele, assim como uma porta de hardware padrão permite que diferentes periféricos se conectem a um dispositivo. O MCP simplifica a integração de ferramentas porque oferece uma lista crescente de conectores pré-criados e uma maneira consistente de criar integrações personalizadas. A flexibilidade para integrar ferramentas promove a interoperabilidade entre diferentes modelos e ferramentas.

É possível se conectar a um servidor MCP remoto, se houver um disponível, ou hospedar seu próprio servidor MCP. Ao hospedar seu próprio servidor MCP, você tem controle total sobre como expõe a API proprietária ou de terceiros aos seus agentes. Para hospedar seu próprio servidor MCP personalizado, implante-o como um aplicativo conteinerizado no Cloud Run ou no GKE.

Plataforma de gerenciamento de APIs

Uma plataforma de gerenciamento de APIs é um sistema centralizado que permite proteger, monitorar e controlar serviços internos ou externos por APIs. Uma plataforma de gerenciamento de APIs oferece um local centralizado para catalogar todas as APIs da sua organização, simplifica a maneira como você expõe os dados e oferece capacidade de observação por meio do monitoramento de uso.

Para gerenciar as ferramentas baseadas em API do seu agente em escala empresarial no Google Cloud, recomendamos usar o hub de APIs da Apigee. Com o hub de APIs, os agentes se conectam aos dados instantaneamente por chamadas HTTP diretas, conectores pré-criados, APIs personalizadas registradas no hub ou acesso direto a fontes de dados do Google Cloud . Essa abordagem dá aos seus agentes acesso imediato às informações necessárias sem a complexidade de criar pipelines personalizados de carregamento e integração de dados.

Uma plataforma de gerenciamento de API e um protocolo de comunicação como o MCP resolvem problemas arquitetônicos diferentes. Um protocolo de comunicação padroniza o formato de interação entre o agente e a ferramenta, o que garante que os componentes sejam reutilizáveis e possam ser trocados. Por outro lado, uma plataforma de gerenciamento de APIs governa o ciclo de vida e a segurança do endpoint de API, lidando com tarefas como autenticação, limitação de taxa e monitoramento. Esses padrões são complementares. Por exemplo, um agente pode usar o MCP para se comunicar com uma ferramenta, e essa ferramenta pode ser um endpoint de API seguro que o hub de API gerencia e protege.

Ferramenta de função personalizada

Uma ferramenta de função oferece novos recursos a um agente. Você pode escrever uma ferramenta de função personalizada para dar ao seu agente recursos especializados, como integrar com uma API externa ou um sistema comercial proprietário. Escrever uma ferramenta de função personalizada é o padrão mais comum para estender as habilidades de um agente além do que as ferramentas integradas podem oferecer.

Para criar uma ferramenta de função personalizada, escreva uma função na linguagem de programação de sua preferência e forneça uma descrição clara em linguagem natural da finalidade, dos parâmetros e dos valores de retorno dela. O modelo do agente usa essa descrição para decidir quando a ferramenta é necessária, quais entradas fornecer e como interpretar a saída para concluir a solicitação de um usuário.

Você também pode criar uma ferramenta de função personalizada que implementa uma função de agente como ferramenta. Uma função de agente como ferramenta expõe um agente como uma função chamável que outro agente pode invocar. Essa técnica permite criar sistemas multiagentes complexos em que um agente pode coordenar e delegar tarefas especializadas a outros agentes especializados. Para mais informações sobre padrões de design de agentes e coordenação de orquestração multiagente, consulte a seção sobre padrões de design de agentes mais adiante neste documento.

Memória do agente

A capacidade de um agente de lembrar interações anteriores é fundamental para oferecer uma experiência de conversa coerente e útil. Para criar agentes com estado e reconhecimento de contexto, é necessário implementar mecanismos de memória de curto e longo prazo. As seções a seguir exploram as opções de design e os serviços do Google Cloud que você pode usar para implementar a memória de curto e longo prazo no agente.

Memória de curto prazo

A memória de curto prazo permite que um agente mantenha o contexto em uma única conversa em andamento. Para implementar a memória de curto prazo, é necessário gerenciar a sessão e o estado associado a ela.

  • Sessão: uma sessão é a conversa entre um usuário e o agente, desde a interação inicial até o fim do diálogo.
  • Estado: o estado são os dados que o agente usa e coleta em uma sessão específica. Os dados de estado coletados incluem o histórico de mensagens trocadas entre o usuário e o agente, os resultados de todas as chamadas de função e outras variáveis necessárias para que o agente entenda o contexto da conversa.

Confira as opções para implementar a memória de curto prazo com o ADK:

  • Armazenamento na memória: para desenvolvimento, testes ou aplicativos simples que são executados em uma única instância, é possível armazenar o estado da sessão diretamente na memória do aplicativo. O agente usa uma estrutura de dados, como um dicionário ou um objeto, para armazenar uma lista de pares de chave-valor e atualiza esses valores ao longo da sessão. No entanto, quando você usa o armazenamento na memória, o estado da sessão não é persistente. Se o aplicativo for reiniciado, ele vai perder todo o histórico de conversas.
  • Gerenciamento de estado externo: para aplicativos de produção que exigem escalonabilidade e confiabilidade, recomendamos criar um aplicativo de agente sem estado e gerenciar o estado da sessão em um serviço de armazenamento externo. Nessa arquitetura, sempre que o aplicativo do agente recebe uma solicitação, ele recupera o estado atual da conversa do armazenamento externo, processa o novo turno e salva o estado atualizado de volta no armazenamento. Esse design permite escalonar o aplicativo horizontalmente, porque qualquer instância pode atender à solicitação de qualquer usuário. As opções comuns para gerenciamento de estado externo incluem Memorystore para Redis, Firestore ou sessões do Vertex AI Agent Engine.

Memória de longo prazo

A memória de longo prazo fornece ao agente uma base de conhecimento persistente que existe em todas as conversas de usuários individuais. A memória de longo prazo permite que o agente recupere e use informações externas, aprenda com interações anteriores e forneça respostas mais precisas e relevantes.

Confira a seguir as opções para implementar a memória de longo prazo com o ADK:

  • Armazenamento na memória: para desenvolvimento e testes, é possível armazenar o estado da sessão diretamente na memória do aplicativo. Essa abordagem é simples de implementar, mas não é persistente. Se o aplicativo for reiniciado, ele vai perder o histórico de conversas. Normalmente, esse padrão é implementado usando um provedor na memória em uma estrutura de desenvolvimento, como o InMemoryMemoryService incluído no ADK para testes.
  • Armazenamento externo: para aplicativos de produção, gerencie a base de conhecimento do seu agente em um serviço de armazenamento externo e persistente. Um serviço de armazenamento externo garante que o conhecimento do seu agente seja durável, escalonável e acessível em várias instâncias de aplicativos. Use o Banco de Memória para armazenamento de longo prazo com qualquer ambiente de execução do agente no Google Cloud.

Padrões de design de agentes

Os padrões de projeto de agentes são abordagens arquitetônicas comuns para criar aplicativos de agentes. Esses padrões oferecem uma estrutura distinta para organizar os componentes de um sistema, integrar o modelo de IA e orquestrar um ou vários agentes para realizar um fluxo de trabalho. Para determinar qual abordagem é melhor para seu fluxo de trabalho, considere a complexidade e o fluxo de trabalho das tarefas, latência, desempenho e requisitos de custo.

Um sistema de agente único depende das capacidades de raciocínio de um modelo para interpretar a solicitação de um usuário, planejar uma sequência de etapas e decidir quais ferramentas usar. Essa abordagem é um ponto de partida eficaz que permite refinar a lógica principal, os comandos e as definições de ferramentas antes de adicionar complexidade arquitetônica. No entanto, a performance de um único agente pode diminuir à medida que as tarefas e o número de ferramentas aumentam em complexidade.

Para problemas complexos, um sistema multiagente coordena vários agentes especializados para alcançar uma meta que um único agente não consegue gerenciar com facilidade. Esse design modular pode melhorar a escalonabilidade, a confiabilidade e a capacidade de manutenção do sistema. No entanto, ele também apresenta mais considerações de avaliação, segurança e custo em comparação com um sistema de agente único.

Ao desenvolver um sistema multiagente, é necessário implementar controles de acesso precisos para cada agente especializado, projetar um sistema de orquestração robusto para garantir uma comunicação confiável entre agentes e gerenciar o aumento dos custos operacionais devido à sobrecarga computacional da execução de vários agentes. Para facilitar a comunicação entre agentes, use o protocolo Agent2Agent (A2A) com o ADK. O A2A é um protocolo padrão aberto que permite que agentes de IA se comuniquem e colaborem em diferentes plataformas e frameworks, independentemente das tecnologias subjacentes.

Para mais informações sobre padrões de design de agentes comuns e como selecionar um padrão com base nos requisitos da sua carga de trabalho, consulte Escolher um padrão de design para seu sistema de IA agêntica.

Modelos de IA

Os aplicativos agênticos dependem das capacidades de raciocínio e compreensão de um modelo para atuar como o principal orquestrador de tarefas. Para essa função principal de agente, recomendamos usar o Gemini Pro.

Os modelos do Google, como o Gemini, oferecem acesso aos modelos proprietários mais recentes e avançados por uma API gerenciada. Essa abordagem é ideal para minimizar a sobrecarga operacional. Por outro lado, um modelo aberto e auto-hospedado oferece o controle detalhado necessário para ajustes finos em dados proprietários. Cargas de trabalho com requisitos rigorosos de segurança e residência de dados também exigem um modelo autohospedado, porque ele permite executar o modelo na sua própria rede.

Para melhorar a performance do agente, ajuste as capacidades de raciocínio do modelo. Modelos como os mais recentes modelos Gemini Pro e Flash têm um processo de pensamento integrado que melhora o raciocínio e o planejamento de várias etapas. Para depuração e refinamento, você pode analisar os resumos de raciocínio do modelo ou versões sintetizadas dos pensamentos internos dele para entender o caminho do raciocínio. Você pode controlar as capacidades de raciocínio do modelo ajustando o orçamento de pensamento ou o número de tokens de pensamento, com base na complexidade da tarefa. Um orçamento de pensamento maior permite que o modelo faça um raciocínio e um planejamento mais detalhados antes de dar uma resposta. Um orçamento de pensamento maior pode melhorar a qualidade da resposta, mas também pode aumentar a latência e o custo.

Para otimizar a performance e o custo, implemente o roteamento de modelos para selecionar dinamicamente o modelo mais adequado para cada tarefa com base na complexidade, no custo ou nos requisitos de latência dela. Por exemplo, é possível encaminhar solicitações simples para um modelo de linguagem pequeno (SLM) para tarefas estruturadas, como geração de código ou classificação de texto, e reservar um modelo mais eficiente e caro para raciocínio complexo. Se você implementar o roteamento de modelos no seu aplicativo agente, poderá criar um sistema econômico que mantenha um alto desempenho.

Google Cloud oferece acesso a uma ampla seleção de modelos do Google, de parceiros e abertos que podem ser usados na sua arquitetura de agente. Para mais informações sobre os modelos disponíveis e como escolher um modelo para atender às suas necessidades, consulte Model Garden na Vertex AI.

Tempo de execução do modelo

Um ambiente de execução de modelo é o ambiente que hospeda e disponibiliza seu modelo de IA e que disponibiliza os recursos de raciocínio dele para seu agente.

Escolher um ambiente de execução de modelo

Para selecionar o melhor ambiente de execução ao hospedar seus modelos de IA, use as seguintes orientações:

Caso de uso Tempo de execução do modelo
Você precisa de uma API totalmente gerenciada para veicular modelos do Gemini, de parceiros, abertos ou personalizados com segurança, escalonamento e ferramentas de IA generativa de nível empresarial. Vertex AI
Você precisa implantar um modelo conteinerizado aberto ou personalizado e priorizar a simplicidade e a eficiência de custo sem servidor para tráfego variável. Cloud Run
Você precisa de controle máximo sobre a infraestrutura para executar um modelo em contêiner aberto ou personalizado em hardware especializado ou para atender a requisitos complexos de segurança e rede. GKE

As seções a seguir oferecem uma visão geral dos runtimes de modelo anteriores, incluindo recursos principais e considerações de design. Este documento se concentra na Vertex AI, no Cloud Run e no GKE. No entanto, Google Cloud oferece outros serviços que você pode considerar para um ambiente de execução de modelo:

  • API Gemini: A API Gemini foi criada para desenvolvedores que precisam de acesso rápido e direto aos modelos do Gemini sem os recursos de governança empresarial que sistemas de agentes complexos costumam exigir.
  • Compute Engine: o Compute Engine é um produto de infraestrutura como serviço (IaaS) adequado para aplicativos legados. Ele introduz uma sobrecarga operacional significativa em comparação com os ambientes de execução modernos baseados em contêineres.

Para mais informações sobre os recursos que distinguem todas as opções de serviço para tempos de execução de modelo, consulte Infraestrutura de hospedagem de modelos.

Vertex AI

A Vertex AI fornece um ambiente sem servidor totalmente gerenciado que hospeda seus modelos de IA. É possível veicular e refinar modelos do Google, de parceiros e de código aberto usando uma API segura e escalonável. Essa abordagem abstrai todo o gerenciamento de infraestrutura e permite que você se concentre na integração da inteligência do modelo aos aplicativos.

Ao usar a Vertex AI como um ambiente de execução de modelo, os principais recursos e considerações incluem o seguinte:

  • Controle de infraestrutura: uma API totalmente gerenciada para seus modelos. O Google gerencia a infraestrutura de base.
  • Segurança: os padrões de segurança gerenciados e as certificações de compliance padrão são suficientes para suas necessidades. Para oferecer proteção de comandos e respostas e garantir práticas de IA responsável, você pode integrar o Model Armor à Vertex AI.
  • Disponibilidade de modelos: acesso a uma ampla seleção de modelos, incluindo os mais recentes do Gemini, por uma API gerenciada.
  • Custo: modelo de preços por utilização que é dimensionado de acordo com o tráfego do seu aplicativo. Para mais informações, consulte Custo de criação e implantação de modelos de IA na Vertex AI.

Cloud Run

O Cloud Run oferece um ambiente de execução sem servidor que hospeda seus modelos em contêineres personalizados. O Cloud Run oferece um equilíbrio entre a simplicidade totalmente gerenciada da Vertex AI e o controle profundo da infraestrutura do GKE. Essa abordagem é ideal quando você precisa da flexibilidade para executar seu modelo em um ambiente de contêineres sem gerenciar servidores ou clusters.

Ao usar o Cloud Run como um ambiente de execução de modelo, os principais recursos e considerações incluem o seguinte:

  • Controle de infraestrutura: execute qualquer modelo em um contêiner personalizado, que oferece controle total sobre o ambiente de software, enquanto a plataforma gerencia a infraestrutura sem servidor subjacente.
  • Segurança: oferece segurança por meio de instâncias de computação efêmeras e isoladas e permite conexões seguras com recursos particulares usando a saída VPC direta ou um conector de acesso VPC sem servidor. Para mais informações, consulte Rede privada e Cloud Run.
  • Disponibilidade de modelos: disponibilize modelos abertos, como o Gemma, ou seus próprios modelos personalizados. Não é possível hospedar ou veicular modelos do Gemini no Cloud Run.
  • Custo: tem um modelo de preços por uso e com base em solicitações que é escalonado para zero, o que o torna altamente econômico para modelos com tráfego esporádico ou variável. Para mais informações, consulte Preços do Cloud Run.

GKE

O GKE oferece o máximo de controle e flexibilidade para hospedar seus modelos de IA. Para usar essa abordagem, execute os modelos em contêineres em um cluster do GKE que você configura e gerencia. O GKE é a escolha ideal quando você precisa executar modelos em hardware especializado, colocá-los com seus aplicativos para ter latência mínima ou exigir controle granular sobre todos os aspectos do ambiente de serviço.

Ao usar o GKE como um ambiente de execução de modelo, os principais recursos e considerações incluem o seguinte:

  • Controle de infraestrutura: oferece controle máximo e granular sobre todo o ambiente de exibição, incluindo configurações de nós, aceleradores de máquinas especializadas e o software específico de exibição de modelos.
  • Segurança: permite o mais alto nível de segurança e isolamento de dados porque permite executar modelos totalmente na sua rede e aplicar políticas de segurança refinadas do Kubernetes. Para filtrar o tráfego de e para um cluster do GKE e proteger todas as interações com os modelos de IA, integre o Model Armor ao GKE .
  • Disponibilidade de modelos: disponibilize modelos abertos, como o Gemma, ou seus próprios modelos personalizados. Não é possível hospedar ou disponibilizar modelos do Gemini no GKE.
  • Custo: apresenta um modelo de custo baseado nos recursos de computação e cluster subjacentes que você consome, o que o torna altamente otimizado para cargas de trabalho previsíveis e de alto volume quando você usa descontos por compromisso de uso (CUDs). Para mais informações, consulte Preços do Google Kubernetes Engine.

Ambiente de execução do agente

Para hospedar e implantar seu aplicativo com agente, escolha um ambiente de execução de agente. Esse serviço executa o código do aplicativo, ou seja, a lógica de negócios e a orquestração que você escreve ao usar um framework de desenvolvimento de agentes. Nesse ambiente de execução, o aplicativo faz chamadas de API para os modelos hospedados e gerenciados pelo ambiente de execução de modelo escolhido.

Escolher um ambiente de execução do agente

Para selecionar o ambiente de execução ao hospedar seus agentes de IA, use as seguintes orientações:

Caso de uso Ambiente de execução do agente
Seu aplicativo é um agente Python e exige uma experiência totalmente gerenciada com sobrecarga operacional mínima. Vertex AI Agent Engine
Seu aplicativo é conteinerizado e exige escalonamento sem servidor e orientado a eventos com flexibilidade de linguagem. Cloud Run
Seu aplicativo é conteinerizado, tem requisitos complexos de estado e precisa de uma configuração detalhada da infraestrutura. GKE

Se você já gerencia aplicativos no Cloud Run ou no GKE, pode acelerar o desenvolvimento e simplificar as operações de longo prazo usando a mesma plataforma para sua carga de trabalho de agente.

As seções a seguir oferecem uma visão geral de cada ambiente de execução do agente, incluindo recursos principais e considerações de design.

Vertex AI Agent Engine

O Vertex AI Agent Engine é um ambiente de execução totalmente gerenciado e opinativo que pode ser usado para implantar, operar e escalonar aplicativos agênticos. O Vertex AI Agent Engine abstrai a infraestrutura subjacente, permitindo que você se concentre na lógica do agente em vez de operações.

Confira abaixo os recursos e considerações do Vertex AI Agent Engine:

O Agent Engine da Vertex AI acelera o caminho para a produção porque oferece um ambiente gerenciado e criado para essa finalidade que lida com muitos aspectos complexos ao operar agentes, como ciclo de vida e gerenciamento de contexto. O Vertex AI Agent Engine é menos adequado para casos de uso que exigem personalização extensa do ambiente de computação ou que exigem linguagens de programação diferentes de Python. Para cargas de trabalho com requisitos de segurança rigorosos para gerenciamento de dependências privadas, o Cloud Run e o GKE oferecem um caminho de configuração mais direto com base no IAM.

Cloud Run

O Cloud Run é uma plataforma sem servidor totalmente gerenciada que permite executar o código do aplicativo do agente em um contêiner sem estado. O Cloud Run é ideal quando você quer implantar todo o aplicativo do agente, componentes individuais ou ferramentas personalizadas como endpoints HTTP escalonáveis sem precisar gerenciar a infraestrutura.

Confira a seguir os recursos e considerações do Cloud Run:

O Cloud Run oferece simplicidade operacional e custo-benefício significativos porque elimina o gerenciamento de infraestrutura. No entanto, a natureza sem estado do Cloud Run exige que você use um serviço de armazenamento para gerenciar o contexto em um fluxo de trabalho de várias etapas. Além disso, o tempo limite máximo de solicitação para serviços do Cloud Run é de até uma hora, o que pode restringir tarefas de agente de longa duração.

GKE

O Google Kubernetes Engine (GKE) é um serviço gerenciado de orquestração de contêineres que oferece controle granular sobre a arquitetura e a infraestrutura do seu aplicativo de agente. O GKE é adequado para sistemas de agentes complexos que exigem recursos robustos e de nível de produção ou se você já é cliente do GKE e quer implementar um fluxo de trabalho de agente no seu aplicativo atual.

Confira abaixo os recursos e considerações disponíveis no GKE:

O GKE oferece controle e flexibilidade máximos, permitindo executar agentes complexos e com estado. No entanto, esse controle introduz uma sobrecarga e complexidade operacionais significativas. É necessário configurar e gerenciar o cluster do Kubernetes, incluindo pools de nós, rede e políticas de escalonamento, o que exige mais experiência e esforço de desenvolvimento do que uma plataforma sem servidor.

A seguir

Colaboradores

Autora: Samantha He | Redatora técnica

Outros colaboradores: