Hospedar agentes de IA no Cloud Run

Nesta página, destacamos casos de uso para hospedar agentes de IA no Cloud Run.

Os agentes de IA são entidades de software autônomas que usam sistemas com tecnologia de LLM para perceber, decidir e agir para alcançar metas. À medida que mais agentes autônomos são criados, a capacidade deles de se comunicar e colaborar se torna crucial.

Para uma introdução aos agentes de IA, consulte O que é um agente de IA.

Casos de uso para agentes de IA no Cloud Run

É possível implementar agentes de IA como serviços do Cloud Run para orquestrar um conjunto de tarefas assíncronas e fornecer informações por meio de várias interações de solicitação-resposta.

Um serviço do Cloud Run é um endpoint de API escalonável para a lógica principal do seu aplicativo. Ele gerencia com eficiência vários usuários simultâneos por escalonamento automático, rápido e sob demanda de instâncias.

Arquitetura de agente de IA no Cloud Run

Uma arquitetura típica de agente de IA implantada no Cloud Run pode envolver vários componentes do Google Cloud e de fora do Google Cloud:

Os quatro componentes do agente de IA hospedado no Cloud Run. — **Figura 1.** Arquitetura de um agente de IA no Cloud Run.

O diagrama mostra estes elementos:

Plataforma de hospedagem: o Cloud Run é uma plataforma de hospedagem para executar agentes e oferece os seguintes benefícios:
- Oferece suporte à execução de qualquer framework de agente para criar diferentes tipos de agentes e arquiteturas agênticas. Exemplos de frameworks de agentes incluem o Kit de Desenvolvimento de Agente (ADK), o Dify, o LangGraph e o n8n.
- Fornece recursos integrados para gerenciar seu agente. Por exemplo, o Cloud Run oferece uma identidade de serviço integrada que pode ser usada como a identidade do agente para chamar APIs Google Cloud com credenciais seguras e automáticas.
- Permite conectar sua estrutura de agente a outros serviços. É possível conectar seu agente a ferramentas próprias ou de terceiros implantadas no Cloud Run. Por exemplo, para ter visibilidade das tarefas e execuções do seu agente, implante e use ferramentas como Langfuse e Arize.
Interações com o agente: o Cloud Run é compatível com streaming de respostas HTTP para o usuário e WebSockets para interações em tempo real.
Modelos de IA generativa: a camada de orquestração chama modelos para recursos de raciocínio. Esses modelos podem ser hospedados em serviços, como:
- API Gemini para modelos de IA generativa do Google.
- Endpoints da Vertex AI para modelos personalizados ou outros modelos de fundação.
- Serviço do Cloud Run com GPU para seus próprios modelos ajustados.
Memória: os agentes geralmente precisam de memória para reter o contexto e aprender com interações anteriores. Você pode usar os seguintes serviços:
- Memorystore para Redis para memória de curto prazo.
- Firestore para memória de longo prazo, como armazenar o histórico de conversas ou lembrar as preferências do usuário com base em dados brutos.
- Memory Bank do Vertex AI Agent Engine para memória personalizada de longo prazo. Esse recurso extrai automaticamente do histórico de conversas do usuário para lembrar e atualizar as preferências dele ao longo do tempo. É necessário criar pelo menos uma instância do Agent Engine para usar esse recurso com o Cloud Run.
Banco de dados vetorial: para geração aumentada por recuperação (RAG) ou busca de dados estruturados, use um banco de dados vetorial para consultar informações específicas de entidades ou realizar uma pesquisa vetorial em embeddings. Use a extensão pgvector com os seguintes serviços:
- Cloud SQL para PostgreSQL
- AlloyDB para PostgreSQL
Ferramentas:o orquestrador usa ferramentas para realizar tarefas específicas e interagir com serviços, APIs ou sites externos. Isso inclui:
- Protocolo de Contexto de Modelo (MCP): use esse protocolo padronizado para se comunicar com ferramentas externas executadas por um servidor MCP.
- Utilitários básicos: cálculos matemáticos precisos, conversões de tempo ou outros utilitários semelhantes.
- Chamada de API: faça chamadas para outras APIs internas ou de terceiros (acesso de leitura ou gravação).
- Geração de imagens ou gráficos: crie conteúdo visual de forma rápida e eficaz.
- Automação de navegador e SO: execute um sistema operacional gráfico completo ou sem interface em instâncias de contêiner para permitir que o agente navegue na Web, extraia informações de sites ou execute ações usando cliques e entrada de teclado.
- Execução de código: execute código em um ambiente seguro com sandbox em várias camadas, com permissões mínimas ou nenhuma do IAM.
- Execução de código do Agent Engine da Vertex AI: execute código em ambientes de sandbox seguros, isolados e gerenciados que oferecem suporte a entrada e saída de arquivos, execução de código em menos de um segundo e memória de longa duração. É necessário criar pelo menos uma instância do Vertex AI Agent Engine para usar esse recurso no Cloud Run.

A seguir

Assista Crie agentes de IA no Cloud Run.
Teste o codelab para aprender a criar e implantar um app LangChain no Cloud Run.
Saiba como implantar o Kit de Desenvolvimento de Agente (ADK) no Cloud Run.
Teste o codelab para usar um servidor MCP no Cloud Run com um agente do ADK.
Teste o codelab para implantar o agente do ADK no Cloud Run com GPU.
Encontre exemplos de agentes prontos para uso em Exemplos do Kit de Desenvolvimento de Agente (ADK).
Hospede servidores do Protocolo de Contexto de Modelo (MCP) no Cloud Run.

Hospedar agentes de IA no Cloud Run Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Casos de uso para agentes de IA no Cloud Run

Arquitetura de agente de IA no Cloud Run

A seguir

Hospedar agentes de IA no Cloud Run