Hospedar agentes de IA no Cloud Run

Nesta página, destacamos casos de uso para hospedar agentes de IA no Cloud Run.

Os agentes de IA são entidades de software autônomas que usam sistemas com tecnologia de LLM para perceber, decidir e agir para alcançar metas. À medida que mais agentes autônomos são criados, a capacidade deles de se comunicar e colaborar se torna crucial.

Para uma introdução aos agentes de IA, consulte O que é um agente de IA.

Casos de uso para agentes de IA no Cloud Run

É possível implementar agentes de IA como serviços do Cloud Run para orquestrar um conjunto de tarefas assíncronas e fornecer informações por meio de várias interações de solicitação-resposta.

Um serviço do Cloud Run é um endpoint de API escalonável para a lógica principal do seu aplicativo. Ele gerencia com eficiência vários usuários simultâneos com escalonamento automático, sob demanda e rápido de instâncias.

Arquitetura de agente de IA no Cloud Run

Uma arquitetura típica de agente de IA implantada no Cloud Run pode envolver vários componentes do Google Cloud e de fora do Google Cloud:

Os quatro componentes do agente de IA hospedado no Cloud Run.
Figura 1. Arquitetura de um agente de IA no Cloud Run.

O diagrama mostra estes elementos:

  • Plataforma de hospedagem: o Cloud Run é uma plataforma de hospedagem para executar agentes e oferece os seguintes benefícios:

    • Oferece suporte à execução de qualquer framework de agente para criar diferentes tipos de agentes e arquiteturas agênticas. Exemplos de frameworks de agentes incluem o Kit de Desenvolvimento de Agente (ADK), o Dify, o LangGraph e o n8n.
    • Fornece recursos integrados para gerenciar seu agente. Por exemplo, o Cloud Run oferece uma identidade de serviço integrada que pode ser usada como a identidade do agente para chamar APIs Google Cloud com credenciais seguras e automáticas.
    • Permite conectar sua estrutura de agente a outros serviços. É possível conectar seu agente a ferramentas próprias ou de terceiros implantadas no Cloud Run. Por exemplo, para ter visibilidade das tarefas e execuções do seu agente, implante e use ferramentas como Langfuse e Arize.
  • Interações com o agente: o Cloud Run é compatível com streaming de respostas HTTP para o usuário e WebSockets para interações em tempo real.

  • Modelos de IA generativa: a camada de orquestração chama modelos para recursos de raciocínio. Esses modelos podem ser hospedados em serviços, como:

  • Memória: os agentes geralmente precisam de memória para reter o contexto e aprender com interações anteriores. Você pode usar os seguintes serviços:

    • Memorystore para Redis para memória de curto prazo.
    • Firestore para memória de longo prazo, como armazenar o histórico de conversas ou lembrar as preferências do usuário.
  • Banco de dados vetorial: para geração aumentada por recuperação (RAG) ou busca de dados estruturados, use um banco de dados vetorial para consultar informações específicas de entidades ou realizar uma pesquisa vetorial em embeddings. Use a extensão pgvector com os seguintes serviços:

  • Ferramentas:o orquestrador usa ferramentas para realizar tarefas específicas e interagir com serviços, APIs ou sites externos. Isso inclui:

    • Protocolo de Contexto de Modelo (MCP): use esse protocolo padronizado para se comunicar com ferramentas externas executadas por um servidor MCP.
    • Utilitários básicos: cálculos matemáticos precisos, conversões de tempo ou outros utilitários semelhantes.
    • Chamada de API: faça chamadas para outras APIs internas ou de terceiros (acesso de leitura ou gravação).
    • Geração de imagens ou gráficos: crie conteúdo visual de forma rápida e eficaz.
    • Automação de navegador e SO: execute um sistema operacional sem interface gráfica ou completo em instâncias de contêiner para permitir que o agente navegue na Web, extraia informações de sites ou execute ações usando cliques e entrada de teclado.
    • Execução de código: Execute código em um ambiente seguro com sandbox em várias camadas, com permissões do IAM mínimas ou inexistentes.

A seguir