Alojamento de agentes de IA no Cloud Run

Esta página realça exemplos de utilização para alojar agentes de IA no Cloud Run.

Os agentes de IA são entidades de software autónomas que usam sistemas baseados em MDIs para perceber, decidir e agir de forma a alcançar objetivos. À medida que são criados mais agentes autónomos, a respetiva capacidade de comunicar e colaborar torna-se crucial.

Para uma introdução aos agentes de IA, consulte o artigo O que é um agente de IA.

Exemplos de utilização de agentes de IA no Cloud Run

Pode implementar agentes de IA como serviços do Cloud Run para orquestrar um conjunto de tarefas assíncronas e fornecer informações através de várias interações de pedido-resposta.

Um serviço do Cloud Run é um ponto final da API escalável para a lógica essencial da sua aplicação. Gere de forma eficiente vários utilizadores simultâneos através do escalamento automático, a pedido e rápido de instâncias.

Agente de IA na arquitetura do Cloud Run

Uma arquitetura de agente de IA típica implementada no Cloud Run pode envolver vários componentes Google Cloud dentro e fora Google Clouddo seguinte:

Os quatro componentes do agente de IA alojado no Cloud Run.
Figura 1. Arquitetura de um agente de IA no Cloud Run.

O diagrama mostra o seguinte:

  • Plataforma de alojamento: o Cloud Run é uma plataforma de alojamento para executar agentes e oferece as seguintes vantagens:

    • Suporta a execução de qualquer estrutura de agente para criar diferentes tipos de agentes e arquiteturas de agentes. Alguns exemplos de frameworks de agentes incluem o Agent Development Kit (ADK), o Dify, o LangGraph e o n8n.
    • Oferece funcionalidades integradas para gerir o seu agente. Por exemplo, o Cloud Run fornece uma identidade do serviço incorporada que pode usar como identidade do agente para chamar APIs com credenciais seguras e automáticas. Google Cloud
    • Suporta a ligação da sua framework de agente a outros serviços. Pode ligar o seu agente a ferramentas originais ou de terceiros implementadas no Cloud Run. Por exemplo, para obter visibilidade sobre as tarefas e as execuções do seu agente, pode implementar e usar ferramentas como o Langfuse e o Arize.
  • Interações do agente: o Cloud Run suporta respostas HTTP de streaming para o utilizador e WebSockets para interações em tempo real.

  • Modelos de IA generativa: a camada de orquestração chama modelos para capacidades de raciocínio. Estes modelos podem ser alojados em serviços, como os seguintes:

  • Memória: os agentes precisam frequentemente de memória para reter o contexto e aprender com as interações anteriores. Pode usar os seguintes serviços:

    • Memorystore for Redis para memória a curto prazo.
    • Firestore para memória a longo prazo, como armazenar o histórico de conversas ou lembrar-se das preferências do utilizador.
  • Base de dados vetorial: para a geração aumentada de recuperação (RAG) ou a obtenção de dados estruturados, use uma base de dados vetorial para consultar informações específicas de entidades ou realizar uma pesquisa vetorial sobre incorporações. Use a extensão pgvector com os seguintes serviços:

  • Ferramentas: o orquestrador usa ferramentas para realizar tarefas específicas para interagir com serviços, APIs ou Websites externos. Isto pode incluir:

    • Protocolo Model Context Protocol (MCP): use este protocolo padronizado para comunicar com ferramentas externas que são executadas através de um servidor MCP.
    • Utilitários básicos: cálculos matemáticos precisos, conversões de tempo ou outros utilitários semelhantes.
    • Chamadas de API: fazer chamadas para outras APIs internas ou de terceiros (acesso de leitura ou escrita).
    • Geração de imagens ou gráficos: crie conteúdo visual de forma rápida e eficaz.
    • Automatização do navegador e do SO: execute um sistema operativo sem interface gráfica ou um sistema operativo gráfico completo em instâncias de contentores para permitir que o agente navegue na Web, extraia informações de Websites ou execute ações através de cliques e introdução de texto pelo teclado.
    • Execução de código: execute código num ambiente seguro com sandbox de várias camadas, com autorizações de IAM mínimas ou nulas.

O que se segue?