在 Cloud Run 上托管 AI 代理

本页重点介绍了在 Cloud Run 上托管 AI 代理的应用场景。

AI 智能体是一种自主软件实体,它使用 LLM 赋能的系统来感知、做出决策并采取行动以实现目标。随着越来越多的自主智能体被构建出来,它们进行通信和协作的能力变得至关重要。

如需了解 AI 代理的简介,请参阅什么是 AI 代理

在 Cloud Run 上托管 AI 代理

您可以将 AI 代理实现为 Cloud Run 服务,用于编排一组异步任务,并通过多次请求-响应交互提供信息。

Cloud Run 服务是可扩缩的 API 端点,用于实现应用的核心逻辑。它可通过自动、按需、快速扩缩容来高效管理多个并发用户。

Cloud Run 上的 AI 代理架构

Cloud Run 上部署的典型 AI 代理架构可能包括来自 Google Cloud 以及 Google Cloud外部的多个组件。

托管在 Cloud Run 上的 AI 代理的四个组成部分。
图 1:Cloud Run 上 AI 代理的架构。

图中显示了以下内容:

  • 托管平台:Cloud Run 是用于运行代理的托管平台,具有以下优势:

    • 支持运行任何代理框架来构建不同类型的代理和代理架构。智能体框架的示例包括 Agent Development Kit (ADK)LangGraph
    • 提供用于管理代理的内置功能。例如,Cloud Run 提供了一个内置的服务身份,您可以使用该身份作为代理身份,通过安全且自动的凭据调用 Google Cloud API。
    • 支持将代理框架连接到其他服务。您可以将代理连接到部署在 Cloud Run 上的第一方或第三方工具。例如,如需深入了解代理的任务和执行情况,您可以部署并使用 LangfuseArize 等工具。
  • 代理互动:Cloud Run 支持将 HTTP 响应流式传输回用户,并支持使用 WebSockets 进行实时互动。

  • 生成式 AI 模型:编排层调用模型以实现推理功能。 这些模型可以是:

  • 记忆:代理通常需要记忆来保留上下文并从过去的互动中学习。 您可以使用以下服务:

  • 向量数据库:对于检索增强生成 (RAG) 或提取结构化数据,请使用向量数据库查询特定实体信息或对嵌入执行向量搜索。将 pgvector 扩展服务与以下服务搭配使用:

  • 工具:编排程序使用工具来执行特定任务,以与外部服务、API 或网站交互。这可能包括:

    • 使用 MCP 服务器:通过 MCP 服务器执行的外部或内部工具。
    • 基本实用程序:如精确的数学计算、时间转换等。
    • API 调用:调用其他内部或第三方 API(读写访问权限)。
    • 生成图片或图表:快速高效地创建可视化内容。
    • 浏览器和操作系统自动化:在容器实例中运行无头或完整的图形操作系统,使代理能够浏览网页、提取网站信息或通过点击和键盘输入执行操作。
    • 代码执行:在具有多层沙盒的安全环境中执行代码,几乎无需或完全无需 IAM 权限

后续步骤