本页重点介绍了在 Cloud Run 上托管 AI 代理的应用场景。
AI 智能体是一种自主软件实体,它使用 LLM 赋能的系统来感知、做出决策并采取行动以实现目标。随着越来越多的自主智能体被构建出来,它们进行通信和协作的能力变得至关重要。
如需了解 AI 代理的简介,请参阅什么是 AI 代理。
在 Cloud Run 上托管 AI 代理
您可以将 AI 代理实现为 Cloud Run 服务,用于编排一组异步任务,并通过多次请求-响应交互提供信息。
Cloud Run 服务是可扩缩的 API 端点,用于实现应用的核心逻辑。它可通过自动、按需、快速扩缩容来高效管理多个并发用户。
Cloud Run 上的 AI 代理架构
Cloud Run 上部署的典型 AI 代理架构可能包括来自 Google Cloud 以及 Google Cloud外部的多个组件。
图中显示了以下内容:
托管平台:Cloud Run 是用于运行代理的托管平台,具有以下优势:
- 支持运行任何代理框架来构建不同类型的代理和代理架构。智能体框架的示例包括 Agent Development Kit (ADK) 和 LangGraph。
- 提供用于管理代理的内置功能。例如,Cloud Run 提供了一个内置的服务身份,您可以使用该身份作为代理身份,通过安全且自动的凭据调用 Google Cloud API。
- 支持将代理框架连接到其他服务。您可以将代理连接到部署在 Cloud Run 上的第一方或第三方工具。例如,如需深入了解代理的任务和执行情况,您可以部署并使用 Langfuse 和 Arize 等工具。
代理互动:Cloud Run 支持将 HTTP 响应流式传输回用户,并支持使用 WebSockets 进行实时互动。
生成式 AI 模型:编排层调用模型以实现推理功能。 这些模型可以是:
- Gemini API
- 部署在 Vertex AI 端点上的自定义模型或其他基础模型
- 您自己的微调模型,通过单独的启用 GPU 的 Cloud Run 服务提供
记忆:代理通常需要记忆来保留上下文并从过去的互动中学习。 您可以使用以下服务:
- Memorystore for Redis,用于短期记忆。
- Firestore,用于长期记忆,例如存储对话历史记录或记住用户偏好。
向量数据库:对于检索增强生成 (RAG) 或提取结构化数据,请使用向量数据库查询特定实体信息或对嵌入执行向量搜索。将
pgvector扩展服务与以下服务搭配使用:工具:编排程序使用工具来执行特定任务,以与外部服务、API 或网站交互。这可能包括:
- 使用 MCP 服务器:通过 MCP 服务器执行的外部或内部工具。
- 基本实用程序:如精确的数学计算、时间转换等。
- API 调用:调用其他内部或第三方 API(读写访问权限)。
- 生成图片或图表:快速高效地创建可视化内容。
- 浏览器和操作系统自动化:在容器实例中运行无头或完整的图形操作系统,使代理能够浏览网页、提取网站信息或通过点击和键盘输入执行操作。
- 代码执行:在具有多层沙盒的安全环境中执行代码,几乎无需或完全无需 IAM 权限。
后续步骤
- 观看在 Cloud Run 上构建 AI 代理。
- 尝试 codelab,了解如何构建 LangChain 应用并将其部署到 Cloud Run。
- 了解如何将智能体开发套件 (ADK) 部署到 Cloud Run。
- 尝试 codelab,了解如何将 Cloud Run 上的 MCP 服务器与 ADK 代理搭配使用。
- 尝试 codelab,了解如何将 ADK 智能体部署到带有 GPU 的 Cloud Run。
- 在智能体开发套件 (ADK) 示例中查找现成可用的智能体示例。
- 在 Cloud Run 上托管 Model Context Protocol (MCP) 服务器。