在 Cloud Run 上托管 AI 代理

本页重点介绍了在 Cloud Run 上托管 AI 代理的应用场景。

AI 智能体是一种自主软件实体，它使用 LLM 赋能的系统来感知、做出决策并采取行动以实现目标。随着越来越多的自主智能体被构建出来，它们进行通信和协作的能力变得至关重要。

如需了解 AI 代理的简介，请参阅什么是 AI 代理。

在 Cloud Run 上托管 AI 代理

您可以将 AI 代理实现为 Cloud Run 服务，用于编排一组异步任务，并通过多次请求-响应交互提供信息。

Cloud Run 服务是可扩缩的 API 端点，用于实现应用的核心逻辑。它可通过自动、按需、快速扩缩容来高效管理多个并发用户。

Cloud Run 上的 AI 代理架构

Cloud Run 上部署的典型 AI 代理架构可能包括来自 Google Cloud 以及 Google Cloud外部的多个组件。

托管在 Cloud Run 上的 AI 代理的四个组成部分。 — **图 1：**Cloud Run 上 AI 代理的架构。

图中显示了以下内容：

托管平台：Cloud Run 是用于运行代理的托管平台，具有以下优势：
- 支持运行任何代理框架来构建不同类型的代理和代理架构。智能体框架的示例包括 Agent Development Kit (ADK) 和 LangGraph。
- 提供用于管理代理的内置功能。例如，Cloud Run 提供了一个内置的服务身份，您可以使用该身份作为代理身份，通过安全且自动的凭据调用 Google Cloud API。
- 支持将代理框架连接到其他服务。您可以将代理连接到部署在 Cloud Run 上的第一方或第三方工具。例如，如需深入了解代理的任务和执行情况，您可以部署并使用 Langfuse 和 Arize 等工具。
代理互动：Cloud Run 支持将 HTTP 响应流式传输回用户，并支持使用 WebSockets 进行实时互动。
生成式 AI 模型：编排层调用模型以实现推理功能。这些模型可以是：
- Gemini API
- 部署在 Vertex AI 端点上的自定义模型或其他基础模型
- 您自己的微调模型，通过单独的启用 GPU 的 Cloud Run 服务提供
记忆：代理通常需要记忆来保留上下文并从过去的互动中学习。您可以使用以下服务：
- Memorystore for Redis，用于短期记忆。
- Firestore，用于长期记忆，例如存储对话历史记录或记住用户偏好。
向量数据库：对于检索增强生成 (RAG) 或提取结构化数据，请使用向量数据库查询特定实体信息或对嵌入执行向量搜索。将 pgvector 扩展服务与以下服务搭配使用：
- Cloud SQL for PostgreSQL
- AlloyDB for PostgreSQL
工具：编排程序使用工具来执行特定任务，以与外部服务、API 或网站交互。这可能包括：
- 使用 MCP 服务器：通过 MCP 服务器执行的外部或内部工具。
- 基本实用程序：如精确的数学计算、时间转换等。
- API 调用：调用其他内部或第三方 API（读写访问权限）。
- 生成图片或图表：快速高效地创建可视化内容。
- 浏览器和操作系统自动化：在容器实例中运行无头或完整的图形操作系统，使代理能够浏览网页、提取网站信息或通过点击和键盘输入执行操作。
- 代码执行：在具有多层沙盒的安全环境中执行代码，几乎无需或完全无需 IAM 权限。

后续步骤

观看在 Cloud Run 上构建 AI 代理。
尝试 codelab，了解如何构建 LangChain 应用并将其部署到 Cloud Run。
了解如何将智能体开发套件 (ADK) 部署到 Cloud Run。
尝试 codelab，了解如何将 Cloud Run 上的 MCP 服务器与 ADK 代理搭配使用。
尝试 codelab，了解如何将 ADK 智能体部署到带有 GPU 的 Cloud Run。
在智能体开发套件 (ADK) 示例中查找现成可用的智能体示例。
在 Cloud Run 上托管 Model Context Protocol (MCP) 服务器。

在 Cloud Run 上托管 AI 代理 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

在 Cloud Run 上托管 AI 代理

Cloud Run 上的 AI 代理架构

后续步骤

在 Cloud Run 上托管 AI 代理