在 Cloud Run 上托管 AI 代理

本页重点介绍了在 Cloud Run 上托管 AI 代理的应用场景。

AI 智能体是一种自主软件实体，它使用 LLM 赋能的系统来感知、做出决策并采取行动以实现目标。随着越来越多的自主智能体被构建出来，它们进行通信和协作的能力变得至关重要。

如需了解 AI 代理的简介，请参阅什么是 AI 代理。

Cloud Run 上 AI 代理的应用场景

您可以将 AI 代理实现为 Cloud Run 服务，用于编排一组异步任务，并通过多次请求-响应交互提供信息。

Cloud Run 服务是可扩缩的 API 端点，用于实现应用的核心逻辑。它可通过自动、按需、快速扩缩容来高效管理多个并发用户。

Cloud Run 上的 AI 代理架构

Cloud Run 上部署的典型 AI 代理架构可能包括来自 Google Cloud 以及 Google Cloud外部的多个组件：

在 Cloud Run 上托管的 AI 代理的四个组件。 — **图 1：**Cloud Run 上 AI 代理的架构。

图中显示了以下内容：

托管平台：Cloud Run 是一个用于运行代理的托管平台，具有以下优势：
- 支持运行任何代理框架来构建不同类型的代理和代理架构。代理框架的示例包括 Agent Development Kit (ADK)、Dify、LangGraph 和 n8n。
- 提供用于管理代理的内置功能。例如，Cloud Run 提供了一个内置的服务身份，您可以使用该身份作为代理身份，通过安全且自动的凭据调用 Google Cloud API。
- 支持将代理框架连接到其他服务。您可以将代理连接到部署在 Cloud Run 上的第一方或第三方工具。例如，如需深入了解代理的任务和执行情况，您可以部署并使用 Langfuse 和 Arize 等工具。
代理互动：Cloud Run 支持将 HTTP 响应流式传输回用户，并支持使用 WebSockets 进行实时互动。
生成式 AI 模型：编排层调用模型以实现推理功能。这些模型可以托管在以下服务中：
- Google 生成式 AI 模型的 Gemini API。
- 自定义模型或其他基础模型的 Vertex AI 端点。
- 自有微调模型的启用 GPU 的 Cloud Run 服务。
记忆：代理通常需要记忆来保留上下文并从过去的互动中学习。您可以使用以下服务：
- Memorystore for Redis，用于短期记忆。
- Firestore，用于长期记忆，例如存储对话历史记录或记住用户偏好。
向量数据库：对于检索增强生成 (RAG) 或提取结构化数据，请使用向量数据库查询特定实体信息或对嵌入执行向量搜索。将 pgvector 扩展服务与以下服务搭配使用：
- Cloud SQL for PostgreSQL
- AlloyDB for PostgreSQL
工具：编排程序使用工具来执行特定任务，以与外部服务、API 或网站交互。这可能包括：
- Model Context Protocol (MCP)：使用此标准化协议与通过 MCP 服务器执行的外部工具进行通信。
- 基本实用程序：如精确的数学计算、时间转换等。
- API 调用：调用其他内部或第三方 API（读写访问权限）。
- 生成图片或图表：快速高效地创建可视化内容。
- 浏览器和操作系统自动化：在容器实例中运行无头或完整的图形操作系统，使代理能够浏览网页、提取网站信息或通过点击和键盘输入执行操作。
- 代码执行：在具有多层沙盒的安全环境中执行代码，几乎无需或完全无需 IAM 权限。

后续步骤

观看在 Cloud Run 上构建 AI 代理。
尝试了解如何构建 LangChain 应用并将其部署到 Cloud Run 的 Codelab。
了解如何将智能体开发套件 (ADK) 部署到 Cloud Run。
尝试在 Cloud Run 上使用 MCP 服务器和 ADK 代理的 Codelab。
尝试将 ADK 代理部署到具有 GPU 的 Cloud Run 的 Codelab。
在智能体开发套件 (ADK) 示例中查找现成可用的智能体示例。
在 Cloud Run 上托管 Model Context Protocol (MCP) 服务器。

在 Cloud Run 上托管 AI 代理 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

Cloud Run 上 AI 代理的应用场景

Cloud Run 上的 AI 代理架构

后续步骤

在 Cloud Run 上托管 AI 代理