本页重点介绍了在 Cloud Run 上托管 AI 代理的应用场景。
AI 智能体是一种自主软件实体,它使用 LLM 赋能的系统来感知、做出决策并采取行动以实现目标。随着越来越多的自主智能体被构建出来,它们进行通信和协作的能力变得至关重要。
如需了解 AI 代理的简介,请参阅什么是 AI 代理。
Cloud Run 上 AI 代理的应用场景
您可以将 AI 代理实现为 Cloud Run 服务,用于编排一组异步任务,并通过多次请求-响应交互提供信息。
Cloud Run 服务是可扩缩的 API 端点,用于实现应用的核心逻辑。它可通过自动、按需、快速扩缩容来高效管理多个并发用户。
Cloud Run 上的 AI 代理架构
Cloud Run 上部署的典型 AI 代理架构可能包括来自 Google Cloud 以及 Google Cloud外部的多个组件:
图中显示了以下内容:
托管平台:Cloud Run 是一个用于运行代理的托管平台,具有以下优势:
代理互动:Cloud Run 支持将 HTTP 响应流式传输回用户,并支持使用 WebSockets 进行实时互动。
生成式 AI 模型:编排层调用模型以实现推理功能。 这些模型可以托管在以下服务中:
- Google 生成式 AI 模型的 Gemini API。
- 自定义模型或其他基础模型的 Vertex AI 端点。
- 自有微调模型的启用 GPU 的 Cloud Run 服务。
记忆:代理通常需要记忆来保留上下文并从过去的互动中学习。 您可以使用以下服务:
- Memorystore for Redis,用于短期记忆。
- Firestore,用于长期记忆,例如存储对话历史记录或记住用户偏好。
向量数据库:对于检索增强生成 (RAG) 或提取结构化数据,请使用向量数据库查询特定实体信息或对嵌入执行向量搜索。将
pgvector扩展服务与以下服务搭配使用:工具:编排程序使用工具来执行特定任务,以与外部服务、API 或网站交互。这可能包括:
- Model Context Protocol (MCP):使用此标准化协议与通过 MCP 服务器执行的外部工具进行通信。
- 基本实用程序:如精确的数学计算、时间转换等。
- API 调用:调用其他内部或第三方 API(读写访问权限)。
- 生成图片或图表:快速高效地创建可视化内容。
- 浏览器和操作系统自动化:在容器实例中运行无头或完整的图形操作系统,使代理能够浏览网页、提取网站信息或通过点击和键盘输入执行操作。
- 代码执行:在具有多层沙盒的安全环境中执行代码,几乎无需或完全无需 IAM 权限。
后续步骤
- 观看在 Cloud Run 上构建 AI 代理。
- 尝试了解如何构建 LangChain 应用并将其部署到 Cloud Run 的 Codelab。
- 了解如何将智能体开发套件 (ADK) 部署到 Cloud Run。
- 尝试在 Cloud Run 上使用 MCP 服务器和 ADK 代理的 Codelab。
- 尝试将 ADK 代理部署到具有 GPU 的 Cloud Run 的 Codelab。
- 在智能体开发套件 (ADK) 示例中查找现成可用的智能体示例。
- 在 Cloud Run 上托管 Model Context Protocol (MCP) 服务器。