本指南概述了如何使用 Cloud Run 来托管应用、运行推理和构建 AI 工作流。
Cloud Run,用于托管 AI 应用、代理和可扩缩的 API 端点
Cloud Run 提供了一个全托管式平台,可扩缩 AI 应用和工作负载。
在 Cloud Run 上托管 AI 应用时,您通常会使用以下架构组件:
- 提供服务和编排:将应用代码或容器部署到 Cloud Run。
- AI 模型:您在应用中使用 Google 的 AI 模型、开源模型或自定义模型。
- 集成:您可以连接到 Google Cloud 服务或第三方服务,以实现内存、数据库、存储、安全等功能。
- 工具:您可以连接到其他工具以执行其他任务和操作。
下图简要展示了如何使用 Cloud Run 作为 AI 应用的托管平台:
如图所示:
在服务和编排层中,Cloud Run 服务充当应用核心逻辑的可扩缩 API 端点。它通过自动、按需、快速扩缩实例来高效管理多个并发用户。
您自带容器,以便部署到 Cloud Run。您可以将应用及其依赖项打包到容器中,也可以提供源代码,让 Cloud Run 自动将代码构建到容器中以进行部署。对于源代码部署,您可以使用任何语言、开放框架或 SDK 来构建 AI 应用。
您的 AI 应用充当可扩缩的 API 端点,用于处理传入的请求并将数据发送到预训练的 AI 模型进行处理,然后返回结果。
Cloud Run 与 Gemini 和 Vertex AI 模型等 Google 模型集成,还可以与 Llama 和 Gemma 等开源模型集成。如果您有自己训练的自定义模型,也可以将该模型与 Cloud Run 资源搭配使用。
Google Cloud 提供各种解决方案来支持 AI 应用的基础设施。 以下是一些与 AI 应用搭配使用的Google Cloud 集成:
- 内存和数据库
- 短期
- Memorystore 是一项缓存和临时高访问数据管理服务,可为短期数据存储提供快速的外部缓存。
- 长期
- AlloyDB for PostgreSQL 是一款与 PostgreSQL 兼容的数据库,专为要求严苛的事务型和分析型工作负载而设计。它提供内置的向量嵌入生成功能和高速向量索引,与标准
pgvector实现相比,可快速进行语义搜索。 - Cloud SQL 是一项适用于 MySQL、PostgreSQL 和 SQL Server 的关系型数据库服务,还可以通过 PostgreSQL 的
pgvector扩展程序充当向量存储区。 - Firestore 是一种可扩缩的 NoSQL 文档数据库服务,包含内置的向量搜索功能。
- AlloyDB for PostgreSQL 是一款与 PostgreSQL 兼容的数据库,专为要求严苛的事务型和分析型工作负载而设计。它提供内置的向量嵌入生成功能和高速向量索引,与标准
- 短期
- 存储
- Cloud Storage 是一种对象存储解决方案,可用于存储大型数据集以进行模型训练、存储应用的输入/输出文件或模型工件。
- 安全
- Secret Manager 是一项密钥和凭据管理服务,可提供一种安全且集中化的方式来存储敏感数据(例如 API 密钥、密码和凭据),这些数据通常是 AI 应用与外部服务交互所必需的。
如需了解详情,请参阅连接到 Google Cloud 服务。
- 内存和数据库
借助工具,AI 应用和模型可以与外部或在 Cloud Run 上运行的服务、API 或网站进行交互。
例如,如果您的 AI 应用是 AI 代理,您的代理可能会向 MCP 服务器发送请求以执行外部工具,或者使用在容器中运行的工具,例如代码执行、计算机使用、信息检索等。
在 Cloud Run 上托管模型以进行 AI 推理
除了构建使用大语言模型 (LLM) 的应用和代理之外,您还可以通过 Cloud Run 启用 GPU,以运行预训练或自定义的自部署模型进行 AI 推理。
借助 Cloud Run GPU,您可以处理运行计算需求量大的 AI 推理工作负载所需的众多操作。以容器映像或源代码的形式部署 AI 模型,并使用各种方法部署 Cloud Run 资源。