Cloud Run 上的 AI/机器学习编排文档

Cloud Run 是一个全托管式平台，可让您直接在 Google 可伸缩的基础设施上运行容器化应用，包括 AI/ML 工作负载。它会为您处理基础架构，因此您可以专注于编写代码，而不必花费时间来运维、配置和扩缩 Cloud Run 资源。Cloud Run 的功能可提供以下优势：

硬件加速器：大规模访问和管理用于推理的 GPU。
框架支持：与您已经熟悉并信任的模型部署框架（例如 Hugging Face、TGI 和 vLLM）集成。
托管式 Kubernetes 的简易性：充分利用托管式平台的优势，自动执行整个 AI/机器学习生命周期的任务、实现扩缩并提升安全性，同时保持灵活性。

探索我们的教程和最佳实践，了解 Cloud Run 如何优化您的 AI/机器学习工作负载。

免费开始使用

获享 $300 免费赠金开始概念验证

体验 Gemini 2.0 Flash Thinking
获享热门产品（包括 AI API 和 BigQuery）的月度免费用量
不会自动收费，无需承诺

查看免费产品优惠

继续探索 20 多种提供“始终免费”用量的产品

使用适用于常见应用场景（包括 AI API、虚拟机、数据仓库等）的 20 多种免费产品。

文档资源

查找快速入门和指南，查看重要参考文档，并获取有关常见问题的帮助。

运行 AI 解决方案

使用 GPU 进行推理

教程
在 Cloud Run GPU 上使用 Gemma 3 和 Ollama 运行 LLM 推理
操作方法
在 Cloud Run 上运行 Gemma 3 模型
教程
使用 Hugging Face 在 Cloud Run GPU 上运行 LLM 推理
最佳做法
最佳实践：带有 GPU 的 Cloud Run 作业
教程
使用 Cloud Run 作业通过 GPU 微调 LLM
教程
在 Cloud Run 作业中使用 FFmpeg 进行 GPU 加速视频转码
最佳做法
最佳实践：带有 GPU 的 Cloud Run 作业
最佳做法
最佳实践：带有 GPU 的 Cloud Run 工作器池

问题排查

探索自主培训、应用场景、参考架构和代码示例，并了解有关如何使用和连接 Google Cloud 服务的示例。

使用场景

在 Cloud Run 上使用 NVIDIA GPU 运行 AI 推理应用

在 Cloud Run 上使用 NVIDIA L4 GPU 进行实时 AI 推理，包括快速冷启动和扩展到零的优势，适用于大语言模型 (LLM)。

GPU LLM

了解详情

使用场景

Cloud Run：将 AI 应用部署到生产环境的最快方式

了解如何使用 Cloud Run 来开发可用于生产环境的 AI 应用。本指南介绍了各种使用情形，例如用于 A/B 测试提示的流量拆分、RAG（检索增强生成）模式以及与向量存储区的连接。

AI 应用用于 A/B 测试的流量拆分 RAG 模式向量存储区与向量存储区的连接

了解详情

使用场景

轻松部署 AI：从 AI Studio 或与 MCP 兼容的 AI 智能体将应用部署到 Cloud Run

只需点击一下，即可将 Google AI Studio 中的模型部署到 Cloud Run 和 Cloud Run MCP（模型上下文协议）服务器，从而在 IDE 或智能体 SDK 中启用 AI 智能体并部署应用。

MCP 服务器部署 Cloud Run

了解详情

使用场景

利用 GPU 算力为 Cloud Run 注入强大动力：AI 工作负载的新时代

将 NVIDIA L4 GPU 与 Cloud Run 集成，以经济高效地提供 LLM 服务。本指南重点介绍了“缩放至零”，并提供了使用 Ollama 部署 Gemma 2 等模型的步骤。

LLM GPU Ollama 费用优化

了解详情

使用场景

还在将 AI 模型封装到容器中？在 Cloud Run 上执行此操作

使用 Cloud Storage FUSE 将大型模型文件与容器映像分离。解耦可缩短 build 时间、简化更新，并创建更具可扩缩性的服务架构。

模型封装 Cloud Storage FUSE 最佳实践大型模型

了解详情

使用场景

使用 Cog 将机器学习模型打包并部署到 Google Cloud

使用针对机器学习服务优化的 Cog 框架，简化容器到 Cloud Run 的打包和部署。

Cog 模型封装部署教程

了解详情

使用场景

使用 Cloud Run 部署和监控机器学习模型 - 轻量级、可扩缩且经济实惠

使用 Cloud Run 进行轻量级机器学习推理，并使用 Cloud Logging 和 BigQuery 等原生 GCP 服务构建经济高效的监控堆栈。

监控 MLOps 成本效益推理

了解详情

使用场景

使用 Cloud Run 在网站中部署 Google Cloud 生成式 AI 应用

将调用 Vertex AI 生成式 AI API 的简单 Flask 应用部署到可扩缩的 Cloud Run 服务上。

生成式 AI Vertex AI Flask 部署

了解详情

使用场景

直接从 AI Studio 将 Gemma 部署到 Cloud Run

使用 AI Studio 中的 Gemma Python 代码，并将其直接部署到 Cloud Run 实例，同时利用 Secret Manager 安全处理 API 密钥。

AI Studio Gemma 部署教程

了解详情

Cloud Run 上的 AI/机器学习编排文档

获享 $300 免费赠金开始概念验证

继续探索 20 多种提供“始终免费”用量的产品

运行 AI 解决方案

使用 GPU 进行推理

问题排查

在 Cloud Run 上使用 NVIDIA GPU 运行 AI 推理应用

Cloud Run：将 AI 应用部署到生产环境的最快方式

轻松部署 AI：从 AI Studio 或与 MCP 兼容的 AI 智能体将应用部署到 Cloud Run

利用 GPU 算力为 Cloud Run 注入强大动力：AI 工作负载的新时代

还在将 AI 模型封装到容器中？在 Cloud Run 上执行此操作

使用 Cog 将机器学习模型打包并部署到 Google Cloud

使用 Cloud Run 部署和监控机器学习模型 - 轻量级、可扩缩且经济实惠

使用 Cloud Run 在网站中部署 Google Cloud 生成式 AI 应用

直接从 AI Studio 将 Gemma 部署到 Cloud Run

相关视频