Cloud Run 上的 AI/机器学习编排文档

Cloud Run 是一个全托管式平台,可让您直接在 Google 可伸缩的基础设施上运行容器化应用,包括 AI/ML 工作负载。它会为您处理基础架构,因此您可以专注于编写代码,而不必花费时间来运维、配置和扩缩 Cloud Run 资源。Cloud Run 的功能可提供以下优势:

  • 硬件加速器:大规模访问和管理用于推理的 GPU。
  • 框架支持:与您已经熟悉并信任的模型部署框架(例如 Hugging Face、TGI 和 vLLM)集成。
  • 托管式 Kubernetes 的简易性:充分利用托管式平台的优势,自动执行整个 AI/机器学习生命周期的任务、实现扩缩并提升安全性,同时保持灵活性。

探索我们的教程和最佳实践,了解 Cloud Run 如何优化您的 AI/机器学习工作负载。

  • 体验 Gemini 2.0 Flash Thinking
  • 获享热门产品(包括 AI API 和 BigQuery)的月度免费用量
  • 不会自动收费,无需承诺

继续探索 20 多种提供“始终免费”用量的产品

使用适用于常见应用场景(包括 AI API、虚拟机、数据仓库等)的 20 多种免费产品。

探索自主培训、应用场景、参考架构和代码示例,并了解有关如何使用和连接 Google Cloud 服务的示例。
使用场景
使用场景

在 Cloud Run 上使用 NVIDIA L4 GPU 进行实时 AI 推理,包括快速冷启动和扩展到零的优势,适用于大语言模型 (LLM)。

GPU LLM

使用场景
使用场景

了解如何使用 Cloud Run 来开发可用于生产环境的 AI 应用。本指南介绍了各种使用情形,例如用于 A/B 测试提示的流量拆分、RAG(检索增强生成)模式以及与向量存储区的连接。

AI 应用 用于 A/B 测试的流量拆分 RAG 模式 向量存储区 与向量存储区的连接

使用场景
使用场景

只需点击一下,即可将 Google AI Studio 中的模型部署到 Cloud Run 和 Cloud Run MCP(模型上下文协议)服务器,从而在 IDE 或智能体 SDK 中启用 AI 智能体并部署应用。

MCP 服务器 部署 Cloud Run

使用场景
使用场景

将 NVIDIA L4 GPU 与 Cloud Run 集成,以经济高效地提供 LLM 服务。本指南重点介绍了“缩放至零”,并提供了使用 Ollama 部署 Gemma 2 等模型的步骤。

LLM GPU Ollama 费用优化

使用场景
使用场景

使用 Cloud Storage FUSE 将大型模型文件与容器映像分离。解耦可缩短 build 时间、简化更新,并创建更具可扩缩性的服务架构。

模型封装 Cloud Storage FUSE 最佳实践 大型模型

使用场景
使用场景

使用针对机器学习服务优化的 Cog 框架,简化容器到 Cloud Run 的打包和部署。

Cog 模型封装 部署 教程

使用场景
使用场景

使用 Cloud Run 进行轻量级机器学习推理,并使用 Cloud Logging 和 BigQuery 等原生 GCP 服务构建经济高效的监控堆栈。

监控 MLOps 成本效益 推理

使用场景
使用场景

将调用 Vertex AI 生成式 AI API 的简单 Flask 应用部署到可扩缩的 Cloud Run 服务上。

生成式 AI Vertex AI Flask 部署

使用场景
使用场景

使用 AI Studio 中的 Gemma Python 代码,并将其直接部署到 Cloud Run 实例,同时利用 Secret Manager 安全处理 API 密钥。

AI Studio Gemma 部署 教程

相关视频