Cloud Run 上的 AI/机器学习编排文档
Cloud Run 是一个全托管式平台,可让您直接在 Google 可伸缩的基础设施上运行容器化应用,包括 AI/ML 工作负载。它会为您处理基础架构,因此您可以专注于编写代码,而不必花费时间来运维、配置和扩缩 Cloud Run 资源。Cloud Run 的功能可提供以下优势:
- 硬件加速器:大规模访问和管理用于推理的 GPU。
- 框架支持:与您已经熟悉并信任的模型部署框架(例如 Hugging Face、TGI 和 vLLM)集成。
- 托管式 Kubernetes 的简易性:充分利用托管式平台的优势,自动执行整个 AI/机器学习生命周期的任务、实现扩缩并提升安全性,同时保持灵活性。
探索我们的教程和最佳实践,了解 Cloud Run 如何优化您的 AI/机器学习工作负载。
获享 $300 免费赠金开始概念验证
- 体验 Gemini 2.0 Flash Thinking
- 获享热门产品(包括 AI API 和 BigQuery)的月度免费用量
- 不会自动收费,无需承诺
继续探索 20 多种提供“始终免费”用量的产品
使用适用于常见应用场景(包括 AI API、虚拟机、数据仓库等)的 20 多种免费产品。
文档资源
运行 AI 解决方案
- 概念
- 概念
- 操作方法
- 操作方法
- 操作方法
- 教程
- 概念
- 概念
使用 GPU 进行推理
- 教程
- 操作方法
- 教程
-
最佳做法
最佳实践:带有 GPU 的 Cloud Run 作业
- 教程
- 教程
- 最佳做法
- 最佳做法
问题排查
- 概念
- 操作方法
- 操作方法
- 操作方法
相关资源
在 Cloud Run 上使用 NVIDIA GPU 运行 AI 推理应用
在 Cloud Run 上使用 NVIDIA L4 GPU 进行实时 AI 推理,包括快速冷启动和扩展到零的优势,适用于大语言模型 (LLM)。
Cloud Run:将 AI 应用部署到生产环境的最快方式
了解如何使用 Cloud Run 来开发可用于生产环境的 AI 应用。本指南介绍了各种使用情形,例如用于 A/B 测试提示的流量拆分、RAG(检索增强生成)模式以及与向量存储区的连接。
轻松部署 AI:从 AI Studio 或与 MCP 兼容的 AI 智能体将应用部署到 Cloud Run
只需点击一下,即可将 Google AI Studio 中的模型部署到 Cloud Run 和 Cloud Run MCP(模型上下文协议)服务器,从而在 IDE 或智能体 SDK 中启用 AI 智能体并部署应用。
利用 GPU 算力为 Cloud Run 注入强大动力:AI 工作负载的新时代
将 NVIDIA L4 GPU 与 Cloud Run 集成,以经济高效地提供 LLM 服务。本指南重点介绍了“缩放至零”,并提供了使用 Ollama 部署 Gemma 2 等模型的步骤。
还在将 AI 模型封装到容器中?在 Cloud Run 上执行此操作
使用 Cloud Storage FUSE 将大型模型文件与容器映像分离。解耦可缩短 build 时间、简化更新,并创建更具可扩缩性的服务架构。
使用 Cog 将机器学习模型打包并部署到 Google Cloud
使用针对机器学习服务优化的 Cog 框架,简化容器到 Cloud Run 的打包和部署。
使用 Cloud Run 部署和监控机器学习模型 - 轻量级、可扩缩且经济实惠
使用 Cloud Run 进行轻量级机器学习推理,并使用 Cloud Logging 和 BigQuery 等原生 GCP 服务构建经济高效的监控堆栈。
使用 Cloud Run 在网站中部署 Google Cloud 生成式 AI 应用
将调用 Vertex AI 生成式 AI API 的简单 Flask 应用部署到可扩缩的 Cloud Run 服务上。
直接从 AI Studio 将 Gemma 部署到 Cloud Run
使用 AI Studio 中的 Gemma Python 代码,并将其直接部署到 Cloud Run 实例,同时利用 Secret Manager 安全处理 API 密钥。