Cloud Run 上的 AI/机器学习编排文档
Cloud Run 是一个全托管式平台,可让您直接在 Google 可伸缩的基础设施上运行容器化应用,包括 AI/机器学习工作负载。它会为您处理基础架构,因此您可以专注于编写代码,而不必花费时间来运维、配置和扩缩 Cloud Run 资源。Cloud Run 的功能可提供以下优势:
- 硬件加速器:大规模访问和管理用于推理的 GPU。
- 框架支持:与您已经熟悉并信任的模型部署框架(例如 Hugging Face、TGI 和 vLLM)集成。
- 托管式 Kubernetes 的简易性:充分利用托管式平台的优势,自动执行整个 AI/机器学习生命周期的任务、实现扩缩并提升安全性,同时保持灵活性。
探索我们的教程和最佳实践,了解 Cloud Run 如何优化您的 AI/机器学习工作负载。
获享 $300 免费赠金开始概念验证
- 使用我们最新的生成式 AI 模型和工具进行开发。
- 免费使用 20 多款热门产品,包括 Compute Engine 和 AI API。
- 不会自动收费,无需承诺。
继续探索 20 多种提供“始终免费”用量的产品。
使用适用于常见应用场景(包括 AI API、虚拟机、数据仓库等)的 20 多种免费产品。
文档资源
运行 AI 解决方案
- 概念
- 概念
- 操作方法
- 操作方法
- 操作方法
- 教程
- 概念
- 概念
使用 GPU 进行推理
- 教程
- 操作方法
- 教程
- 最佳做法
- 教程
- 教程
- 最佳做法
- 最佳做法
问题排查
- 概念
- 操作方法
- 操作方法
- 操作方法
相关资源
在 Cloud Run 上使用 NVIDIA GPU 运行 AI 推理应用
在 Cloud Run 上使用 NVIDIA L4 GPU 进行实时 AI 推理,包括快速冷启动和缩减至零的优势,适用于大语言模型 (LLM)。
Cloud Run:将 AI 应用部署到生产环境的最快方式
了解如何在可用于生产用途的 AI 应用中使用 Cloud Run。本指南介绍了各种使用情形,例如用于 A/B 测试提示的流量拆分、RAG(检索增强生成)模式以及与向量存储区的连接。
轻松部署 AI:通过 AI Studio 或与 MCP 兼容的 AI 代理将应用部署到 Cloud Run
只需在 Google AI Studio 中点击一下,即可将应用部署到 Cloud Run 和 Cloud Run MCP (Model Context Protocol) 服务器,从而在 IDE 或代理 SDK 中启用 AI 代理并部署应用。
利用 GPU 算力为 Cloud Run 赋能:AI 工作负载的新时代
将 NVIDIA L4 GPU 与 Cloud Run 集成,以经济高效地提供 LLM 服务。本指南重点介绍了“缩放至零”,并提供了使用 Ollama 部署 Gemma 2 等模型的步骤。
仍在容器中打包 AI 模型?改为在 Cloud Run 上执行此操作
使用 Cloud Storage FUSE 将大型模型文件与容器映像分离。解耦可缩短 build 时间、简化更新,并创建更具可扩缩性的服务架构。
使用 Cog 将机器学习模型打包并部署到 Google Cloud
使用针对机器学习服务优化的 Cog 框架,简化容器到 Cloud Run 的打包和部署。
使用 Cloud Run 部署和监控机器学习模型 - 轻量级、可伸缩且经济高效
使用 Cloud Run 进行轻量级机器学习推理,并使用 Cloud Logging 和 BigQuery 等原生 GCP 服务构建经济高效的监控栈。
使用 Cloud Run 在网站中部署 Google Cloud 生成式 AI 应用
将调用 Vertex AI 生成式 AI API 的简单 Flask 应用部署到可伸缩的 Cloud Run 服务上。
直接从 AI Studio 将 Gemma 部署到 Cloud Run
使用 AI Studio 中的 Gemma Python 代码,并将其直接部署到 Cloud Run 实例,同时利用 Secret Manager 安全处理 API 密钥。