Cloud Run 上的 AI/机器学习编排文档

Cloud Run 是一个全托管式平台,可让您直接在 Google 可伸缩的基础设施上运行容器化应用,包括 AI/机器学习工作负载。它会为您处理基础架构,因此您可以专注于编写代码,而不必花费时间来运维、配置和扩缩 Cloud Run 资源。Cloud Run 的功能可提供以下优势:

  • 硬件加速器:大规模访问和管理用于推理的 GPU。
  • 框架支持:与您已经熟悉并信任的模型部署框架(例如 Hugging Face、TGI 和 vLLM)集成。
  • 托管式 Kubernetes 的简易性:充分利用托管式平台的优势,自动执行整个 AI/机器学习生命周期的任务、实现扩缩并提升安全性,同时保持灵活性。

探索我们的教程和最佳实践,了解 Cloud Run 如何优化您的 AI/机器学习工作负载。

  • 使用我们最新的生成式 AI 模型和工具进行开发。
  • 免费使用 20 多款热门产品,包括 Compute Engine 和 AI API。
  • 不会自动收费,无需承诺。

继续探索 20 多种提供“始终免费”用量的产品。

使用适用于常见应用场景(包括 AI API、虚拟机、数据仓库等)的 20 多种免费产品。

探索自主培训、应用场景、参考架构和代码示例,并了解有关如何使用和连接 Google Cloud 服务的示例。
使用场景
使用场景

在 Cloud Run 上使用 NVIDIA L4 GPU 进行实时 AI 推理,包括快速冷启动和缩减至零的优势,适用于大语言模型 (LLM)。

GPU LLM

使用场景
使用场景

了解如何在可用于生产用途的 AI 应用中使用 Cloud Run。本指南介绍了各种使用情形,例如用于 A/B 测试提示的流量拆分、RAG(检索增强生成)模式以及与向量存储区的连接。

AI 应用 用于 A/B 测试的流量拆分 RAG 模式 向量存储区 与向量存储区的连接

使用场景
使用场景

只需在 Google AI Studio 中点击一下,即可将应用部署到 Cloud Run 和 Cloud Run MCP (Model Context Protocol) 服务器,从而在 IDE 或代理 SDK 中启用 AI 代理并部署应用。

MCP 服务器 部署 Cloud Run

使用场景
使用场景

将 NVIDIA L4 GPU 与 Cloud Run 集成,以经济高效地提供 LLM 服务。本指南重点介绍了“缩放至零”,并提供了使用 Ollama 部署 Gemma 2 等模型的步骤。

LLM GPU Ollama 费用优化

使用场景
使用场景

使用 Cloud Storage FUSE 将大型模型文件与容器映像分离。解耦可缩短 build 时间、简化更新,并创建更具可扩缩性的服务架构。

模型打包 Cloud Storage FUSE 最佳实践 大型模型

使用场景
使用场景

使用针对机器学习服务优化的 Cog 框架,简化容器到 Cloud Run 的打包和部署。

Cog 模型打包 部署 教程

使用场景
使用场景

使用 Cloud Run 进行轻量级机器学习推理,并使用 Cloud Logging 和 BigQuery 等原生 GCP 服务构建经济高效的监控栈。

监控 MLOps 成本效益 推理

使用场景
使用场景

将调用 Vertex AI 生成式 AI API 的简单 Flask 应用部署到可伸缩的 Cloud Run 服务上。

生成式 AI Vertex AI Flask 部署

使用场景
使用场景

使用 AI Studio 中的 Gemma Python 代码,并将其直接部署到 Cloud Run 实例,同时利用 Secret Manager 安全处理 API 密钥。

AI Studio Gemma 部署 教程

相关视频