Cloud Run AI Cookbook

本页面提供了一份精选的资源列表,可帮助您在 Cloud Run 上构建和部署 AI 解决方案。

Cloud Run 是一个全代管式应用平台,可让您在 Google 高度可伸缩的基础设施之上运行代码、函数或容器。您可以使用 Cloud Run 运行各种 AI 解决方案,例如 AI 推理端点、生成式模型 API、整个检索增强生成 (RAG) 流水线等。

您可以使用以下类别和链接浏览官方指南、快速入门和有价值的社区内容。如需查看 Cloud Run 文档和建议,请参阅探索 Cloud Run 上的 AI 解决方案

有关社区资源的说明

标记为“社区”的内容是来自开发者社区的精选资源,并非由 Google 开发或维护。使用这些资源时,请注意以下事项:

  • 安全审核:务必仔细检查所有代码,尤其是代码处理私人信息、用户输入和网络访问的方式。
  • 弃用和更新:社区代码可能会过时,或者在没有警告的情况下无法再与新的 Cloud Run 功能或 AI 版本搭配使用。检查其上次更新日期以及是否仍在积极维护。
  • 成本效益:虽然这些设置通常旨在降低成本,但可能并未遵循 Google 在实际项目中节省资金的最佳实践。密切监控结算情况。
  • 许可合规性:确保您了解并遵循添加到应用中的任何社区代码或库的开源许可。
  • 先测试再部署:验证所有重要设置,并在测试环境中尝试社区解决方案,然后再将其用于实际项目。

按类别或关键字过滤

使用过滤条件或搜索框按类别或关键字查找内容。


过滤条件:
类别 标题和说明 发布日期
博客
Gemma 3

在 Google Cloud 上亲自体验 Gemma 3

这篇博文介绍了两个 Codelab,它们向开发者展示了如何使用无服务器方法(通过 Cloud Run)或平台方法(通过 Google Kubernetes Engine [GKE])在 Google Cloud 上部署 Gemma 3。

2025-11-17
博客
工具

轻松实现 AI 工作流自动化:在 Cloud Run 上部署 n8n

这篇博文介绍了如何使用 Cloud Run 上的 n8n 工作流自动化工具部署代理,以创建 AI 赋能的工作流并与 Google Workspace 等工具集成。

2025-11-07
博客
扩展程序
Gemini

使用新的 Gemini CLI 扩展程序自动执行应用部署和安全分析

这篇博文宣布在 Gemini CLI 中推出 Cloud Run 扩展程序,以便通过单个 /deploy 命令简化应用部署。

2025-09-10
博客
扩展程序
Gemini

从 localhost 到上线:使用 Cloud Run 和 Docker Compose 简化 AI 应用部署

这篇博文宣布了 Google Cloud 与 Docker 之间的合作,通过允许开发者使用 gcloud run compose up 命令直接将 compose.yaml 文件部署到 Cloud Run,从而简化了复杂 AI 应用的部署。

2025-07-10
博客
MCP

在 10 分钟内构建远程 MCP 服务器并将其部署到 Google Cloud Run

这篇博文详细介绍了如何使用 FastMCP 在不到 10 分钟的时间内在 Google Cloud Run 上构建和部署安全的远程 Model Context Protocol (MCP) 服务器,然后从本地客户端对其进行测试。

2025-06-07
代理
AI Studio
博客
MCP

轻松部署 AI:通过 AI Studio 或与 MCP 兼容的 AI 代理将应用部署到 Cloud Run

这篇博文介绍了如何通过以下方式简化 AI 部署:只需在 AI Studio 中点击一下即可将应用部署到 Cloud Run、直接部署 Gemma 3 模型,以及使用 MCP 服务器进行基于代理的部署。

2025-05-20
代理
博客
使用场景

合并速度提高 50%,bug 减少 50%:CodeRabbit 如何使用 Google Cloud Run 构建 AI 代码审核代理

本文展示了 AI 代码审核工具 CodeRabbit 如何利用 Cloud Run 构建可伸缩且安全的平台来执行不受信任的代码,最终将代码审核时间和 bug 数量减少了一半。

2025-04-22
博客
Vertex AI

使用 Vertex AI 和 Cloud Run 在不到 60 秒内创建可分享的生成式 AI 应用

本文介绍了 Vertex AI 中的一项功能,该功能可让您在 Cloud Run 上一键部署 Web 应用。使用生成式 AI 提示,简化将生成式 AI 概念转化为可分享的原型的流程。

2025-02-20
博客
部署

如何在 Cloud Run 上使用 Gemma 3 部署无服务器 AI

这篇博文宣布推出 Gemma 3,这是一组轻量级开放 AI 模型,并说明了如何将其部署在 Cloud Run 上,以构建可伸缩且经济实惠的无服务器 AI 应用。

2025-03-12
博客
GPU
推理
RAG
Vertex AI

使用 Cloud Run 和 Vertex AI 开启推理即服务

这篇博文介绍了开发者如何通过在 Cloud Run 上采用推理即服务模型来加速生成式 AI 应用的开发。这样一来,您就可以托管和伸缩支持 GPU 的 LLM,并将其与检索增强生成 (RAG) 相集成,以生成特定于上下文的回答。

2025-02-20
架构
RAG
Vertex AI

使用 Vertex AI 和 Vector Search 的生成式 AI 的 RAG 基础架构

本文档介绍了一种参考架构,用于在 Google Cloud 上构建具有检索增强生成 (RAG) 功能的生成式 AI 应用,该架构利用 Vector Search 进行大规模相似度匹配,并利用 Vertex AI 管理嵌入和模型。

2025-03-07
代理
Antigravity
视频

停止编码,开始设计架构:Google Antigravity + Cloud Run

此视频介绍了 Google 的智能体 IDE Antigravity。您可以使用它从头开始构建全栈应用并将其部署到 Cloud Run。观看此视频,了解如何为 AI 编写规范表、强制 AI 使用现代 Node.js(无需构建步骤),以及观看 AI 在部署期间通过修改配置文件自主调试端口不匹配问题。

2025-12-08
代理
GPU
Ollama
视频

此 AI 代理在 Cloud Run + NVIDIA GPU 上运行

此视频展示了如何在无服务器 NVIDIA GPU 上构建真实的 AI 智能体应用。观看演示,了解如何使用 Cloud Run 上的 Ollama 和 LangGraph,通过 Gemma 等开源模型构建多代理工作流(RAG + 工具),打造智能健康代理。

2025-11-13
MCP
视频

在 Google Cloud Run 上使用 MCP 工具为 AI 代理提供支持

此视频介绍了 MCP(Model Context Protocol,模型上下文协议)以及它如何让 AI 代理开发者更轻松地完成工作。详细了解如何使用 FastMCP 构建 MCP 服务器,以及如何在 Cloud Run 上部署 ADK 智能体。了解代码如何使用 Cloud Run 的内置 OIDC 令牌处理服务到服务身份验证。

2025-11-06
Model Armor
安全
视频

我们尝试破解 AI(但 Model Armor 阻止了破解)

此视频展示了如何使用 Google 的 Model Armor 通过 API 调用来阻止威胁。

2025-10-30
基准化分析
Vertex AI
视频

不要猜测:如何对 AI 提示进行基准比较

本视频展示了如何使用 Vertex AI 和 Google Cloud 的工具构建可靠的生成式 AI 应用。开发者将学习如何使用 Google Cloud 工具进行快速原型设计、通过数据驱动的基准比较获得确切的数据,并最终构建自动化的 CI/CD 流水线以实现真正的质量控制,同时避免常见陷阱。

2025-10-23
ADK
多智能体
视频

如何使用 ADK 和 Gemini 构建多智能体应用

本视频介绍了如何使用 Google 的 ADK(智能体开发工具包)构建应用,以帮助您优化内容并进行协作。探索有状态多智能体如何比单个智能体更好地工作。

2025-10-16
Gemini
视频

使用 Gemini 构建可观看视频的 AI 应用

本视频展示了如何使用 Gemini 2.5 Pro 构建一款可以观看和理解 YouTube 视频的应用。使用智能提示自定义应用输出的内容,例如博文、摘要、测验等。此视频介绍了如何集成 Gemini 以从视频输入生成文本内容和标题图片,讨论了费用注意事项,并说明了如何通过批量请求处理较长的视频。

2025-10-06
GenAI
视频

让我们在 Cloud Run 上构建一个 GenAI 应用

本视频将逐步介绍架构和代码,并使用 AI 帮助完成每个步骤。

2025-07-17
代理
Firebase
视频

使用 Cloud Run 和 Firebase Genkit 构建 AI 智能体

此视频展示了如何使用 Cloud Run 和 Firebase Genkit(一种无服务器 AI 智能体构建工具)来构建 AI 智能体。

2025-07-10
AI Studio
Firebase
Gemini
LLM
视频

Cloud AI:它只是一个 API

此视频演示了如何使用 AI Studio、Cloud Functions 和 Firebase Hosting 快速构建技术支持应用。了解如何利用大语言模型 (LLM),并查看将 AI 集成到传统 Web 应用中的实际示例。

2025-06-19
ADK
代理
框架
LangGraph
Vertex AI
视频

在 Google Cloud 上构建 AI 代理

此视频展示了如何使用 Cloud Run 和 Vertex AI 构建和部署 AI 代理。探索工具调用、模型不可知性等关键概念,以及 LangGraph 和智能体开发套件 (ADK) 等框架的用法。

2025-05-21
AI 模型
GPU
Ollama
视频

利用 Cloud Run GPU 托管 DeepSeek 只需三步

此视频展示了如何使用 Cloud Run GPU 简化 DeepSeek AI 模型的托管。了解如何通过三条命令在 Google Cloud 上部署和管理大语言模型 (LLM)。观看本视频,了解 Cloud Run 和 Ollama 命令行工具的功能,以便开发者能够通过按需资源分配和伸缩快速运行 AI 应用。

2025-04-24
函数调用
Gemini
视频

如何将 Gemini 函数调用与 Cloud Run 搭配使用

本视频将探讨 Gemini 函数调用的强大功能,并了解如何将外部 API 集成到 AI 应用中。构建一个天气应用,该应用利用 Gemini 的自然语言理解功能来处理用户请求并从外部 API 获取天气数据,从而提供一个实际的函数调用示例。

2025-01-23
图片生成
Vertex AI
视频

在 Cloud Run 上使用 Google Cloud 的 Vertex AI 实现文本到图片转换

此视频展示了如何使用 Google Cloud 上的 Vertex AI 构建图片生成应用。借助 Vertex AI 图片生成模型,开发者无需复杂的架构或模型管理,即可创建精美的视觉效果。

2025-01-16
GPU
Ollama
视频

Ollama 和 Cloud Run(使用 GPU)

此视频介绍了如何使用 Ollama 在 Cloud Run 上轻松部署大语言模型,并使用 GPU 在云端实现可伸缩且高效的 AI 模型部署。

2024-12-02
数据保护
安全
视频

保护 AI 应用中的敏感数据

本视频展示了如何在 AI 应用中保护敏感数据。探索在整个 AI 生命周期中保护数据的关键概念、最佳实践和工具。

2024-11-21
LangChain
RAG
视频

在 Google Cloud 上使用 LangChain 实现 RAG

本视频介绍了如何使用检索增强生成 (RAG) 来提高 AI 应用的准确率。构建一个 Web 应用,利用 LangChain 的强大功能,这是一种可让 AI 回答更准确、更精确的技术。

2024-11-07
大型提示窗口
模型调优
RAG
视频

RAG 与模型调优与大提示窗口

本视频讨论了将数据集成到 AI 应用中的三种主要方法:具有长上下文窗口的提示、检索增强生成 (RAG) 和模型调优。在这一集《无服务器探险记》中,了解每种方法的优势、局限性和理想使用场景,以便为您的 AI 项目做出明智的决策。

2024-11-14
提示工程
视频

面向开发者的提示工程

本视频介绍了如何使用提示工程来提高 AI 回答的质量。观看此视频,了解如何通过思维链、少样本和多样本提示技巧,让生成式 AI 提供更准确、更相关的回答。

2024-10-31
AI 模型
GPU
LLM
视频

在 Cloud Run 上部署 GPU 驱动的大语言模型

此视频展示了如何在 Cloud Run 上部署自己的 GPU 驱动的大语言模型 (LLM)。此视频演示了如何采用 Gemma 等开源模型,并将其部署为可伸缩的无服务器服务(具有 GPU 加速功能)

2024-10-06
GPU
LLM
Ollama
视频

在 Cloud Run 中使用 GPU

此视频演示了如何通过 Cloud Run 上的 Ollama 部署 Google 的 Gemma 2(一种开源大语言模型)。

2024-10-03
Gemini
LLM
视频

在 Google Cloud 上构建 AI 聊天应用

本视频展示了如何在 Gemini 上构建大语言模型 (LLM) 聊天应用。

2024-08-29
多模态
Vertex AI
视频

多模态 AI

此视频演示了如何使用 Vertex AI 构建一个多模态应用,该应用可处理视频、音频和文本以创建输出。

2024-08-15
AI 模型
Vertex AI
视频

使用无服务器生成式 AI | Google Vertex AI

此视频展示了如何使用 Vertex AI Studio、Cloud Run 和生成式 AI 模型构建和部署速度极快的生成式 AI 应用。

2024-02-22
Codelab
工具

在 Google Cloud Run 上部署和运行 n8n

此 Codelab 演示了如何在 Cloud Run 上部署可用于生产环境的 n8n 工作流自动化工具实例,该实例包含用于持久存储的 Cloud SQL 数据库和用于存储敏感数据的 Secret Manager。

2025-11-20
Codelab
GPU
LLM

如何使用 vLLM 和 OpenAI Python SDK 在 Cloud Run GPU 上运行 LLM 推理

此 Codelab 演示了如何使用 vLLM 作为推理引擎,并使用 OpenAI Python SDK 在 Cloud Run 上部署 Google 的 Gemma 2 2b 指令调优模型,以执行句子补全。

2025-11-13
ADK
代理
Codelab

在 Cloud Run 上部署、管理和观测 ADK 智能体

此 Codelab 将引导您在 Cloud Run 上部署、管理和监控使用智能体开发套件 (ADK) 构建的强大代理。

2025-11-12
Codelab
Gemini CLI
MCP

如何在 Cloud Run 上部署安全的 MCP 服务器

此 Codelab 将引导您完成在 Cloud Run 上部署安全的 Model Context Protocol (MCP) 服务器并从 Gemini CLI 连接到该服务器的整个过程。

2025-10-28
ADK
代理
Codelab
MCP

构建和部署使用 Cloud Run 上 MCP 服务器的 ADK 代理

此 Codelab 将指导您使用智能体开发套件 (ADK) 构建和部署使用工具的 AI 代理。智能体连接到远程 MCP 服务器以获取其工具,并以容器的形式部署在 Cloud Run 上。

2025-10-27
AI 模型
Cloud Run 作业
Codelab
模型调优

如何使用 Cloud Run 作业微调 LLM

本 Codelab 提供了分步指南,介绍了如何使用 Cloud Run 作业和 GPU 在 Text2Emoji 数据集上微调 Gemma 3 模型,然后使用 vLLM 在 Cloud Run 服务上部署生成的模型。

2025-10-21
批量推理
Cloud Run 作业
Codelab

如何对 Cloud Run 作业运行批量推理

此 Codelab 演示了如何使用 GPU 赋能的 Cloud Run 作业对 Llama 3.2-1b 模型运行批量推理,并将结果直接写入 Cloud Storage 存储桶。

2025-10-21
ADK
代理
Codelab
GPU
LLM
MCP

实验 3:从原型到生产环境 - 将 ADK 智能体部署到具有 GPU 的 Cloud Run

此 Codelab 演示了如何在 Cloud Run 上部署已准备好投入生产的智能体开发套件 (ADK) 代理,并使用 GPU 加速的 Gemma 后端。此 Codelab 涵盖部署、集成和性能测试。

2025-10-03
代理
Codelab

如何部署调用后端 ADK 智能体(两者都在 Cloud Run 上运行)的 Gradio 前端应用

此 Codelab 演示了如何在 Cloud Run 上部署一个双层应用,该应用包含一个 Gradio 前端和一个 ADK 代理后端,重点在于实现安全、经过身份验证的服务到服务通信。

2025-09-29
Codelab
Gemini

如何使用 Gemini 将 FastAPI 聊天机器人应用部署到 Cloud Run

此 Codelab 展示了如何将 FastAPI 聊天机器人应用部署到 Cloud Run。

2025-04-02
Cloud Run functions
Codelab
LLM

如何在 Cloud Run 函数的边车中托管 LLM

此 Codelab 展示了如何在 Cloud Run functions 函数的边车中托管 gemma3:4b 模型。

2025-03-27
社区
安全

随时随地安全地调用 Cloud Run 服务

本文提供了一个 Python 代码示例,该示例可获取身份令牌,以便从任何环境中安全地调用经过身份验证的 Cloud Run 服务。该示例使用应用默认凭据 (ADC) 对调用进行身份验证。

2025-10-15
AI 模型
社区
RAG

无服务器 AI:使用 Cloud Run 嵌入 Gemma

本文提供了一份分步指南,介绍了如何将 EmbeddingGemma 模型容器化并部署到 Cloud Run with GPUs,然后使用该模型构建 RAG 应用。

2025-09-24
社区
安全

AI 信任链:在 Cloud Run 上保护 MCP 工具箱架构

本文将剖析一个基于 Google Cloud 构建的简单酒店预订应用。它演示了使用服务身份的强大零信任安全模型,并展示了如何从最终用户一直到数据库建立安全的信任链。

2025-09-03
AI 模型
社区
容器化
Docker
Ollama
RAG

无服务器 AI:使用 Cloud Run 的 Qwen3 嵌入模型

本文提供了一篇教程,介绍了如何使用 GPU 将 Qwen3 Embedding 模型部署到 Cloud Run。该文章还介绍了如何使用 Docker 和 Ollama 进行容器化,并提供了一个如何在 RAG 应用中使用它们的示例。

2025-08-20
架构
社区
LLM

仍在容器中打包 AI 模型?改为在 Cloud Run 上执行此操作

本文建议采用一种更高效且可伸缩的架构,在 Cloud Run 上提供大语言模型 (LLM),方法是将模型文件与应用容器分离,转而使用 Cloud Storage FUSE。

2025-08-11
AI 模型
社区

使用 Gemini 和 Cloud Run 构建 AI 赋能的播客生成器

本文详细介绍了如何构建无服务器 AI 赋能的播客生成器,该生成器使用 Gemini 进行内容总结,并使用 Cloud Run。此示例编排了自动化流水线,用于根据 RSS Feed 生成和提供每日音频简报。

2025-08-11
社区
MCP

使用 Google Cloud Run 为 MCP 服务器提供支持

本文介绍了 Model Context Protocol (MCP) 的用途,并提供了一个教程,其中介绍了如何在 Cloud Run 上构建和部署 MCP 服务器,以将资源作为 AI 应用的工具公开。

2025-07-09
社区
机器学习模型
监控

使用 Cloud Run 部署和监控机器学习模型 - 轻量级、可伸缩且经济高效

本文介绍了如何利用 Google Cloud 服务构建轻量级监控堆栈,在 Cloud Run 上部署、监控机器学习模型并自动扩缩该模型,以跟踪性能并控制成本。

2025-05-29
AI 模型
AI Studio
社区
LLM

直接从 AI Studio 将 Gemma 部署到 Cloud Run

本文提供了一份分步教程,介绍了如何从 AI Studio 获取 Gemma 模型、调整其代码以用于生产环境,以及将其部署为容器化的 Web 应用并运行在 Cloud Run 上。

2025-05-29
ADK
代理
社区
MCP

智能体架构的三要素:ADK、MCP 和 Cloud Run

本文演示了如何通过设置与托管在 Cloud Run 上的 Model Context Protocol (MCP) 服务器通信的智能体开发套件 (ADK) 工作流来构建 AI 智能体架构,以管理航班预订。

2025-05-27
A2A
代理
社区
框架
使用场景

在 Cloud Run 上通过购买礼宾服务用例探索 Agent2Agent (A2A) 协议

本文介绍了 Agent2Agent (A2A) 协议,并演示了如何将其与购物礼宾应用搭配使用。Cloud Run 应用包含多个使用不同框架构建的 AI 代理,这些代理相互协作以完成用户的订单。

2025-05-15
AI 模型
Automation
CI/CD
社区
GitHub

使用 GitHub Actions 和 Cloud Run 自动部署机器学习模型

本文全面介绍了如何使用 GitHub Actions 创建 CI/CD 流水线,以自动构建和部署 Cloud Run 上以容器化服务形式呈现的机器学习模型。

2025-05-08
社区
LLM
安全

利用 Google Cloud 构建主权 AI 解决方案 - Cloud Run

本文分步介绍了如何使用合作伙伴提供的自主控制措施在 Google Cloud 上构建和部署自主 AI 解决方案。该示例在 Cloud Run 上运行 Gemma 模型,确保数据驻留并遵守欧洲法规。

2025-04-03
社区
LLM

在上班途中,从零开始在 Cloud Run 上使用 Deepseek

本文介绍了如何在上班途中使用 Ollama 在 Cloud Run 上快速部署 Deepseek R1 模型(使用 GPU)。本文将探讨一些高级主题,例如将模型嵌入容器、通过流量拆分进行 A/B 测试,以及使用边车容器添加 Web 界面。

2025-02-11
社区
LLM
Ollama

如何在 Google Cloud Run 上使用 Ollama 运行(任何)开源 LLM [分步指南]

本文介绍了如何使用 Ollama 在 Google Cloud Run 上托管任何开源 LLM,例如 Gemma 2。该文章还包含有关创建 Cloud Storage 存储桶以实现模型持久性以及测试部署的说明。

2025-01-20
社区
机器学习模型

使用 Google Cloud 部署具有 GPU 的无服务器机器学习模型:Cloud Run

本文提供了一份分步指南,介绍了如何在 Cloud Run 上部署支持 GPU 的机器学习 (ML) 模型。本文涵盖了从项目设置和容器化到使用 Cloud Build 进行自动化部署以及使用 curl 和 JavaScript 进行测试的所有内容。

2025-01-17