「Cloud Run 中的 AI/機器學習自動化調度管理機制」說明文件

Cloud Run 是全代管平台,可讓您直接在 Google 可擴充的基礎架構上執行容器化應用程式,包括 AI/ML 工作負載。這項服務會為您處理基礎架構,讓您專心編寫程式碼,不必花時間操作、設定及擴充 Cloud Run 資源。Cloud Run 的功能提供下列項目:

  • 硬體加速器:大規模存取及管理 GPU,以進行推論。
  • 架構支援:整合您已熟悉且信任的模型服務架構,例如 Hugging Face、TGI 和 vLLM。
  • 代管平台:充分運用代管平台的優勢,自動化、擴大規模及提升整個 AI/機器學習生命週期的安全性,同時維持彈性。

歡迎參考我們的教學課程和最佳做法,瞭解如何運用 Cloud Run 最佳化 AI/機器學習工作負載。

  • 運用最新的生成式 AI 模型和工具進行開發。
  • 免費使用 Compute Engine 和 AI API 等 20 多項熱門產品。
  • 不會自動收費,也無需綁約。

繼續探索 20 多項永久免費的產品。

存取 20 多項常見用途的免費產品,包括 AI API、VM 和資料倉儲等。

探索自修訓練課程、用途、參考架構和程式碼範例,瞭解如何使用及連結 Google Cloud 服務。
用途
用途

在 Cloud Run 上使用 NVIDIA L4 GPU 執行即時 AI 推論,包括大型語言模型 (LLM) 的快速冷啟動和零擴充優勢。

GPU LLM

用途
用途

瞭解如何使用 Cloud Run 打造可投入生產的 AI 應用程式。本指南說明各種用途,例如提示詞的 A/B 測試流量分配、RAG (檢索增強生成) 模式,以及向量儲存空間連線。

AI 應用程式 A/B 測試的流量分配 RAG 模式 向量儲存區 向量儲存區連線

用途
用途

從 Google AI Studio 一鍵部署至 Cloud Run 和 Cloud Run MCP (模型內容通訊協定) 伺服器,在 IDE 或代理程式 SDK 中啟用 AI 代理程式,並部署應用程式。

MCP 伺服器 部署作業 Cloud Run

用途
用途

將 NVIDIA L4 GPU 與 Cloud Run 整合,以符合成本效益的方式提供 LLM 服務。本指南著重於「縮放至零」,並提供使用 Ollama 部署 Gemma 2 等模型的步驟。

LLM GPU Ollama 成本最佳化

用途
用途

使用 Cloud Storage FUSE 將大型模型檔案與容器映像檔分離。解除耦合可縮短建構時間、簡化更新程序,並建立更具延展性的服務架構。

模型封裝 Cloud Storage FUSE 最佳做法 大型模型

用途
用途

使用專為 ML 服務最佳化的 Cog 架構,簡化容器封裝作業,並將容器部署至 Cloud Run。

Cog 模型封裝 部署 教學課程

用途
用途

使用 Cloud Run 進行輕量級的 ML 推論,並運用 Cloud Logging 和 BigQuery 等原生 GCP 服務,建構經濟實惠的監控堆疊。

監控 機器學習運作 成本效益 推論

用途
用途

將呼叫 Vertex AI Generative AI API 的簡易 Flask 應用程式,部署至可擴充的 Cloud Run 服務。

生成式 AI Vertex AI Flask 部署

用途
用途

使用 AI Studio 中的 Gemma Python 程式碼,直接部署至 Cloud Run 執行個體,並運用 Secret Manager 安全地處理 API 金鑰。

AI Studio Gemma 部署 教學課程

相關影片