「Cloud Run 中的 AI/機器學習自動化調度管理機制」說明文件
Cloud Run 是全代管平台,可讓您直接在 Google 可擴充的基礎架構上執行容器化應用程式,包括 AI/ML 工作負載。這項服務會為您處理基礎架構,讓您專心編寫程式碼,不必花時間操作、設定及擴充 Cloud Run 資源。Cloud Run 的功能提供下列項目:
- 硬體加速器:大規模存取及管理 GPU,以進行推論。
- 架構支援:整合您已熟悉且信任的模型服務架構,例如 Hugging Face、TGI 和 vLLM。
- 代管平台:充分運用代管平台的優勢,自動化、擴大規模及提升整個 AI/機器學習生命週期的安全性,同時維持彈性。
歡迎參考我們的教學課程和最佳做法,瞭解如何運用 Cloud Run 最佳化 AI/機器學習工作負載。
使用價值 $300 美元的免費抵免額,開始概念驗證
- 運用最新的生成式 AI 模型和工具進行開發。
- 免費使用 Compute Engine 和 AI API 等 20 多項熱門產品。
- 不會自動收費,也無需綁約。
繼續探索 20 多項永久免費的產品。
存取 20 多項常見用途的免費產品,包括 AI API、VM 和資料倉儲等。
說明文件資源
執行 AI 解決方案
- 概念
- 概念
- 操作說明
- 操作說明
- 操作說明
- 教學課程
- 概念
- 概念
使用 GPU 進行推論
- 教學課程
- 操作說明
- 教學課程
- 最佳做法
- 教學課程
- 教學課程
- 最佳做法
- 最佳做法
疑難排解
- 概念
- 操作說明
- 操作說明
- 操作說明
相關資源
在 Cloud Run 上使用 NVIDIA GPU 執行 AI 推論應用程式
在 Cloud Run 上使用 NVIDIA L4 GPU 執行即時 AI 推論,包括大型語言模型 (LLM) 的快速冷啟動和零擴充優勢。
Cloud Run:以最快速度將 AI 應用程式投入實際運作環境
瞭解如何使用 Cloud Run 打造可投入生產的 AI 應用程式。本指南說明各種用途,例如提示詞的 A/B 測試流量分配、RAG (檢索增強生成) 模式,以及向量儲存空間連線。
輕鬆部署 AI:從 AI Studio 或與 MCP 相容的 AI 代理,將應用程式部署至 Cloud Run
從 Google AI Studio 一鍵部署至 Cloud Run 和 Cloud Run MCP (模型內容通訊協定) 伺服器,在 IDE 或代理程式 SDK 中啟用 AI 代理程式,並部署應用程式。
透過 GPU 提升 Cloud Run 效能:AI 工作負載的新時代
將 NVIDIA L4 GPU 與 Cloud Run 整合,以符合成本效益的方式提供 LLM 服務。本指南著重於「縮放至零」,並提供使用 Ollama 部署 Gemma 2 等模型的步驟。
還在將 AI 模型封裝於容器中嗎?請改為在 Cloud Run 上執行這項操作
使用 Cloud Storage FUSE 將大型模型檔案與容器映像檔分離。解除耦合可縮短建構時間、簡化更新程序,並建立更具延展性的服務架構。
使用 Cog 將機器學習模型封裝並部署至 Google Cloud
使用專為 ML 服務最佳化的 Cog 架構,簡化容器封裝作業,並將容器部署至 Cloud Run。
使用 Cloud Run 部署及監控機器學習模型 - 輕量、可擴充且符合成本效益
使用 Cloud Run 進行輕量級的 ML 推論,並運用 Cloud Logging 和 BigQuery 等原生 GCP 服務,建構經濟實惠的監控堆疊。
在網站中透過 Cloud Run 部署 Google Cloud 生成式 AI 應用程式
將呼叫 Vertex AI Generative AI API 的簡易 Flask 應用程式,部署至可擴充的 Cloud Run 服務。
直接從 AI Studio 將 Gemma 部署至 Cloud Run
使用 AI Studio 中的 Gemma Python 程式碼,直接部署至 Cloud Run 執行個體,並運用 Secret Manager 安全地處理 API 金鑰。