無論是建構代理程式、執行推論模型,還是整合各種 AI 服務,Cloud Run 都能提供擴充性、彈性和易用性,協助您實現 AI 創新。
本頁面著重說明在 Cloud Run 上代管、建構及部署 AI 工作負載的一些高階用途。
為什麼要使用 Cloud Run 處理 AI 工作負載?
Cloud Run 具有多項優勢,可確保 AI 應用程式具備可擴充性、彈性和可管理性。以下列舉幾項重點功能:
- 彈性的容器支援:將應用程式及其依附元件封裝在容器中,或使用任何支援的語言、程式庫或架構。進一步瞭解 Cloud Run 的容器執行階段合約。
- HTTP 端點:部署 Cloud Run 服務後,即可取得立即可用的安全 Cloud Run 網址端點。Cloud Run 支援 HTTP 分塊傳輸編碼、HTTP/2 和 WebSockets,因此可提供串流功能。
- 自動或手動調度資源:根據預設,Cloud Run 會自動調度服務資源,甚至可調度至零。這樣一來,您只需依實際用量付費,非常適合處理難以預測的 AI 工作負載。您也可以根據流量和 CPU 使用率需求,將服務設為手動調度。
GPU 支援:設定搭載 GPU 的 Cloud Run 資源,加快 AI 模型運作速度。啟用 GPU 的 Cloud Run 服務在閒置時可縮減至零,有助於節省費用。
整合式生態系統:輕鬆連結其他服務 Google Cloud ,例如 Vertex AI、BigQuery、Cloud SQL、Memorystore、Pub/Sub、PostgreSQL 適用的 AlloyDB、Cloud CDN、Secret Manager 和自訂網域,建構完整的端對端 AI 管道。Google Cloud Observability 也提供內建的監控和記錄工具,可協助您瞭解應用程式效能,並有效排解問題。
- 企業適用:Cloud Run 提供直接 VPC 連線、精細的安全性和網路控制項。
主要 AI 應用情境
以下是使用 Cloud Run 支援 AI 應用程式的幾種方式:
託管 AI 代理和機器人
Cloud Run 是託管 AI 代理程式、聊天機器人和虛擬助理後端邏輯的理想平台。這些代理程式可以協調對 Vertex AI 上 Gemini 等 AI 模型的呼叫、管理狀態,以及整合各種工具和 API。
- 代理程式的微服務:將個別代理程式功能部署為獨立的 Cloud Run 服務。詳情請參閱「代管 AI 代理程式」。
- Agent2Agent (A2A) 通訊:使用 A2A 通訊協定建構協作式代理系統。詳情請參閱「代管 A2A 代理程式」。
- Model Context Protocol (MCP) 伺服器:導入 MCP 伺服器,從工具和資料來源為 LLM 提供標準化內容。詳情請參閱「代管 MCP 伺服器」。
提供 AI/機器學習模型以進行推論
將訓練好的機器學習模型部署為可擴充的 HTTP 端點。
- 即時推論:根據使用 TensorFlow、PyTorch、scikit-learn 等架構建構的模型,或 Gemma 等開放模型提供預測。 如需範例,請參閱「在 Cloud Run 上執行 Gemma 3」。
- GPU 加速:使用 NVIDIA GPU 加速推論,以處理更耗資源的模型。詳情請參閱「為服務設定 GPU」。
- 與 Vertex AI 整合:使用 Cloud Run 做為可擴充的前端,提供在 Vertex AI 上訓練或部署的模型。
- 將大型模型檔案與容器分離:Cloud Storage FUSE 轉接器可讓您掛接 Cloud Storage 值區,並在 Cloud Run 容器中以本機目錄的形式存取。
建構檢索增強生成 (RAG) 系統
將 Cloud Run 服務連結至資料來源,建構 RAG 應用程式。
- 向量資料庫:連線至 Cloud SQL (搭配
pgvector)、PostgreSQL 適用的 AlloyDB、Memorystore for Redis 或其他專用向量儲存空間上代管的向量資料庫,為大型語言模型擷取相關內容。請參閱基礎架構範例,瞭解如何使用 Cloud Run 託管支援 RAG 的生成式 AI 應用程式,以及如何使用 Vertex AI 和 Vector Search 處理資料。 - 資料存取:從 Cloud Storage、BigQuery、Firestore 或其他 API 擷取資料,以豐富提示內容。
代管採用 AI 技術的 API 和後端
建立內嵌 AI 功能的 API 和微服務。
- 智慧 API:開發使用 LLM 的 API,進行自然語言理解、情緒分析、翻譯、摘要等作業。
- 自動化工作流程:根據事件或要求,建構可觸發 AI 驅動動作的服務。
製作原型並實驗構想
快速疊代 AI 構想。
- 快速部署:從 Vertex AI Studio、Google AI Studio 或 Jupyter 筆記本等環境,將原型快速移至 Cloud Run 上的可擴充部署作業,且只需進行最少的設定。
- 流量分配:使用 Cloud Run 的流量分配功能,進行不同模型、提示或設定的 A/B 測試,並透過 Google Cloud Observability 監控延遲時間、錯誤率和費用等指標,評估 A/B 測試的成效。
後續步驟
視您對 AI 概念的熟悉程度和 AI 應用情況而定,探索 Cloud Run AI 資源。