Cloud Run 的 AI 應用情境

無論是建構代理程式、執行推論模型，還是整合各種 AI 服務，Cloud Run 都能提供擴充性、彈性和易用性，協助您實現 AI 創新。

本頁面著重說明在 Cloud Run 上代管、建構及部署 AI 工作負載的一些高階用途。

為什麼要使用 Cloud Run 處理 AI 工作負載？

Cloud Run 具有多項優勢，可確保 AI 應用程式具備可擴充性、彈性和可管理性。以下列舉幾項重點功能：

彈性的容器支援：將應用程式及其依附元件封裝在容器中，或使用任何支援的語言、程式庫或架構。進一步瞭解 Cloud Run 的容器執行階段合約。
HTTP 端點：部署 Cloud Run 服務後，即可取得立即可用的安全 Cloud Run 網址端點。Cloud Run 支援 HTTP 分塊傳輸編碼、HTTP/2 和 WebSockets，因此可提供串流功能。
自動或手動調度資源：根據預設，Cloud Run 會自動調度服務資源，甚至可調度至零。這樣一來，您只需依實際用量付費，非常適合處理難以預測的 AI 工作負載。您也可以根據流量和 CPU 使用率需求，將服務設為手動調度。

GPU 支援：設定搭載 GPU 的 Cloud Run 資源，加快 AI 模型運作速度。啟用 GPU 的 Cloud Run 服務在閒置時可縮減至零，有助於節省費用。
整合式生態系統：輕鬆連結其他服務 Google Cloud ，例如 Vertex AI、BigQuery、Cloud SQL、Memorystore、Pub/Sub、PostgreSQL 適用的 AlloyDB、Cloud CDN、Secret Manager 和自訂網域，建構完整的端對端 AI 管道。Google Cloud Observability 也提供內建的監控和記錄工具，可協助您瞭解應用程式效能，並有效排解問題。

以下是使用 Cloud Run 支援 AI 應用程式的幾種方式：

Cloud Run 是託管 AI 代理程式、聊天機器人和虛擬助理後端邏輯的理想平台。這些代理程式可以協調對 Vertex AI 上 Gemini 等 AI 模型的呼叫、管理狀態，以及整合各種工具和 API。

Model Context Protocol (MCP) 伺服器：導入 MCP 伺服器，從工具和資料來源為 LLM 提供標準化內容。詳情請參閱「代管 MCP 伺服器」。

將訓練好的機器學習模型部署為可擴充的 HTTP 端點。

即時推論：根據使用 TensorFlow、PyTorch、scikit-learn 等架構建構的模型，或 Gemma 等開放模型提供預測。如需範例，請參閱「在 Cloud Run 上執行 Gemma 3」。

將大型模型檔案與容器分離：Cloud Storage FUSE 轉接器可讓您掛接 Cloud Storage 值區，並在 Cloud Run 容器中以本機目錄的形式存取。

將 Cloud Run 服務連結至資料來源，建構 RAG 應用程式。

向量資料庫：連線至 Cloud SQL (搭配 pgvector)、PostgreSQL 適用的 AlloyDB、Memorystore for Redis 或其他專用向量儲存空間上代管的向量資料庫，為大型語言模型擷取相關內容。請參閱基礎架構範例，瞭解如何使用 Cloud Run 託管支援 RAG 的生成式 AI 應用程式，以及如何使用 Vertex AI 和 Vector Search 處理資料。
資料存取：從 Cloud Storage、BigQuery、Firestore 或其他 API 擷取資料，以豐富提示內容。

建立內嵌 AI 功能的 API 和微服務。

快速疊代 AI 構想。

快速部署：從 Vertex AI Studio、Google AI Studio 或 Jupyter 筆記本等環境，將原型快速移至 Cloud Run 上的可擴充部署作業，且只需進行最少的設定。

流量分配：使用 Cloud Run 的流量分配功能，進行不同模型、提示或設定的 A/B 測試，並透過 Google Cloud Observability 監控延遲時間、錯誤率和費用等指標，評估 A/B 測試的成效。

視您對 AI 概念的熟悉程度和 AI 應用情況而定，探索 Cloud Run AI 資源。