在 Cloud Run 上執行 AI 解決方案

本指南將概略介紹如何使用 Cloud Run 代管應用程式、執行推論,以及建構 AI 工作流程。

Cloud Run:用於代管 AI 應用程式、代理程式和可擴充的 API 端點

Cloud Run 提供全代管平台,可調整 AI 應用程式和工作負載的資源配置。

在 Cloud Run 上託管 AI 應用程式時,通常會有下列架構元件:

  • 服務和自動化調度管理:將應用程式程式碼或容器部署至 Cloud Run。
  • AI 模型:您可以在應用程式中使用 Google 的 AI 模型、開放原始碼模型或自訂模型。
  • 整合:您可以連結 Google Cloud 服務或第三方服務,以取得記憶體、資料庫、儲存空間、安全性等資源。
  • 工具:你可以連結其他工具,執行其他工作和作業。

下圖顯示使用 Cloud Run 做為 AI 應用程式代管平台的概要總覽:

在 Cloud Run 上託管的 AI 應用程式有四個元件:
    1. 提供服務與自動調度管理,2. AI 模型、3. 整合,4.  下,您可以選擇可瀏覽和編輯程式碼的工具,以及程式碼的偵錯工具。
圖 1. 在 Cloud Run 託管的 AI 應用程式元件。

如圖所示:

  1. 服務和協調層中,Cloud Run 服務可做為應用程式核心邏輯的可擴充 API 端點。透過自動、隨選和快速調度執行個體資源,有效管理多位並行使用者。

    您可將容器部署至 Cloud Run。您可以將應用程式及其依附元件封裝至容器,也可以提供原始碼,讓 Cloud Run 自動將程式碼建構至容器中,以供部署。如果是部署原始碼,您可以使用任何語言、開放架構或 SDK 建構 AI 應用程式。

  2. AI 應用程式會做為可擴充的 API 端點,處理傳入的要求並將資料傳送至預先訓練的 AI 模型進行處理,然後傳回結果。

    Cloud Run 已整合 Google 的模型,例如 Gemini 和 Vertex AI 模型,並可整合 Llama 和 Gemma 等開放原始碼模型。如果您有自行訓練的自訂模型,也可以搭配 Cloud Run 資源使用。

  3. Google Cloud 提供各種解決方案,支援 AI 應用程式的基礎架構。 以下是一些適合與 AI 應用程式搭配使用的Google Cloud 整合

    • 記憶體與資料庫
      • 短期
        • Memorystore 是一種快取和暫時性高存取資料管理服務,可為短期資料儲存提供快速的外部快取。
      • 長期
        • PostgreSQL 適用的 AlloyDB 是與 PostgreSQL 相容的資料庫,專為嚴苛的交易和分析工作負載而設計。這項服務提供內建向量嵌入生成功能和高速向量索引,因此與標準 pgvector 實作相比,語意搜尋速度更快。
        • Cloud SQL 是適用於 MySQL、PostgreSQL 和 SQL Server 的關聯式資料庫服務,也可以搭配 PostgreSQL 的 pgvector 擴充功能做為向量儲存空間。
        • Firestore 是可擴充的 NoSQL 文件資料庫服務,內建向量搜尋功能。
    • 儲存空間
      • Cloud Storage 是一種物件儲存解決方案,可存放模型訓練用的大型資料集、應用程式的輸入/輸出檔案,或模型構件。
    • 安全性
      • Secret Manager 是一項機密和憑證管理服務,可安全集中儲存 API 金鑰、密碼和憑證等機密資料,這些資料通常是 AI 應用程式與外部服務互動時的必要資訊。

    詳情請參閱「連結至 Google Cloud 服務」。

  4. 工具可讓 AI 應用程式和模型與外部或 Cloud Run 上執行的服務、API 或網站互動。

    舉例來說,如果 AI 應用程式是 AI 代理程式,代理程式可能會向 MCP 伺服器傳送要求,以執行外部工具,或使用在容器中執行的工具,例如程式碼執行、電腦使用、資訊擷取等。

在 Cloud Run 上託管模型,進行 AI 推論

除了建構使用大型語言模型 (LLM) 的應用程式和代理程式,您也可以透過 Cloud Run 啟用 GPU,執行預先訓練或自訂的自部署模型,進行 AI 推論。

Cloud Run GPU 可處理大量運算,因此非常適合用於 AI 推論工作負載的運算密集型任務。以容器映像檔或原始碼形式部署 AI 模型,並使用各種方法部署 Cloud Run 資源。

後續步驟