本文提供在 Cloud Run 上部署的多代理程式 AI 系統高階架構,該系統可分析不同的多模態資料,並產生高信賴度的分類結果。這種做法會比對即時資料與歷來基準真相,交叉驗證片段媒體,產生有根據且可驗證的洞察資料。
這份文件適用於在雲端建構及管理 AI 基礎架構和應用程式的架構師、開發人員和管理員。本文假設您已具備 AI 代理程式和模型的基本知識。本文並未提供設計和編寫 AI 代理程式的具體指引。
本文的「部署」部分列出程式碼範例,可供您瞭解如何建構及部署多代理程式 AI 系統。
架構
下圖顯示多代理 AI 系統的架構,該系統使用平行代理設計模式,協調多模態資料的獨立分析,產生單一分類。
架構顯示下列資料流程:
- 網頁應用程式會向根代理程式傳送要求,分析一組多模態資料以進行分類。根代理程式是協調代理程式,會接收要求並部署在 Cloud Run 服務上。
- 根代理程式會以以下方式處理要求:
- 根代理程式會啟動
before_agent_callback,收集環境設定、驗證使用者輸入內容,並將資源路徑儲存在共用的工作階段狀態中。所有子代理程式都能存取共用工作階段狀態,因此不必重複呼叫來擷取狀態資料,可減少整體延遲時間。 - 根代理會使用 Vertex AI 上的 Gemini 解讀使用者要求,並將工作分配給平行執行的專門子代理。
- 根代理程式會啟動
- 每個子代理程式都專精於特定領域,並獨立執行下列工作:
- 圖片和影片分析師子代理程式會與自訂 Model Context Protocol (MCP) 伺服器互動,執行下列動作:
- 擷取儲存在 Cloud Storage bucket 中的原始非結構化資料。
- 要求 Gemini 解讀輸入資料、分類資料,並計算信賴度。
- Gemini 會將建議的分類和信賴度傳回自訂 MCP 伺服器。
- 自訂 MCP 伺服器會將回應轉送回子代理程式。
- 結構化資料分析師子代理程式會完成下列工作,協調分析作業:
- 與 BigQuery MCP 伺服器互動,擷取儲存在 BigQuery 資料集中的結構化脈絡資料 (例如歷史記錄、事件記錄或感應器讀數)。
- 結構化資料分析師向 Gemini 傳送要求,請 Gemini 解讀輸入資料、分類資料,並計算信賴度。
- Gemini 會將建議的分類和信心等級傳回給子代理程式。
- 圖片和影片分析師子代理程式會與自訂 Model Context Protocol (MCP) 伺服器互動,執行下列動作:
- 每個子代理程式都會將建議的分類和信賴水準傳回根代理程式。
- 根代理程式會使用 Gemini 歸納專屬子代理程式的輸出內容,產生單一高信賴度的分類結果。
- 如果多數專業子代理程式的分類相符,根代理程式就會將相符的分類傳送至網路應用程式。
- 如果子代理程式未提供相符的分類,根代理程式會選取信賴度最高的分類,並傳送至網路應用程式。
使用的產品
這項參考架構使用下列 Google Cloud 產品和工具:
- Cloud Run:無伺服器運算平台,可讓您在 Google 可擴充的基礎架構上直接執行容器。
- Vertex AI:機器學習平台,可讓您訓練及部署機器學習模型和 AI 應用程式,並自訂 LLM 用於 AI 輔助的應用程式。
- Gemini:Google 開發的一系列多模態 AI 模型。
- BigQuery:企業資料倉儲,內建機器學習、地理空間分析和商業智慧等功能,有助於管理及分析資料。
- Cloud Storage:適用於多種資料類型的物件儲存庫,成本低廉且沒有限制。 資料在 Google Cloud 內外都能存取,且會複製到多個位置,以便提供備援機制。 Google Cloud
- Google Cloud MCP 伺服器:由 Google 管理的遠端服務,可實作 Model Context Protocol (MCP),讓 AI 應用程式存取 Google 和 Google Cloud 產品與服務。
- Model Context Protocol (MCP):開放原始碼標準,可將 AI 應用程式連結至外部系統。
- Agent Development Kit (ADK):一套工具和程式庫,可開發、測試及部署 AI 代理。
如要瞭解如何為代理式 AI 系統選取替代元件,包括架構、代理程式執行階段、工具、記憶體和設計模式,請參閱「選擇代理式 AI 架構元件」。
用途
這項架構適用於合成各種多模態資料的用途,可執行分類和偵測工作。為提升準確度和擴充性,這項架構採用多代理 AI 系統,而非單一代理方法。這種設計模式可提供明確的指示、避免指令衝突、縮小工具集以加快決策速度,並支援獨立更新,進而產生更穩健精細的結果。
以下是本文所述架構的應用實例:
- 醫療診斷:部署專門的代理程式,獨立分析醫療影像、病患症狀和實驗室結果,提供全面的診斷評估。AI 系統會根據決定的信賴度門檻,彙整這些發現,為臨床醫生提供有根據且可驗證的洞察資料。
- 詐欺偵測:部署代理程式,獨立分析使用者行為模式和交易資料 (例如掃描收據和商家發票),偵測並標記潛在詐欺行為。系統會比對文件中的視覺證據與數位網路活動,找出差異並標記任何交易。如果單一代理商發現可疑指標,系統也會標記該交易。
- 文件處理:部署專用代理程式,自動分類文件並擷取資訊,包括光學字元辨識 (OCR)、文件分類和資料擷取。為支援高信賴度處理作業,AI 系統需要所有代理程式都同意輸出內容。
- 品質驗證:部署專門的代理程式,進行視覺檢查、感應器資料分析和規格檢查,藉此分類產品品質或偵測異常狀況。系統會根據代理商之間確定的可信度門檻,判斷是否通過。
設計須知
如要在正式環境中實作這項架構,請考慮下列建議:
- 代理程式安全防護:如要限制代理程式執行危險動作的能力,請建立代理程式身分,然後使用 Identity and Access Management (IAM) 屬性,確保 MCP 伺服器的存取安全。套用最小權限原則,有助於確保代理 AI 系統執行預期行為,並防止對生產資源進行非預期的讀寫存取。
- Ingress 安全性:如要控管應用程式的存取權,請停用前端 Cloud Run 服務的預設 run.app 網址,並設定區域外部應用程式負載平衡器。除了將傳入應用程式的流量進行負載平衡,負載平衡器也會處理 SSL 憑證管理作業。如要加強保護,請使用 Google Cloud Armor 安全性政策,為服務提供要求篩選、DDoS 防護和速率限制。
- 容器映像檔安全性:如要確保只有授權的容器映像檔會部署至 Cloud Run,請使用二進位授權。如要找出並降低容器映像檔中的安全風險,請使用 Artifact Analysis 自動執行安全漏洞掃描。詳情請參閱容器掃描總覽。
- 經濟實惠的提示:提示 (輸入) 和生成的回覆 (輸出) 的長度會直接影響效能和費用。撰寫簡短、直接且提供充分背景資訊的提示。詳情請參閱提示設計最佳做法。
- 儲存空間費用:如要控管儲存空間費用,您可以選擇標準儲存空間級別,並啟用物件生命週期管理和自動調整級別。這些功能可根據您設定的存取模式或規則,在儲存空間級別之間自動移動或刪除資料,協助您節省成本。
- 儲存空間安全性:Cloud Storage 支援兩種方法,可控管使用者對值區和物件的存取權:IAM 和存取控制清單 (ACL)。在大多數情況下,我們建議使用 IAM,因為 IAM 可讓您在值區和專案層級授予權限。詳情請參閱存取權控管總覽。
- 資源分配:視效能需求而定,設定要分配給 Cloud Run 服務的記憶體限制和 CPU 限制。如需更多效能最佳化指南,請參閱「一般 Cloud Run 開發提示」。
如要瞭解設計因素和最佳做法,以及建構及部署多代理程式 AI 系統的建議,請參閱「Multi-agent AI system in Google Cloud」。
部署
如要部署此架構的範例實作,請嘗試「Way Back Home Level 1」程式碼研究室。
後續步驟
- 瞭解如何在 Cloud Run 上代管 AI 代理程式。
- 瞭解如何在 Cloud Run 建構及部署遠端 MCP 伺服器。
- 瞭解如何選擇代理 AI 架構元件
- (影片) 觀看Agent Factory Podcast,瞭解如何為 AI 代理打造自訂工具。
- 如要瞭解更多代理 AI 架構,請參閱這份指南。
- 如要瞭解適用於 Google Cloud中 AI 和機器學習工作負載的架構原則和建議,請參閱 Well-Architected Framework 中的AI 和機器學習觀點。
- 如要查看更多參考架構、圖表和最佳做法,請瀏覽 Cloud Architecture Center。
貢獻者
作者:Samantha He | 技術文件撰稿者
其他貢獻者:
- Amina Mansour | Cloud Platform 評估團隊主管
- Andrey Shakirov | Google Cloud 解決方案架構師
- Ayo Adedeji | 開發人員關係工程師
- Christina Lin | 開發人員關係工程師經理
- Kumar Dhanagopal | 跨產品解決方案開發人員
- Ryan Pei | Google Cloud 產品經理