Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用 Vertex AI 和 Spanner Graph 建構生成式 AI 的 GraphRAG 基礎架構

Last reviewed 2025-07-01 UTC

這份文件提供參考架構，協助您在 Google Cloud中設計 GraphRAG 生成式 AI 應用程式的基礎架構。目標對象包括建構及管理智慧資訊檢索系統的架構師、開發人員和管理員。本文假設讀者對 AI、圖形資料管理和知識圖譜概念有基本瞭解。本文並未提供設計及開發 GraphRAG 應用程式的具體指引。

GraphRAG 是以圖表為基礎的檢索增強生成 (RAG) 方法。 RAG 會使用向量搜尋擷取情境相關資料，並將這些資料加入提示，藉此協助 AI 生成以事實為依據的回覆。GraphRAG 結合向量搜尋和知識圖譜查詢，擷取能更準確反映不同來源資料互連關係的比對內容資料。使用 GraphRAG 擴充的提示詞可生成更詳細且相關的 AI 回覆。

架構

下圖顯示 Google Cloud中支援 GraphRAG 的生成式 AI 應用程式架構：

架構中的資料擷取和服務流程。

上圖中的架構包含兩個子系統：資料擷取和服務。以下各節說明子系統的用途，以及子系統內和子系統之間的資料流程。

資料擷取子系統

資料擷取子系統會從外部來源擷取資料，然後準備 GraphRAG 適用的資料。資料擷取和準備流程包含下列步驟：

資料會擷取至 Cloud Storage bucket。這類資料可由資料分析師上傳、從資料庫擷取，或從任何來源串流。
擷取資料時，系統會將訊息傳送至 Pub/Sub 主題。
Pub/Sub 會觸發 Cloud Run 函式來處理上傳的資料。
Cloud Run 函式會使用 Vertex AI 的 Gemini API 和 LangChain 的 LLMGraphTransformer 等工具，從輸入檔案建構知識圖譜。
這個函式會將知識圖譜儲存在 Spanner Graph 資料庫中。
函式會使用 LangChain 的 RecursiveCharacterTextSplitter 或 Document AI 的Layout Parser等工具，將資料檔案的文字內容區隔為細微單元。
這個函式會使用 Vertex AI Embeddings API，為文字片段建立向量嵌入。
這個函式會將向量嵌入和相關聯的圖表節點儲存在 Spanner Graph 中。

向量嵌入是語意檢索的基礎。知識圖形節點可讓您遍歷及分析複雜的資料關係和模式。

服務子系統

服務子系統會管理生成式 AI 應用程式和使用者之間的查詢/回覆生命週期。放送流程包含下列步驟：

使用者向部署在 Vertex AI Agent Engine 的 AI 代理提交自然語言查詢。
代理程式會依下列方式處理查詢：
1. 使用 Vertex AI Embeddings API 將查詢轉換為向量嵌入。
2. 在嵌入資料庫中執行向量相似度搜尋，擷取與查詢相關的圖形節點。
3. 透過周遊知識圖表，擷取與查詢相關的資料。
4. 結合原始查詢和擷取的圖表資料，擴充提示。
5. 使用 Agent Search 排名 API 為結果排序，這些結果包含從圖形資料庫擷取的節點和邊緣。排名依據是與查詢的語意關聯性。
6. 呼叫 Gemini API Vertex AI 彙整結果。
接著，服務專員會將摘要結果傳送給使用者。

您可以在 Cloud Logging 中儲存及查看查詢/回應活動記錄，並使用 Cloud Monitoring 設定以記錄為準的監控功能。

使用的產品

這項參考架構使用下列 Google 產品和工具：

Spanner Graph：圖形資料庫，提供 Spanner 的擴充性、可用性和一致性功能。
Vertex AI：機器學習平台，可讓您訓練及部署機器學習模型和 AI 應用程式，並自訂 LLM 用於 AI 輔助的應用程式。
Cloud Run 函式：無伺服器運算平台，可讓您直接在 Google Cloud中執行單一用途函式。
Cloud Storage：適用於多種資料類型的物件儲存庫，成本低廉且沒有限制。資料在 Google Cloud 內外都能存取，且會複製到多個位置，以便提供備援機制。 Google Cloud
Pub/Sub：可擴充的非同步訊息服務，會分離產生訊息的服務與處理訊息的服務。
Cloud Logging：即時記錄管理系統，提供儲存、搜尋、分析和快訊功能。
Cloud Monitoring：這項服務可讓您掌握應用程式和基礎架構的效能、可用性和健康狀態。

用途

GraphRAG 可為各行各業的應用情境，提供智慧資料擷取功能。本節將說明醫療保健、金融、法律服務和製造業的幾個使用案例。

醫療保健和藥品：臨床決策支援

在臨床決策輔助系統中，GraphRAG 會將大量資料整合至統一的知識圖譜，包括醫學文獻、病患電子健康記錄、藥物交互作用資料庫和臨床試驗結果。當臨床醫師和研究人員查詢病患的症狀和目前用藥時，GraphRAG 會遍歷知識圖譜，找出相關病況和潛在的藥物交互作用。還能根據病患的基因特徵等其他資料，生成個人化治療建議。這類資訊檢索方式提供的答案，比關鍵字比對更符合情境，且有證據佐證。

金融服務：整合財務資料

金融服務公司使用知識圖譜，讓分析師能統一查看分析師報告、法人說明會和風險評估等不同來源的結構化資料。知識圖譜會找出重要資料實體 (例如公司和主管)，並對應實體之間的關鍵關係。這種做法可提供豐富且相互連結的資料網路，進而實現更深入且有效率的財務分析。分析師可以發掘先前隱藏的洞察資訊，例如複雜的供應鏈依附關係、與競爭對手有所重疊的董事會成員，以及面臨的複雜地緣政治風險。

法律服務：案件研究和先例分析

在法律領域，GraphRAG 可根據判例、法規、案例法、法規更新和內部文件，生成個人化法律建議。律師在準備案件時，可以針對特定法律論點、類似案件的先前裁決，或新法規的影響提出細微的問題。GraphRAG 會運用現有法律知識的互連性，找出相關判例並說明其適用性。此外，它還會追蹤法律概念、法規和司法解釋之間的關係，提出反駁論點。相較於傳統的知識檢索方法，法律專業人士可透過這種方式獲得更深入、精確的洞察資訊。

製造業和供應鏈：解鎖機構知識

製造和供應鏈作業需要高度精確。為維持必要精確度所需的知識，往往埋藏在成千上萬份密密麻麻的靜態標準作業程序 (SOP) 文件中。工廠的生產線或機器發生故障，或是出現物流問題時，工程師和技術人員往往會浪費寶貴的時間，在不相干的 PDF 文件中搜尋，以診斷及排解問題。結合知識圖譜和對話式 AI，可將深埋的機構知識轉化為互動式診斷夥伴。

設計替代方案

本文所述架構為模組化架構，您可以根據需求，調整架構的特定元件，改用其他產品、工具和技術。

建構知識圖譜

您可以使用 LangChain 的 LLMGraphTransformer 工具從頭建構知識圖譜。使用 LLMGraphTransformer 等 allowed_nodes、allowed_relationships、node_properties 和 relationship_properties 參數指定圖表結構定義，即可提升產生的知識圖表品質。不過，LLMGraphTransformer 可能會從一般網域擷取實體，因此可能不適合醫療保健或製藥等利基網域。此外，如果貴機構已建立完善的知識圖譜建構程序，則可選擇是否採用此參考架構中顯示的資料擷取子系統。

儲存知識圖譜和向量嵌入項目

本文中的架構使用 Spanner 做為知識圖表和向量嵌入的資料儲存庫。如果您的企業知識圖表已存在於其他位置 (例如 Neo4j 等平台)，則可以考慮使用向量資料庫來儲存嵌入內容。不過，這種做法需要額外的管理工作，而且可能需要更多費用。Spanner 提供整合式資料存放區，可存放圖形結構和向量嵌入，並確保全球一致性。這類資料儲存區可實現統一資料管理，有助於盡可能降低成本、提升效能、確保安全、落實管理，以及提高作業效率。

代理執行階段

在本參考架構中，代理會部署在 Vertex AI Agent Engine 上，這個引擎提供 AI 代理的代管執行階段。您也可以考慮使用 Cloud Run 和 Google Kubernetes Engine (GKE)。本文不討論這些選項。

使用 RAG 建立基準

如「用途」一節所述，GraphRAG 可在許多情境中，實現智慧資料擷取功能，做為基礎。不過，如果用於擴增提示的來源資料沒有複雜的相互關係，RAG 可能就適合生成式 AI 應用程式。

下列參考架構說明如何在 Google Cloud 中，使用支援向量的受管理資料庫或專用向量搜尋產品，建構 RAG 基礎架構：

設計須知

本節說明設計因素、最佳做法和建議，供您參考這些資訊，使用這個參考架構開發拓撲，滿足安全性、可靠性、成本和效能方面的特定需求。

本節的指引僅列出部分示例。根據工作負載的需求，以及您使用的 Google Cloud 和第三方產品與功能，您可能還需要考量其他設計因素和取捨。

安全性、隱私權和法規遵循

本節說明設計拓撲時的考量事項和建議，確保拓撲符合工作負載的安全性和法規遵循需求。 Google Cloud

產品	設計注意事項和建議
Vertex AI	Vertex AI 支援 Google Cloud 安全防護控制項，可協助您滿足資料駐留、資料加密、網路安全和存取透明度方面的需求。詳情請參閱下列說明文件： Vertex AI 的安全控制機制生成式 AI 的安全控制項生成式 AI 和資料治理生成式 AI 模型可能會生成有害回覆，特別是當提示明確要求這類回覆時。為提升安全性及防範潛在濫用行為，您可以設定內容篩選器，防止模型生成有害回覆。詳情請參閱「安全和內容篩選器」。
Spanner Graph	根據預設，儲存在 Spanner Graph 中的資料會使用 Google-owned and Google-managed encryption keys加密。如要使用您控管及管理的加密金鑰，可以改用客戶自行管理的加密金鑰 (CMEK)。詳情請參閱「關於 CMEK」。
Cloud Run 函式	根據預設，Cloud Run 會使用 Google-owned and Google-managed encryption keys加密資料。如要使用您控管的金鑰保護容器，可以採用 CMEK。詳情請參閱「使用客戶管理的加密金鑰」。如要確保只有授權的容器映像檔能部署至 Cloud Run，可以使用二進位授權。 Cloud Run 可協助您符合資料落地規定。Cloud Run 函式會在所選區域中執行。
Cloud Storage	根據預設，儲存在 Cloud Storage 中的資料會使用 Google-owned and Google-managed encryption keys加密。如有需要，您可以使用 CMEK，或透過外部管理方法 (例如客戶提供的加密金鑰 (CSEK)) 管理自己的金鑰。詳情請參閱「資料加密選項」。 Cloud Storage 支援兩種方法，可授予使用者存取值區和物件的權限：身分與存取權管理 (IAM) 和存取控制清單 (ACL)。在大多數情況下，我們建議使用 IAM，因為您可以在 bucket 和專案層級授予權限。詳情請參閱「存取控管總覽」。透過 Cloud Storage 載入資料擷取子系統的資料可能包含機密資料。您可以使用 Sensitive Data Protection 探索、分類及去識別化機密資料。詳情請參閱「將 Sensitive Data Protection 與 Cloud Storage 搭配使用」。 Cloud Storage 可協助您滿足資料落地需求。資料會儲存或複製到您指定的區域。
Pub/Sub	根據預設，Pub/Sub 會使用 Google-owned and Google-managed encryption keys加密所有訊息，包括靜態和傳輸中的訊息。Pub/Sub 支援使用 CMEK 在應用程式層加密訊息。詳情請參閱「設定訊息加密」。如有資料落地規定，為確保訊息資料儲存在特定位置，您可以設定訊息儲存政策。
Cloud Logging	根據預設，這個參考架構中使用的所有 Google Cloud 服務都會啟用管理員活動稽核記錄。這類記錄會記錄 API 呼叫，或是修改資源設定或中繼資料的其他動作。Google Cloud 針對這個架構中使用的 Google Cloud 服務，您可以啟用資料存取稽核記錄。您可以透過這些記錄追蹤讀取資源設定或中繼資料的 API 呼叫，或是使用者建立、修改或讀取使用者提供資源資料的要求。為協助符合資料落地規定，您可以設定 Cloud Logging，將記錄資料儲存在指定區域。詳情請參閱「將記錄區域化」。

如要瞭解 AI 和機器學習工作負載專屬的安全原則和建議，請參閱 Google Cloud Well-Architected Framework 中的「AI 和機器學習觀點：安全性」。

可靠性

本節說明設計考量事項和建議，協助您在 Google Cloud中建構及運作可靠的部署基礎架構。

產品	設計注意事項和建議
Vertex AI	Vertex AI 支援 Gemini 模型的動態共用配額 (DSQ)。DSQ 可彈性管理隨用隨付要求，並免除手動管理配額或要求增加配額的需要。DSQ 會為有效客戶動態分配特定模型和區域的可用資源。使用 DSQ 時，個別客戶沒有預先定義的配額限制。如果要求次數超過分配的容量，系統會傳回錯誤碼 429。對於業務關鍵且持續需要高處理量的作業負載，您可以使用「佈建輸送量」預留處理量。如果資料可跨多個區域或國家/地區共用，則可使用全域端點。
Spanner Graph	Spanner 的設計宗旨是提供高資料可用性和全球擴充性。為確保即使發生區域性服務中斷，服務仍能維持可用性，Spanner 提供多區域設定，可將資料複製到多個區域的多個可用區。除了這些內建的復原功能外，Spanner 還提供下列功能，支援全面的災難復原策略：資料庫防刪除功能強大的備份與還原功能，包括排程和跨區域副本時間點復原 (PITR) 功能可防範邏輯資料損毀、營運人員出錯或意外寫入，最多可保留七天詳情請參閱「災難復原總覽」。
Cloud Run 函式	Cloud Run 是地區性服務。資料會同步儲存在區域內的多個可用區。系統會自動在各可用區之間進行負載平衡。如果發生區域中斷，Cloud Run 會繼續執行，資料也不會遺失。如果發生區域性服務中斷，服務會停止運作，直到 Google 解決中斷問題為止。
Cloud Storage	您可以在三種位置類型中建立 Cloud Storage 值區：單一區域、雙區域或多區域。儲存在單一地區值區中的資料，會同步複製到該區域內的多個可用區。如要提高可用性，可以使用雙區域或多區域值區，資料會以非同步方式在區域間複製。
Pub/Sub	為避免在訊息流量暫時暴增期間發生錯誤，您可以在發布端設定中設定流量控制，限制發布要求速率。如要處理發布失敗的情況，請視需要調整重試要求變數。詳情請參閱「重試要求」。
本架構中的所有產品	在 Google Cloud中部署工作負載後，請使用 Active Assist 取得建議，進一步提升雲端資源的可靠性。查看建議，並視環境需要套用。詳情請參閱「在 Active Assist 中查看最佳化建議」。

如要瞭解 AI 和機器學習工作負載專用的可靠性原則和建議，請參閱 Well-Architected Framework 中的「AI 和機器學習觀點：可靠性」。

成本最佳化

本節提供指引，協助您盡量降低設定及運作 Google Cloud 拓撲的成本，而該拓撲是您使用這項參考架構所建構。

產品	設計注意事項和建議
Vertex AI	如要分析及管理 Vertex AI 費用，建議您建立每秒查詢次數 (QPS) 和每秒權杖數 (TPS) 的基準，並在部署後監控這些指標。基準也有助於規劃容量。舉例來說，基準有助於判斷何時需要「佈建輸送量」。為生成式 AI 應用程式選取合適的模型是重要決策，會直接影響成本和效能。如要找出最適合特定用途的模型，在效能和費用之間取得最佳平衡，請反覆測試模型。建議您先從最具成本效益的模型開始，然後逐步改用更強大的選項。提示 (輸入) 和生成的內容 (輸出) 長度會直接影響效能和費用。撰寫簡短、直接且提供充分背景資訊的提示。設計提示，讓模型提供簡潔的回覆。例如「用 2 句話歸納重點」或「列出 3 個重點」。詳情請參閱提示設計最佳做法。如要降低要求成本，請使用脈絡快取。視情況考慮使用批次預測。批次要求的費用比標準要求低。
Spanner Graph	使用代管自動調度器，根據 CPU 使用率和儲存空間需求，動態調整 Spanner Graph 資料庫的運算容量。即使是小型工作負載，通常也需要最低容量。如要預測、穩定或基準運算容量，請購買承諾使用折扣 (CUD)。只要承諾每小時的運算容量支出達到一定金額，即可享有大幅折扣。將備份複製到不同區域以進行災難復原或符合法規時，請考慮網路輸出費用。為降低成本，請只複製重要備份。
Cloud Run 函式	建立 Cloud Run functions 時，您可以指定要分配的記憶體和 CPU 數量。為控管費用，請先從預設 (最低) CPU 和記憶體配置開始。如要提升效能，可以設定 CPU 上限和記憶體上限，增加分配量。詳情請參閱下列文件：設定服務的記憶體限制為服務設定 CPU 限制如果您可以預測 CPU 和記憶體需求，就能透過承諾使用折扣省下費用。
Cloud Storage	在資料擷取子系統中，請根據工作負載的資料保留和存取頻率需求，為 Cloud Storage 值區選擇合適的儲存空間級別。舉例來說，如要控管儲存空間費用，您可以選擇 Standard 級別，並使用物件生命週期管理。這種做法可讓系統根據指定條件，自動將物件降級至費用較低的儲存空間級別，或自動刪除物件。
Cloud Logging	如要控管記錄檔的儲存費用，可以採取下列做法：排除或篩除不必要的記錄項目，減少記錄量。詳情請參閱「排除篩選器」。縮短記錄保留期限。詳情請參閱「設定自訂保留時間」。
本架構中的所有產品	在 Google Cloud中部署工作負載後，請使用 Active Assist 取得建議，進一步節省雲端資源的費用。查看建議，並視環境需要套用。詳情請參閱「在 Active Assist 中查看最佳化建議」。

如要估算 Google Cloud 資源的費用，請使用 Google Cloud Pricing Calculator。

如要瞭解 AI 和機器學習工作負載專用的成本最佳化原則和建議，請參閱 Well-Architected Framework 中的「AI and ML perspective: Cost optimization」。

效能最佳化

本節說明設計拓撲時的考量事項和建議，以符合工作負載的效能需求。 Google Cloud

產品	設計注意事項和建議
Vertex AI	為生成式 AI 應用程式選取合適的模型是重要決策，會直接影響成本和效能。如要找出最適合特定用途的模型，在效能和費用之間取得最佳平衡，請反覆測試模型。建議您先從最具成本效益的模型開始，然後逐步改用更強大的選項。提示 (輸入) 和生成的內容 (輸出) 長度會直接影響效能和費用。撰寫簡短、直接且提供充分背景資訊的提示。設計提示，讓模型提供簡潔的回覆。例如「用 2 句話歸納重點」或「列出 3 個重點」。詳情請參閱提示設計最佳做法。 Vertex AI 提示最佳化工具可讓您快速改善及最佳化提示效能，不必手動重寫提示。最佳化工具可協助您有效調整不同模型的提示。
Spanner Graph	如需最佳化 Spanner Graph 效能的建議，請參閱下列文件：設計 Spanner Graph 結構定義的最佳做法調整 Spanner Graph 查詢的最佳做法
Cloud Run 函式	根據預設，每個 Cloud Run 函式執行個體都會分配到一個 CPU 和 256 MiB 的記憶體。您可以根據效能需求設定 CPU 和記憶體上限。詳情請參閱下列說明文件：設定服務的記憶體限制為服務設定 CPU 限制如需更多效能最佳化指南，請參閱一般 Cloud Run 開發提示。
Cloud Storage	如要上傳大型檔案，可以使用平行複合式上傳。採用這項策略時，系統會將大型檔案分割成多個區塊。系統會將這些區塊平行上傳至 Cloud Storage，然後在雲端重組資料。如果網路頻寬和磁碟速度不是限制因素，平行複合上傳作業的速度可能會比一般上傳作業更快。不過，這項策略有一些限制，且會影響費用。詳情請參閱「平行複合式上傳」。
本架構中的所有產品	在 Google Cloud中部署工作負載後，請使用 Active Assist 取得建議，進一步提升雲端資源的效能。查看建議，並視環境需要套用。詳情請參閱「在 Active Assist 中查看最佳化建議」。

如需 AI 和機器學習工作負載的效能最佳化原則和建議，請參閱 Well-Architected Framework 中的「AI 和機器學習觀點：效能最佳化」。

部署作業

如要瞭解 GraphRAG 的運作方式，請從 GitHub 下載並執行下列 Jupyter 筆記本：在 Google Cloud 上使用 Spanner Graph 和 Vertex AI Agent Engine 的 GraphRAG。 Google Cloud

後續步驟

使用 Spanner Graph 和 LangChain 建構 GraphRAG 應用程式
為生成式 AI 應用程式選擇模型和基礎架構
使用 Vertex AI 和 Vector Search 建構生成式 AI 的 RAG 基礎架構
使用 Vertex AI 和 AlloyDB for PostgreSQL 建構生成式 AI 的 RAG 基礎架構
使用 GKE 和 Cloud SQL 建構生成式 AI 的 RAG 基礎架構
使用 Gemini Enterprise 和 Vertex AI 建構生成式 AI 的 RAG 基礎架構
如要瞭解 AI 工作負載的架構原則和建議，請參閱 Google Cloud「Well-Architected Framework：AI 和機器學習觀點」。
如要查看更多參考架構、圖表和最佳做法，請瀏覽 Cloud Architecture Center。

貢獻者

作者：

Tristan Li | AI/機器學習首席架構師
Kumar Dhanagopal | 跨產品解決方案開發人員

其他貢獻者：

Ahsif Sheikh | AI 客戶工程師
Ashish Chauhan | AI 客戶工程師
Greg Brosman | 產品經理
Lukas Bruderer | Cloud AI 產品經理
Nanditha Embar | AI 客戶工程師
Piyush Mathur | Spanner 產品經理
Smitha Venkat | AI 客戶工程師

使用 Vertex AI 和 Spanner Graph 建構生成式 AI 的 GraphRAG 基礎架構 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

架構