隨著資料生態系統日益複雜,AI 應用程式不僅需要原始資料存取權,他們需要業務背景資訊。 Knowledge Catalog 是 Dataplex 的進化版,著重於強化 AI 和代理系統。
這個平台的核心是統一對應,可將實體資料資產連結至業務語意、治理規則和使用關係。將 Knowledge Catalog 整合至 AI 工作流程後,即可達成下列目標:
以可靠、最新且符合情境的中繼資料做為 AI 代理的基準,引導代理推論。
減少幻覺,確保生成模型根據既有的企業真相提供回覆。
為 AI 代理提供統一的環境 (單一受控的資料環境檢視畫面)。
用途
在資料和 AI 生命週期中,Knowledge Catalog 扮演不同的角色:
AI 開發人員和代理建構者。開發人員建構自訂機器人或代理 (例如使用 LangChain 或 Agent Development Kit (ADK)),必須查詢及瞭解企業資料。
- 用途:使用自然語言搜尋及擷取背景資訊,讓代理程式處理企業資料;代理式資料探索。
資料分析師:使用 Gemini in BigQuery 或 Looker 等 AI 輔助工具尋找資料並瞭解其業務意義的使用者。
- 用途:自然語言查詢和對話式資料探索。
資料監管員:負責監督 AI 驅動的中繼資料擴充功能,並確保目錄脈絡品質的領域專家。
- 用途:審查、策劃及宣傳 AI 生成的中繼資料和說明。
使用 MCP 存取 Knowledge Catalog 情境
Model Context Protocol (MCP) 是標準化橋接器,可讓 AI 代理和工具無縫連結至 Knowledge Catalog 等資料來源。
為配合不同的部署工作流程,Knowledge Catalog 提供兩種 MCP 實作方式。瞭解每種做法的適用時機,是設定環境的關鍵:
遠端 MCP 伺服器:建構雲端原生應用程式、將代理程式部署至無伺服器環境 (如 Cloud Run),或與外部代管服務整合時,您可避免管理本機基礎架構。
本機 MCP Toolbox:在本機開發代理程式、快速製作原型,或需要直接整合本機桌面 IDE (例如 VS Code 或 Cursor) 時使用。
遠端 MCP 伺服器
Google 代管的端點,可直接存取 AI 應用程式和服務的 Knowledge Catalog 工具 (例如在 Cloud Run 上執行的代理程式,或 Claude 等外部服務)。
- 端點:
https://dataplex.googleapis.com/mcp - 優點:不需要執行本機 MCP 伺服器,適用於無伺服器環境。
- 參考資料: 使用遠端 MCP 伺服器
本機 MCP Toolbox
這個指令列工具可做為 IDE (例如 VS Code、Cursor) 或本機工具與 Knowledge Catalog 之間的本機 Proxy。
- 安裝:可下載的二進位檔。
- 設定:通常是指專案或 IDE 設定中的
.mcp.json或設定檔。 - 優點:適合用於本機安全開發環境,並與各種 IDE 整合。
- 參考資料: 使用本機 MCP 伺服器
豐富 Knowledge Catalog 的背景資訊
如要盡量發揮 Knowledge Catalog 在 AI 方面的價值,基礎圖表必須包含豐富的業務情境。您可以透過現成功能或自訂代理程式擴充功能達成此目的。
立即可用的資料洞察擴充功能
資料洞察 (由 Gemini in BigQuery 提供技術支援) 會自動擴充目錄,減少新資料平台「冷啟動」的問題。啟用後,系統會自動產生下列項目:
- 資料集和資料欄層級說明。
- 資料表之間的關係圖。
- 依據過往用量模式提供的查詢範例。
這項功能可立即提供語意理解,供下游代理程式使用,不必手動進行資料監管。
舉例來說,如果資料表名為 telco_churn,資料洞察功能可以自動為 Tenure 和 MonthlyCharges 等欄位產生說明、推斷與客戶資料表的關係,並發布範例查詢 (例如依區隔找出流失率) 至目錄。
使用代理程式自訂脈絡擴充功能
如果貴機構有專屬知識庫,可以建立自訂的擴充代理程式,從內部 Wiki、程式碼存放區或專屬系統等來源擷取中繼資料。
Knowledge Catalog API (CRUD 作業):用於在目錄中新增或更新中繼資料。
- 舉例來說,您可以呼叫
UpdateEntryAPI 方法,使用從內部系統擷取的說明文件,以程式輔助方式將總覽層面附加至資料表。
- 舉例來說,您可以呼叫
ADK 等工具:用來建構擴充代理。
- 舉例來說,您可以建構以 Java 為基礎的 ADK 代理程式,使用內部工具擷取技術維基頁面,並使用 LLM 將這些頁面剖析為詞彙表字詞,然後將這些字詞同步至 Knowledge Catalog。
匯出及匯入作業:用於大量更新中繼資料,並進行審查。
- 舉例來說,您可以將 AI 生成的組織詞彙匯出至檔案,讓資料管理員共同審查及修正定義,然後將最終檔案匯回目錄。