AI 代理程式的 Knowledge Catalog

隨著資料生態系統日益複雜,AI 應用程式不僅需要原始資料存取權,他們需要業務背景資訊。 Knowledge Catalog 是 Dataplex 的進化版,著重於強化 AI 和代理系統。

這個平台的核心是統一對應,可將實體資料資產連結至業務語意、治理規則和使用關係。將 Knowledge Catalog 整合至 AI 工作流程後,即可達成下列目標:

  • 以可靠、最新且符合情境的中繼資料做為 AI 代理的基準,引導代理推論。

  • 減少幻覺,確保生成模型根據既有的企業真相提供回覆。

  • 為 AI 代理提供統一的環境 (單一受控的資料環境檢視畫面)。

用途

在資料和 AI 生命週期中,Knowledge Catalog 扮演不同的角色:

  • AI 開發人員和代理建構者。開發人員建構自訂機器人或代理 (例如使用 LangChain 或 Agent Development Kit (ADK)),必須查詢及瞭解企業資料。

    • 用途:使用自然語言搜尋及擷取背景資訊,讓代理程式處理企業資料;代理式資料探索。
  • 資料分析師:使用 Gemini in BigQuery 或 Looker 等 AI 輔助工具尋找資料並瞭解其業務意義的使用者。

    • 用途:自然語言查詢和對話式資料探索。
  • 資料監管員:負責監督 AI 驅動的中繼資料擴充功能,並確保目錄脈絡品質的領域專家。

    • 用途:審查、策劃及宣傳 AI 生成的中繼資料和說明。

使用 MCP 存取 Knowledge Catalog 情境

Model Context Protocol (MCP) 是標準化橋接器,可讓 AI 代理和工具無縫連結至 Knowledge Catalog 等資料來源。

為配合不同的部署工作流程,Knowledge Catalog 提供兩種 MCP 實作方式。瞭解每種做法的適用時機,是設定環境的關鍵:

  • 遠端 MCP 伺服器:建構雲端原生應用程式、將代理程式部署至無伺服器環境 (如 Cloud Run),或與外部代管服務整合時,您可避免管理本機基礎架構。

  • 本機 MCP Toolbox:在本機開發代理程式、快速製作原型,或需要直接整合本機桌面 IDE (例如 VS Code 或 Cursor) 時使用。

遠端 MCP 伺服器

Google 代管的端點,可直接存取 AI 應用程式和服務的 Knowledge Catalog 工具 (例如在 Cloud Run 上執行的代理程式,或 Claude 等外部服務)。

  • 端點:https://dataplex.googleapis.com/mcp
  • 優點:不需要執行本機 MCP 伺服器,適用於無伺服器環境。
  • 參考資料: 使用遠端 MCP 伺服器

本機 MCP Toolbox

這個指令列工具可做為 IDE (例如 VS Code、Cursor) 或本機工具與 Knowledge Catalog 之間的本機 Proxy。

  • 安裝:可下載的二進位檔。
  • 設定:通常是指專案或 IDE 設定中的 .mcp.json 或設定檔。
  • 優點:適合用於本機安全開發環境,並與各種 IDE 整合。
  • 參考資料: 使用本機 MCP 伺服器

豐富 Knowledge Catalog 的背景資訊

如要盡量發揮 Knowledge Catalog 在 AI 方面的價值,基礎圖表必須包含豐富的業務情境。您可以透過現成功能或自訂代理程式擴充功能達成此目的。

立即可用的資料洞察擴充功能

資料洞察 (由 Gemini in BigQuery 提供技術支援) 會自動擴充目錄,減少新資料平台「冷啟動」的問題。啟用後,系統會自動產生下列項目:

  • 資料集和資料欄層級說明。
  • 資料表之間的關係圖。
  • 依據過往用量模式提供的查詢範例。

這項功能可立即提供語意理解,供下游代理程式使用,不必手動進行資料監管。

舉例來說,如果資料表名為 telco_churn,資料洞察功能可以自動為 TenureMonthlyCharges 等欄位產生說明、推斷與客戶資料表的關係,並發布範例查詢 (例如依區隔找出流失率) 至目錄。

使用代理程式自訂脈絡擴充功能

如果貴機構有專屬知識庫,可以建立自訂的擴充代理程式,從內部 Wiki、程式碼存放區或專屬系統等來源擷取中繼資料。

  • Knowledge Catalog API (CRUD 作業):用於在目錄中新增或更新中繼資料。

    • 舉例來說,您可以呼叫 UpdateEntry API 方法,使用從內部系統擷取的說明文件,以程式輔助方式將總覽層面附加至資料表。
  • ADK 等工具:用來建構擴充代理。

    • 舉例來說,您可以建構以 Java 為基礎的 ADK 代理程式,使用內部工具擷取技術維基頁面,並使用 LLM 將這些頁面剖析為詞彙表字詞,然後將這些字詞同步至 Knowledge Catalog。
  • 匯出及匯入作業:用於大量更新中繼資料,並進行審查。

    • 舉例來說,您可以將 AI 生成的組織詞彙匯出至檔案,讓資料管理員共同審查及修正定義,然後將最終檔案匯回目錄。

後續步驟