本文將概述如何在 Knowledge Catalog (舊稱 Dataplex Universal Catalog) 中匯入及匯出商務詞彙表和項目連結。
您可以在 Knowledge Catalog 組織詞彙中定義常見的業務詞彙,並將這些字詞與實體資料資產建立關聯。隨著目錄擴充,在Google Cloud 控制台中個別管理這些字詞及其關係可能會變得困難。
如要大規模管理組織詞彙,您可以大量匯入及匯出詞彙表 (類別和字詞) 和項目連結 (字詞與資料資產之間的關聯)。
術語
使用匯入和匯出公用程式前,請先熟悉下列重要元件:
- 詞彙表資源:包含建立業務詞彙的類別和字詞。
項目連結:資源之間的關係或關聯。 Knowledge Catalog 支援三種項目連結:
definition:將術語與特定資料資產 (例如 BigQuery 資料欄) 建立關聯related:建立兩個相關詞彙表字詞之間的關係synonym:在兩個同義詞彙表字詞之間建立關係
匯入及匯出詞彙表和詞條連結的方法
Knowledge Catalog 支援兩種主要方法,可大量管理術語表。請選擇最符合自動化需求和偏好介面的方法:
- 以 JSON 為基礎匯入中繼資料
- 以 Google 試算表為基礎的匯入和匯出公用程式
以 JSON 為基礎匯入中繼資料
這是內建的全代管 Knowledge Catalog 機制。您可以使用 Dataplex API 匯入以 JSON 格式中繼資料檔案定義的詞彙表字詞及其關聯。
用途示例:在每日排定的資料管道中,自動更新 Knowledge Catalog 中繼資料,例如直接從外部企業資料庫同步處理字詞。
詳情請參閱「使用 JSON 檔案匯入詞彙表和詞條連結」。
以 Google 試算表為基礎的匯入和匯出公用程式
這是 dataplex-labs 存放區提供的開放原始碼指令碼做法。這項工具會使用 Python 指令碼,在 Google 試算表和 Knowledge Catalog 之間同步處理術語表的中繼資料。
應用情境示例:資料治理團隊想與非技術人員的業務利害關係人,共同草擬及審查數十個新的業務字詞。團隊採用這種以試算表為基礎的方法,讓所有人在管理員執行指令碼,將字詞大量上傳至 Knowledge Catalog 之前,都能在 Google 試算表中編輯、註解及核准字詞。
如需詳細資訊,請參閱下列文件:
常見用途:使用 Google 試算表進行來回編輯
常見的管理工作流程是執行來回編輯。這包括匯出現有目錄設定、進行大量修改,以及將這些變更套用回 Knowledge Catalog。
以下工作流程說明如何執行這項程序:
將現有中繼資料從 Knowledge Catalog 匯出至 Google 試算表。
在 Google 試算表中修改中繼資料。
在 Google 試算表中進行必要變更。由於匯出時,系統會將對稱連結 (例如
synonym和related項目連結) 簡化為單一方向,避免出現重複資料列,因此您只需要管理一次。您可以按照所需資料欄結構定義,在對應的工作表中新增資料列。您也可以直接在資料列中修改說明或顯示名稱等詳細資料。
暫存並將 Google 試算表的變更匯回 Knowledge Catalog。
請先執行字彙表匯入公用程式。這樣一來,您就能確保在嘗試連結新字詞或類別之前,這些項目已成功建立於組織詞彙中。
執行項目連結匯入公用程式。這項公用程式會讀取更新後的關聯,在 Cloud Storage bucket 中暫存,並將
definition、related和synonym連結套用至新更新的詞彙表。
後續步驟
- 進一步瞭解如何管理商家詞彙表。
- 瞭解如何使用 JSON 檔案匯入商家字彙表和項目連結。
- 瞭解如何從 Google 試算表匯入商家字彙表。
- 瞭解如何從 Google 試算表匯入項目連結。
- 瞭解如何將商家字彙表匯出至 Google 試算表。
- 瞭解如何將項目連結匯出至 Google 試算表。