關於 Dataplex Universal Catalog 中的中繼資料管理

Dataplex Universal Catalog 是全代管服務,可自動探索及清查分散式資料和 AI 資產。這項服務會建立統一的知識庫,方便您搜尋及管理 Google Cloud 和其他環境中的資料,確保分析和 AI 模型是根據可靠且符合規範的資訊建構而成。

用途

  • 加快自助式分析速度:解決「冷啟動」問題,讓分析師尋找、瞭解及驗證資料品質,不必等待工程支援。

  • 控管 AI 和資料產品:共同管理 AI 模型和資料集的生命週期,確保下游 AI 應用程式採用安全且經過核准的輸入內容。

  • 簡化法規遵循程序:自動追蹤資料沿襲,繪製機密資訊 (包括個人識別資訊 (PII)) 在貴機構中的流向。

Dataplex Universal Catalog 的運作方式

您可以將 Dataplex Universal Catalog 視為企業的自動智慧型資料庫。系統會自動掃描儲存系統 (例如 BigQuery) 來收集技術中繼資料,不必手動建立索引。

然後,您就能使用業務內容 (例如資料品質分數或擁有權) 充實這項中繼資料,並將其整理成邏輯群組。確保使用者搜尋目錄時,找到的資產可供探索,且受現行安全政策控管。

術語

Dataplex Universal Catalog 的中繼資料管理功能是以下列概念為基礎:

項目

項目代表資料資產。這與

Data Catalog 中的項目

範例:名為 test-project.sales_data.customer_orders 的 BigQuery 資料表會以項目形式呈現。

項目的資料欄代表資料資產的特定子區段,例如 BigQuery 資料表中的單一資料欄,或 JSON 檔案中的欄位。你可以使用資料欄,將中繼資料附加至項目內的個別欄位,而不只是整個項目。您不會直接定義資料欄,而是將 schema 類型的層面附加至項目時,系統會建立資料欄。資料欄也稱為路徑。

舉例來說,如要說明 customer_orders 項目中的 email_address 欄位含有個人識別資訊 (PII),可以將層面附加至 email_address 欄。

如要進一步瞭解項目,請參閱「項目」。

切面

所謂的「層面」是一組相關的中繼資料欄位。你可以附加

用來描述整個項目。大部分中繼資料都是由項目中的切面說明。這與 Data Catalog 中的標記類似。不過,層面會儲存在項目中,而非獨立資源。

範例:如要定義 customer_orders 項目中的所有資料欄 (例如 order_idorder_dateemail_address),您可以將 schema 層面附加至 customer_orders 項目。如要指定 email_address 欄包含電子郵件地址,可以將 schema 方面附加至 email_address 欄。

如要進一步瞭解構面,請參閱「構面」。

項目類型

項目類型是建立項目的範本。建立

必要中繼資料元素,以這類項目的必要切面清單形式呈現。項目類型會指定特定資料資產所需的切面類型。

舉例來說,如要確保所有項目都有必要的中繼資料,您可以建立名為「StandardOperationalTable」的項目類型,並要求任何這類新項目都必須附加「OwnerInfo」切面。

如要進一步瞭解項目類型,請參閱「項目類型」。

切面類型

切面類型是可重複使用的切面範本。各個方面

是切面類型的執行個體。這與 Data Catalog 中的標記範本類似。

範例:如要定義聯絡資訊的可重複使用範本,您可以定義名為 ContactInfo 的層面類型,並包含 owner_nameemailsupport_team 的欄位。接著,您就能從這個範本建立ContactInfo層面,並將其附加至項目或資料欄。

如要進一步瞭解層面類型,請參閱「層面類型」。

項目群組

項目群組是項目的容器,可做為

這些項目的管理單位。舉例來說,您可以使用項目群組,為項目群組中的項目設定 Identity and Access Management 存取控管、專案歸因或位置。這與 Data Catalog 中的項目群組類似。

範例:財務團隊想一次管理所有表格的權限。他們可以建立名為 production_finance_data 的項目群組,並在其中加入 customer_ordersquarterly_revenueemployee_salaries 資料表的項目。

如要進一步瞭解項目群組,請參閱「項目群組」。

項目和項目群組
圖 1:項目和項目群組
切面類型和項目類型
圖 2. 切面類型和項目類型

Dataplex Universal Catalog 與 Data Catalog 的比較

Dataplex Universal Catalog 提供整合式功能,可管理中繼資料。中繼資料儲存空間和 API 方法已整合至 Dataplex API。

Dataplex Universal Catalog 的主要中繼資料管理功能包括:

  • 更穩健的中繼模型

    • 輸入的項目。您可以定義自訂項目的必要中繼資料內容,強制執行最低中繼資料標準
    • 使用者可設定自訂項目的元模型,有助於提升自訂擷取作業的穩定性,並改善自訂中繼資料的一致性和完整性。
    • 支援更多種類和複雜程度的中繼資料,包括支援清單、對應和陣列等巢狀結構。
  • 提升可擴充性,包括可透過單一不可分割的 CRUD 作業,與項目相關聯的所有中繼資料互動,以及在搜尋或清單回應中擷取多個相關聯的中繼資料註解。

下表比較 Dataplex Universal Catalog 和 Data Catalog 的中繼資料管理功能:

Dataplex Universal Catalog 與 Data Catalog 的比較
功能 Dataplex Universal Catalog Data Catalog
支援的 Google Cloud 來源 如本文件「支援的來源 Google Cloud 」一節所述的所有來源。 項目和項目群組」一節中說明的所有來源。
自訂來源攝入

以受控結構匯入自訂項目,並由項目類型定義。

Data Catalog 自訂項目和項目群組會顯示在 Dataplex Universal Catalog 的 generic 項目類型下方。

擷取至一般自訂項目。
中繼資料擴充 系統會使用業務詞彙表、切面和切面類型,擷取項目的中繼資料內容。 系統會使用業務詞彙表、標記和標記範本,擷取項目的中繼資料內容。
搜尋 搜尋範圍包括:
  • 支援的 Google Cloud 來源中說明的所有 Google Cloud 來源
  • 在 Dataplex Universal Catalog 中建立的自訂項目
  • 在 Dataplex Universal Catalog 中建立的切面
  • 在 Data Catalog 中建立並匯入 Dataplex Universal Catalog 的自訂項目

搜尋結果只會列出與執行搜尋的專案屬於相同機構和虛擬私有雲端 SC 範圍的資源。使用 Google Cloud 控制台時,這是控制台中選取的專案。

請注意,如要在專案搜尋項目,至少須具備該專案的其中一個 IAM 角色:Dataplex Catalog 管理員、Dataplex Catalog 編輯者或 Dataplex Catalog 檢視者。搜尋結果的權限檢查作業與所選專案無關。

搜尋範圍包括:
  • 項目和項目群組中說明的所有 Google Cloud 來源
  • 在 Data Catalog 中建立的自訂項目
  • 在 Data Catalog 中建立的標記
資料歷程

資料歷程會使用 Dataplex API,擷取資產節點的項目詳細資料。

Google Cloud 控制台會顯示附加的層面。

資料歷程會使用 Data Catalog API,擷取資產節點的項目詳細資料。

商務詞彙表

您可以透過企業詞彙建立業務字詞的分類,並將這些字詞與資料資產和資料欄建立關聯。您可以使用搜尋功能,找出與字詞連結的資產。

您可以透過業務詞彙建立業務用語的分類,並將這些用語與資料欄建立關聯。您可以使用搜尋功能,找出與特定字詞連結的資產。

下表說明 Dataplex Universal Catalog 中的資源如何對應至 Data Catalog 資源:

Dataplex Universal Catalog 和 Data Catalog 資源之間的對應關係
Dataplex Universal Catalog 資源 Data Catalog 資源 說明
切面類型 (global) 公開標記範本 標記範本是區域資源。不過,您可以使用這些標記在各個區域建立代碼。標記範本對應至 Dataplex Universal Catalog 中的global切面類型。
選用切面 公開標記 Data Catalog 中的公開標記對應至 Dataplex Universal Catalog 中的選用切面。
項目群組 項目群組 就 Google Cloud 來源而言,系統項目群組 (例如 @bigquery) 是在 Dataplex Universal Catalog 中依專案建立。
自訂項目必要切面 自訂項目

Data Catalog 和 Dataplex Universal Catalog 的自訂項目概念類似。

標準項目屬性在 Dataplex Universal Catalog 中會以必要切面形式建立模型。

系統登錄必要切面 系統 (Google Cloud) 項目 系統定義的必要層面類型會擷取描述內建實體的中繼資料,例如 BigQuery 資料表的 Schema
商務詞彙表 商務詞彙表 使用詞彙表建立業務字詞的分類,在整個企業中標準化業務情境。

如要進一步瞭解 Data Catalog 中提供但 Dataplex Universal Catalog 不支援的功能,請參閱本文的「Dataplex Universal Catalog 不支援的中繼資料管理功能」一節。

現有 Data Catalog 使用者

如果您已使用 Data Catalog,請注意下列事項:

  • 您在 Data Catalog 中建立的自訂項目、總覽內容、詞彙表和項目群組,都會在 Dataplex Universal Catalog 中提供。
  • 管理員可以選擇讓 Data Catalog 標記範本和標記的內容同時在 Dataplex Universal Catalog 中提供。詳情請參閱「從 Data Catalog 轉移至 Dataplex Universal Catalog」。
  • 在 Dataplex Universal Catalog 中搜尋資料資產時,系統會納入直接在 Dataplex Universal Catalog 中建立的中繼資料,以及從 Data Catalog 帶入 Dataplex Universal Catalog 的中繼資料。
  • 在 Data Catalog 中搜尋資料資產時,系統只會納入在 Data Catalog 中建立的中繼資料。
  • 如果 Data Catalog 中的項目群組說明超過 1024 個半形字元,Dataplex Universal Catalog 會將說明截斷為 1024 個半形字元。
  • 管理員如要讓您在 Data Catalog 中建立的詞彙表和相關聯的商業字詞與資料欄連結,在 Dataplex Universal Catalog 中可用,請按照轉移程序操作。

如要進一步瞭解如何將獨立 Data Catalog 內容和使用情形轉移至 Dataplex Universal Catalog,請參閱「從 Data Catalog 轉移至 Dataplex Universal Catalog」。

將 Data Catalog API 方法對應至 Dataplex Universal Catalog

如果您要從 Data Catalog 遷移至 Dataplex Universal Catalog,請務必更新程式輔助工作流程,改用 Dataplex API。本節提供 Data Catalog API 和 Dataplex API 之間的對應。

如要進一步瞭解 Dataplex Universal Catalog API 方法,請參閱 Dataplex API for REST methodsDataplex API for RPC methods 的說明文件。

下表列出 Data Catalog API 方法與 Dataplex API 對等項目的對應關係。

項目群組

Dataplex Universal Catalog 和 Data Catalog 的項目群組概念相同。

Data Catalog API 方法 Dataplex API 方法
projects.locations.entryGroups.create (REST)
CreateEntryGroup (RPC)
projects.locations.entryGroups.create (REST)
CreateEntryGroup (RPC)
projects.locations.entryGroups.get (REST)
GetEntryGroup (RPC)
projects.locations.entryGroups.get (REST)
GetEntryGroup (RPC)
projects.locations.entryGroups.patch (REST)
UpdateEntryGroup (RPC)
projects.locations.entryGroups.patch (REST)
UpdateEntryGroup (RPC)
projects.locations.entryGroups.delete (REST)
DeleteEntryGroup (RPC)
projects.locations.entryGroups.delete (REST)
DeleteEntryGroup (RPC)
projects.locations.entryGroups.list (REST)
ListEntryGroups (RPC)
projects.locations.entryGroups.list (REST)
ListEntryGroups (RPC)

實體

在 Dataplex Universal Catalog 和 Data Catalog 中,項目代表資料資產,概念類似。

Data Catalog API 方法 Dataplex API 方法
projects.locations.entryGroups.entries.create (REST)
CreateEntry (RPC)
projects.locations.entryGroups.entries.create (REST)
CreateEntry (RPC)
projects.locations.entryGroups.entries.get (REST)
GetEntry (RPC)
projects.locations.entryGroups.entries.get (REST)
GetEntry (RPC)
projects.locations.entryGroups.entries.patch (REST)
UpdateEntry (RPC)
projects.locations.entryGroups.entries.patch (REST)
UpdateEntry (RPC)
projects.locations.entryGroups.entries.delete (REST)
DeleteEntry (RPC)
projects.locations.entryGroups.entries.delete (REST)
DeleteEntry (RPC)
projects.locations.entryGroups.entries.list (REST)
ListEntries (RPC)
projects.locations.entryGroups.entries.list (REST)
ListEntries (RPC)
entries.lookup (REST)
LookupEntry (RPC)
projects.locations.entries.lookup (REST)
LookupEntry (RPC)

注意:如要使用 projects.locations.entries.lookup (REST) 和 LookupEntry (RPC) 方法,您必須提供 Dataplex Universal Catalog 項目名稱。如要將 BigQuery SQL 名稱、完整名稱或連結的資源名稱轉換為 Dataplex Universal Catalog 項目名稱,請先呼叫 projects.locations.searchEntries (REST) 或 SearchEntries (RPC) 方法。

entries.modifyEntryContacts (REST)
ModifyEntryContacts (RPC)
projects.locations.entryGroups.entries.patch (REST)
UpdateEntry (RPC)

注意:從資料目錄 entries.modifyEntryContacts 方法遷移時,請使用 update_mask 僅修改 contacts 方面。

entries.modifyEntryOverview (REST)
ModifyEntryOverview (RPC)
projects.locations.entryGroups.entries.patch (REST)
UpdateEntry (RPC)

注意:從資料目錄 entries.modifyEntryOverview 方法遷移時,請使用 update_mask 僅修改 overview 方面。

projects.locations.entryGroups.entries.reconcileTags (REST)
ReconcileTags (RPC)
projects.locations.metadataJobs.create (REST)
CreateMetadataJob (RPC)、
projects.locations.entryGroups.entries.patch (REST)
UpdateEntry (RPC)

注意:從 Data Catalog projects.locations.entryGroups.entries.reconcileTags 方法遷移時,請使用 projects.locations.metadataJobs.create (REST) 或 CreateMetadataJob (RPC) 方法和匯入工作類型,匯入多個項目的 Catalog 內容。如要更新單一項目的所有層面,請使用 projects.locations.entryGroups.entries.patch (REST) 或 UpdateEntry (RPC) 方法。

catalog.search (REST)
SearchCatalog (RPC)
projects.locations.searchEntries (REST)
SearchEntries (RPC)

注意:Dataplex Universal Catalog projects.locations.searchEntries (REST) 和 SearchEntries (RPC) 方法不支援跨多個機構搜尋。您必須為每個機構發出個別的 API 呼叫。

標記範本和標記

在 Dataplex Universal Catalog 中,切面類型是 Data Catalog 標記範本的後繼項目,切面則是 Data Catalog 標記的後繼項目。

Data Catalog API 方法 Dataplex API 方法
projects.locations.tagTemplates.create (REST)
CreateTagTemplate (RPC)
projects.locations.aspectTypes.create (REST)
CreateAspectType (RPC)
projects.locations.tagTemplates.get (REST)
GetTagTemplate (RPC)
projects.locations.aspectTypes.get (REST)
GetAspectType (RPC)
projects.locations.tagTemplates.patch (REST)
UpdateTagTemplate (RPC)
projects.locations.aspectTypes.patch (REST)
UpdateAspectType (RPC)
projects.locations.tagTemplates.delete (REST)
DeleteTagTemplate (RPC)
projects.locations.aspectTypes.delete (REST)
DeleteAspectType (RPC)
catalog.search (REST) with type=tag_template predicate
SearchCatalog (RPC) with type=tag_template predicate
projects.locations.aspectTypes.list (REST)
ListAspectTypes (RPC)

標記範本欄位

標記範本欄位會對應至切面類型中 metadata_template 欄位的內容。如要遷移 Data Catalog 欄位層級作業,請在 Dataplex Universal Catalog 中使用 UpdateAspectType 作業和對應的酬載。

Data Catalog API 方法 Dataplex API 方法
projects.locations.tagTemplates.fields.create (REST)
CreateTagTemplateField (RPC)
projects.locations.aspectTypes.patch (REST)
UpdateAspectType (RPC)
projects.locations.tagTemplates.fields.patch (REST)
UpdateTagTemplateField (RPC)
projects.locations.aspectTypes.patch (REST)
UpdateAspectType (RPC)
projects.locations.tagTemplates.fields.rename (REST)
RenameTagTemplateField (RPC)
projects.locations.aspectTypes.patch (REST)
UpdateAspectType (RPC)
projects.locations.tagTemplates.fields.delete (REST)
DeleteTagTemplateField (RPC)
projects.locations.aspectTypes.patch (REST)
UpdateAspectType (RPC)

標記範本欄位列舉值

與標記範本欄位類似,您可以在 Dataplex API 中修改相應切面類型中的 metadata_template 欄位,編輯列舉值。

Data Catalog API 方法 Dataplex API 方法
projects.locations.tagTemplates.fields.enumValues.rename (REST)
RenameTagTemplateFieldEnumValue (RPC)
projects.locations.aspectTypes.patch (REST)
UpdateAspectType (RPC)

標記

切面是 Data Catalog 標記的後繼功能。構面並非獨立資源,而是封裝在父項項目中。field_mask 參數可用於選擇性更新項目中的單一面向。

Data Catalog API 方法 Dataplex API 方法
projects.locations.entryGroups.entries.tags.create (REST)
CreateTag (RPC)
projects.locations.entryGroups.entries.patch (REST)
UpdateEntry (RPC)
projects.locations.entryGroups.entries.tags.list (REST)
ListTags (RPC)
projects.locations.entryGroups.entries.get (REST)
GetEntry (RPC)

注意:如要將回應限制為僅包含必要項目,請使用 viewsaspect_typespaths 參數。

projects.locations.entryGroups.entries.tags.patch (REST)
UpdateTag (RPC)
projects.locations.entryGroups.entries.patch (REST)
UpdateEntry (RPC)
projects.locations.entryGroups.entries.tags.delete (REST)
DeleteTag (RPC)
projects.locations.entryGroups.entries.patch (REST)
UpdateEntry (RPC)

政策標記和分類

這些 API 不會變更,因此不需要遷移。

支援的來源

  • 自動探索 Cloud Storage 資料
  • 系統會自動將下列 Google Cloud 來源的中繼資料擷取到 Dataplex Universal Catalog:
    • AlloyDB for PostgreSQL 叢集、執行個體、資料庫、結構定義、表格、檢視區塊 - 請參閱「啟用 AlloyDB for PostgreSQL 整合」(預先發布版)
    • BigQuery sharing (舊稱 Analytics Hub) 交易所和項目
    • BigQuery 資料集、資料表、模型、常式、連線和連結的資料集
    • Bigtable 執行個體、叢集和資料表 (包括資料欄系列詳細資料)
    • Dataform 存放區和程式碼資產
    • Cloud SQL 執行個體、資料庫、結構定義、資料表、檢視區塊 - 請參閱「啟用 Cloud SQL 整合
    • Dataproc Metastore 服務、資料庫和資料表
    • Pub/Sub 主題
    • Spanner 執行個體、資料庫、資料表和檢視區塊
    • Vertex AI 模型、資料集、特徵群組、特徵檢視畫面和線上商店執行個體

如要將第三方來源的中繼資料匯入 Dataplex Universal Catalog,可以使用受管理連線管道

專案和位置限制

Dataplex Universal Catalog 中的目錄資源位於不同專案和位置。限制如下:

  • 位置:

    • 項目的位置必須與項目類型的位置相符,或項目類型必須為 global
    • 新增至項目的切面必須以儲存在與項目相同位置的切面類型為依據,或切面類型必須為 global
    • 項目類型必須由與項目類型儲存在相同位置的切面類型組成。
  • 專案:

    • 如果項目類型參照自訂切面類型,則切面類型必須與項目類型位於相同的位置和專案。

Dataplex Universal Catalog 不支援的中繼資料管理功能

Dataplex Universal Catalog 不支援 Data Catalog 的下列功能:

  • Dataplex Universal Catalog 沒有私人切面和私人切面類型 (對應至 Data Catalog 中的私人標記和私人標記範本) 的概念。
  • Dataplex Universal Catalog 搜尋功能不支援搜尋政策標記;因此,policytagpolicytagid 述詞在 Dataplex Universal Catalog 搜尋功能中無法運作。
  • 將 Data Catalog 自訂項目群組、自訂項目、標記範本和標記匯入 Dataplex Universal Catalog 時,系統不會一併轉移原始權限。您必須明確設定所複製中繼資料的 IAM 權限,才能使用該中繼資料。
  • 系統不支援將 Sensitive Data Protection 檢查結果直接傳送至 Dataplex Universal Catalog 中的目錄。您可以將 Sensitive Data Protection 檢查結果傳送至 Data Catalog,然後將結果轉移至 Dataplex Universal Catalog
  • 您無法使用 API 列出跨專案的項目類型和切面類型。 您只能將清單要求限定在專案範圍內。
  • 系統不支援將湖泊、儲存區、資產和實體註冊為 Dataplex Universal Catalog 項目。也就是說,附加至湖泊、儲存區、資產和實體的 Data Catalog 中繼資料,不會轉移至 Dataplex Universal Catalog 中的目錄。此外,使用 Dataplex Universal Catalog 搜尋功能時,系統不支援搜尋區域和實體,也不支援依湖泊和區域篩選。您可以在 Dataplex Universal Catalog 中,獨立使用湖泊和區域,不必透過目錄。
  • 系統不支援管理員搜尋 (可確保完整召回)。不過,您可以將中繼資料匯出至 Cloud Storage,然後從 BigQuery 查詢。

如要比較 Dataplex Universal Catalog 和 Data Catalog 支援的功能和資源,請參閱本文的「 Dataplex Universal Catalog 與 Data Catalog 比較」一節。

定價

Dataplex Universal Catalog 會使用中繼資料儲存空間 SKU,針對中繼資料儲存空間收費。 詳情請參閱 Dataplex Universal Catalog 價格

使用下列功能無須付費:

  • 在 Dataplex Universal Catalog 中建立及管理目錄資源
  • Dataplex Universal Catalog 的 Search API 呼叫
  • 在Google Cloud 控制台的 Dataplex Universal Catalog 頁面執行的搜尋查詢

後續步驟