Dataplex Universal Catalog 提供集中式平台,可儲存、管理及存取中繼資料。本文說明 Dataplex Universal Catalog 的中繼資料管理功能。
Dataplex Universal Catalog 提供 Google Cloud 和地端資源的統一清單。Dataplex Universal Catalog 會自動擷取並儲存 Google Cloud 資源的中繼資料。您也可以將第三方資源的中繼資料匯入 Dataplex Universal Catalog。
您可以新增業務和技術中繼資料來充實商品目錄,擷取資源的背景資訊和知識。您也可以在整個機構中搜尋及探索資料,並對資料資產啟用資料治理。
您可以將預設目錄服務設為 Dataplex Universal Catalog,如果您使用 Data Catalog,請將獨立的 Data Catalog 內容和使用情形轉移至 Dataplex Universal Catalog。詳情請參閱「從 Data Catalog 轉移至 Dataplex Universal Catalog」。
中繼資料管理的運作方式
Dataplex Universal Catalog 的中繼資料管理功能是以下列概念為基礎:
- 項目
項目代表資料資產。這與
示例:名為
test-project.sales_data.customer_orders的 BigQuery 資料表會以項目形式呈現。項目的資料欄代表資料資產的特定子區段,例如 BigQuery 資料表中的單一資料欄,或 JSON 檔案中的欄位。你可以使用資料欄,將中繼資料附加至項目內的個別欄位,而不只是整個項目。您不會直接定義欄,而是將
schema類型的層面附加至項目時,系統會建立欄。資料欄也稱為路徑。舉例來說,如要說明
customer_orders項目中的email_address欄位含有個人識別資訊 (PII),您可以將層面附加至email_address欄。如要進一步瞭解項目,請參閱「項目」。
- 切面
所謂的「層面」是一組相關的中繼資料欄位。你可以附加
用來描述整個項目。大部分的中繼資料都是由項目內的切面描述。這與 Data Catalog 中的標記類似。不過,層面會儲存在項目中,而非獨立資源。
範例:如要定義
customer_orders項目中的所有資料欄 (例如order_id、order_date和email_address),您可以將schema構面附加至customer_orders項目。如要指定email_address欄包含電子郵件地址,可以將schema方面附加至email_address欄。如要進一步瞭解構面,請參閱「構面」。
- 項目類型
項目類型是建立項目的範本。建立
基本中繼資料元素,以這類項目的必要切面清單形式呈現。項目類型會指定特定資料資產所需的切面類型。
舉例來說,如要確保所有項目都有必要的中繼資料,您可以建立名為「
StandardOperationalTable」的項目類型,規定任何這類的新項目都必須附加「OwnerInfo」切面。如要進一步瞭解項目類型,請參閱「項目類型」。
- 切面類型
切面類型是可重複使用的切面範本。各個方面
是切面類型的執行個體。這與 Data Catalog 中的標記範本類似。
範例:如要定義聯絡資訊的可重複使用範本,您可以定義名為
ContactInfo的層面類型,並包含owner_name、email和support_team的欄位。接著,您就能從這個範本建立ContactInfo層面,並將其附加至項目或資料欄。如要進一步瞭解層面類型,請參閱「層面類型」。
- 項目群組
項目群組是項目的容器,
這些項目的管理單位。舉例來說,您可以使用項目群組,為項目群組中的項目設定 Identity and Access Management 存取控管、專案歸因或位置。這與 Data Catalog 中的項目群組類似。
示例:財務團隊想一次管理所有表格的權限。他們可以建立名為
production_finance_data的項目群組,並在其中加入customer_orders、quarterly_revenue和employee_salaries資料表的項目。如要進一步瞭解項目群組,請參閱「項目群組」。
圖 1:項目和項目群組
圖 2. 切面類型和項目類型
Dataplex Universal Catalog 與 Data Catalog 的比較
Dataplex Universal Catalog 提供整合式功能,可管理中繼資料。中繼資料儲存空間和 API 方法已整合至 Dataplex API。
Dataplex Universal Catalog 的主要中繼資料管理功能包括:
更穩健的元模型
- 輸入的項目。您可以定義自訂項目的必要中繼資料內容,強制執行最低中繼資料標準
- 使用者可設定自訂項目的元模型,有助於提升自訂擷取作業的穩定性,並改善自訂中繼資料的一致性和完整性。
- 支援更多種類和複雜程度的中繼資料,包括支援清單、對應和陣列等巢狀結構。
提升可擴充性,包括可透過單一不可分割的 CRUD 作業,與項目相關聯的所有中繼資料互動,以及在搜尋或清單回應中擷取多個相關聯的中繼資料註解。
下表比較 Dataplex Universal Catalog 和 Data Catalog 的中繼資料管理功能:
| 功能 | Dataplex Universal Catalog | Data Catalog |
|---|---|---|
| 支援的 Google Cloud 來源 | 如本文「支援的 Google Cloud 來源」一節所述的所有來源。 | 「項目和項目群組」一節中說明的所有來源。 |
| 從自訂來源擷取資料 | 以受控結構匯入自訂項目,並由項目類型定義。 Data Catalog 自訂項目和項目群組會顯示在 Dataplex Universal Catalog 的 | 擷取至一般自訂項目。 |
| 中繼資料擴充 | 系統會使用業務詞彙表、切面和切面類型,擷取項目的中繼資料內容。 | 系統會使用業務詞彙表、標記和標記範本,擷取項目的中繼資料內容。 |
| 搜尋 | 搜尋範圍包括:
搜尋結果只會列出與執行搜尋的專案屬於相同機構和虛擬私有雲端 SC 範圍的資源。使用 Google Cloud 控制台時,這是控制台中選取的專案。 請注意,如要在專案搜尋項目,至少須具備該專案的其中一個 IAM 角色:Dataplex Catalog 管理員、Dataplex Catalog 編輯者或 Dataplex Catalog 檢視者。搜尋結果的權限檢查作業與所選專案無關。 |
搜尋範圍包括:
|
| 資料歷程 |
資料歷程會使用 Dataplex API,擷取資產節點的項目詳細資料。 Google Cloud 控制台會顯示附加的層面。 |
資料歷程會使用 Data Catalog API,擷取資產節點的項目詳細資料。 |
| 業務詞彙表 |
您可以透過企業詞彙建立業務字詞的分類,並將這些字詞與資料資產和資料欄建立關聯。您可以使用搜尋功能,找出與特定字詞連結的資產。 |
您可以透過業務詞彙建立業務用語的分類,並將這些用語與資料欄建立關聯。您可以使用搜尋功能,找出與特定字詞連結的資產。 |
下表說明 Dataplex Universal Catalog 中的資源如何對應至 Data Catalog 資源:
| Dataplex Universal Catalog 資源 | Data Catalog 資源 | 說明 |
|---|---|---|
切面類型 (global) |
公開標記範本 | 標記範本是區域資源。不過,您可以使用這些設定,在各個區域建立代碼。標記範本對應至 Dataplex Universal Catalog 中的global切面類型。 |
| 選用切面 | 公開標記 | Data Catalog 中的公開標記對應至 Dataplex Universal Catalog 中的選用切面。 |
| 項目群組 | 項目群組 | 就 Google Cloud 來源而言,系統項目群組 (例如 @bigquery) 是在 Dataplex Universal Catalog 中依專案建立。 |
| 自訂項目必要切面 | 自訂項目 | Data Catalog 和 Dataplex Universal Catalog 的自訂項目概念相似。 標準項目屬性在 Dataplex Universal Catalog 中會以必要切面形式建立模型。 |
| 系統登錄必要切面 | 系統 (Google Cloud) 項目 | 系統定義的方面類型會擷取必要方面,其中包含描述內建實體的中繼資料,例如 BigQuery 資料表的 Schema。 |
| 業務詞彙表 | 商務詞彙表 | 使用詞彙表建立業務字詞的分類,在整個企業中標準化業務情境。 |
如要進一步瞭解 Data Catalog 中提供但 Dataplex Universal Catalog 不支援的功能,請參閱本文的「Dataplex Universal Catalog 不支援的中繼資料管理功能」一節。
現有 Data Catalog 使用者
如果您已使用 Data Catalog,請注意下列事項:
- 您在 Data Catalog 中建立的自訂項目、總覽內容、詞彙表和項目群組,都會在 Dataplex Universal Catalog 中提供。
- 管理員可以選擇讓 Data Catalog 標記範本和標記的內容同時在 Dataplex Universal Catalog 中提供。詳情請參閱「從 Data Catalog 轉移至 Dataplex Universal Catalog」。
- 在 Dataplex Universal Catalog 中搜尋資料資產時,系統會納入直接在 Dataplex Universal Catalog 中建立的中繼資料,以及從 Data Catalog 帶入 Dataplex Universal Catalog 的中繼資料。
- 在 Data Catalog 中搜尋資料資產時,系統只會納入在 Data Catalog 中建立的中繼資料。
- 如果 Data Catalog 中的項目群組說明超過 1024 個半形字元,Dataplex Universal Catalog 會將說明截斷為 1024 個半形字元。
- 管理員如要讓您在 Data Catalog 中建立的詞彙表和相關連結 (商務字詞與資料欄之間) 可在 Dataplex Universal Catalog 中使用,請按照轉移程序操作。
如要進一步瞭解如何將獨立 Data Catalog 內容和使用情形轉移至 Dataplex Universal Catalog,請參閱「從 Data Catalog 轉移至 Dataplex Universal Catalog」。
將 Data Catalog API 方法對應至 Dataplex Universal Catalog
如果您要從 Data Catalog 遷移至 Dataplex Universal Catalog,請務必更新程式輔助工作流程,改用 Dataplex API。本節提供 Data Catalog API 和 Dataplex API 的對應關係。
如要進一步瞭解 Dataplex Universal Catalog API 方法,請參閱 Dataplex API for REST methods 和 Dataplex API for RPC methods 的說明文件。
下表列出 Data Catalog API 方法與 Dataplex API 對等項目的對應關係。
項目群組
Dataplex Universal Catalog 和 Data Catalog 的項目群組概念相同。
| Data Catalog API 方法 | Dataplex API 方法 |
|---|---|
projects.locations.entryGroups.create (REST)CreateEntryGroup (RPC) |
projects.locations.entryGroups.create (REST)CreateEntryGroup (RPC) |
projects.locations.entryGroups.get (REST)GetEntryGroup (RPC) |
projects.locations.entryGroups.get (REST)GetEntryGroup (RPC) |
projects.locations.entryGroups.patch (REST)UpdateEntryGroup (RPC) |
projects.locations.entryGroups.patch (REST)UpdateEntryGroup (RPC) |
projects.locations.entryGroups.delete (REST)DeleteEntryGroup (RPC) |
projects.locations.entryGroups.delete (REST)DeleteEntryGroup (RPC) |
projects.locations.entryGroups.list (REST)ListEntryGroups (RPC) |
projects.locations.entryGroups.list (REST)ListEntryGroups (RPC) |
實體
在 Dataplex Universal Catalog 和 Data Catalog 中,代表資料資產的項目概念類似。
標記範本和標記
在 Dataplex Universal Catalog 中,切面類型是 Data Catalog 標記範本的後繼項目,切面則是 Data Catalog 標記的後繼項目。
| Data Catalog API 方法 | Dataplex API 方法 |
|---|---|
projects.locations.tagTemplates.create (REST)CreateTagTemplate (RPC) |
projects.locations.aspectTypes.create (REST)CreateAspectType (RPC) |
projects.locations.tagTemplates.get (REST)GetTagTemplate (RPC) |
projects.locations.aspectTypes.get (REST)GetAspectType (RPC) |
projects.locations.tagTemplates.patch (REST)UpdateTagTemplate (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.delete (REST)DeleteTagTemplate (RPC) |
projects.locations.aspectTypes.delete (REST)DeleteAspectType (RPC) |
catalog.search (REST) 搭配 type=tag_template 述詞SearchCatalog (RPC) 搭配 type=tag_template 述詞 |
projects.locations.aspectTypes.list (REST)ListAspectTypes (RPC) |
標記範本欄位
標記範本欄位對應於切面類型中的 metadata_template 欄位內容。如要遷移 Data Catalog 欄位層級作業,請在 Dataplex Universal Catalog 中使用 UpdateAspectType 作業和對應的酬載。
| Data Catalog API 方法 | Dataplex API 方法 |
|---|---|
projects.locations.tagTemplates.fields.create (REST)CreateTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.fields.patch (REST)UpdateTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.fields.rename (REST)RenameTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.fields.delete (REST)DeleteTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
標記範本欄位列舉值
與標記範本欄位類似,您可以在 Dataplex API 中編輯列舉值,方法是修改相應層面類型中的 metadata_template 欄位。
| Data Catalog API 方法 | Dataplex API 方法 |
|---|---|
projects.locations.tagTemplates.fields.enumValues.rename (REST)RenameTagTemplateFieldEnumValue (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
標記
切面是 Data Catalog 標記的後繼功能。構面並非獨立資源,而是封裝在父項項目中。field_mask 參數可用於選擇性更新項目中的單一面向。
| Data Catalog API 方法 | Dataplex API 方法 |
|---|---|
projects.locations.entryGroups.entries.tags.create (REST)CreateTag (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.tags.list (REST)ListTags (RPC) |
projects.locations.entryGroups.entries.get (REST)GetEntry (RPC)
注意:如要將回應限制為僅包含必要項目,請使用 |
projects.locations.entryGroups.entries.tags.patch (REST)UpdateTag (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.tags.delete (REST)DeleteTag (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
政策標記和分類
這些 API 不會變更,因此不需要遷移。
支援的來源
- 自動探索 Cloud Storage 資料
- 系統會自動將下列 Google Cloud 來源的中繼資料擷取到 Dataplex Universal Catalog:
- PostgreSQL 適用的 AlloyDB 叢集、執行個體、資料庫、結構定義、表格、檢視區塊 - 請參閱「啟用 PostgreSQL 適用的 AlloyDB 整合功能」(預先發布版)
- BigQuery sharing (舊稱 Analytics Hub) 交易所和項目
- BigQuery 資料集、資料表、模型、常式、連線和連結的資料集
- Bigtable 執行個體、叢集和資料表 (包括資料欄系列詳細資料)
- Dataform 存放區和程式碼資產
- Cloud SQL 執行個體、資料庫、結構定義、資料表、檢視區塊 - 請參閱「啟用 Cloud SQL 整合」
- Dataproc Metastore 服務、資料庫和資料表
- Pub/Sub 主題
- Spanner 執行個體、資料庫、資料表和檢視區塊
- Vertex AI 模型、資料集、特徵群組、特徵檢視畫面和線上商店執行個體
如要將第三方來源的中繼資料匯入 Dataplex Universal Catalog,可以使用受管理連線管道。
專案和位置限制
Dataplex Universal Catalog 中的目錄資源位於不同專案和位置。限制如下:
位置:
- 項目的位置必須與項目類型的位置相符,或項目類型必須為
global。 - 新增至項目的切面必須以切面類型為依據,且該切面類型儲存在與項目相同的位置,或必須為
global。 - 項目類型必須由與項目類型儲存在相同位置的切面類型組成。
- 項目的位置必須與項目類型的位置相符,或項目類型必須為
專案:
- 如果項目類型參照自訂切面類型,則切面類型必須與項目類型位於相同的位置和專案。
Dataplex Universal Catalog 不支援的中繼資料管理功能
Dataplex Universal Catalog 不支援 Data Catalog 的下列功能:
- Dataplex Universal Catalog 沒有私人切面和私人切面類型 (對應至 Data Catalog 中的私人標記和私人標記範本) 的概念。
- Dataplex Universal Catalog 搜尋功能不支援搜尋政策標記;因此,述詞
policytag和policytagid無法在 Dataplex Universal Catalog 搜尋中使用。 - 將 Data Catalog 自訂項目群組、自訂項目、標記範本和標記匯入 Dataplex Universal Catalog 時,系統不會一併匯入原始權限。您必須明確設定所複製中繼資料的 IAM 權限,才能使用該中繼資料。
- 系統不支援將 Sensitive Data Protection 檢查結果直接傳送至 Dataplex Universal Catalog 中的目錄。您可以改為將 Sensitive Data Protection 檢查結果傳送至 Data Catalog,然後將結果轉移至 Dataplex Universal Catalog。
- 您無法使用 API 列出跨專案的項目類型和切面類型。您只能將清單要求限定在專案範圍內。
- 系統不支援將湖泊、儲存區、資產和實體註冊為 Dataplex Universal Catalog 項目。也就是說,附加至湖泊、儲存區、資產和實體的 Data Catalog 中繼資料,不會轉移至 Dataplex Universal Catalog 中的目錄。此外,使用 Dataplex Universal Catalog 搜尋功能時,系統不支援搜尋專區和實體,也不支援依湖泊和專區篩選。您可以在 Dataplex Universal Catalog 中,獨立使用湖泊和區域,不必透過目錄。
- 系統不支援管理員搜尋 (可確保完整召回)。不過,您可以將中繼資料匯出至 Cloud Storage,然後從 BigQuery 查詢。
如要比較 Dataplex Universal Catalog 和 Data Catalog 支援的功能和資源,請參閱本文的「 Dataplex Universal Catalog 與 Data Catalog 比較」一節。
定價
Dataplex Universal Catalog 會使用中繼資料儲存空間 SKU,針對中繼資料儲存空間收費。詳情請參閱 Dataplex Universal Catalog 價格。
使用下列功能不需付費:
- 在 Dataplex Universal Catalog 中建立及管理目錄資源
- Dataplex Universal Catalog 的 Search API 呼叫
- 在Google Cloud 控制台的 Dataplex Universal Catalog 頁面執行的搜尋查詢
後續步驟
- 瞭解如何在 Dataplex Universal Catalog 中搜尋資源。
- 瞭解如何管理資產及豐富中繼資料。
- 瞭解如何管理項目及擷取自訂來源。
- 進一步瞭解如何從 Data Catalog 轉移至 Dataplex Universal Catalog。
- 進一步瞭解如何將詞彙表遷移至 Dataplex Universal Catalog。