建立資料網格

您可以使用 Dataplex Universal Catalog 建構資料網格架構。本快速入門指南將說明如何使用 Dataplex Universal Catalog 功能 (例如湖泊、可用區和資產) 來建立資料網格。

資料網格是一種組織和技術做法,可將資料擁有權分散給多位網域資料擁有者。這些擁有者會以標準方式提供資料做為產品,並促進機構中不同部門之間的通訊,以便與不同位置的分散式資料集進行通訊。進一步瞭解資料網格架構

目標

在本指南中,您將使用 Dataplex Universal Catalog 實體建構資料網格架構:

  • 建立 Dataplex Universal Catalog 湖泊,做為資料網格的網域。
  • 在湖泊中新增代表各網域內個別團隊的區域,並提供受管理的資料合約。
  • 附加對應至 Cloud Storage 中所儲存資料的資產。

費用

在本文件中,您會使用下列 Google Cloud的計費元件:

如要根據預測用量估算費用,請使用 Pricing Calculator

初次使用 Google Cloud 的使用者可能符合免費試用期資格。

完成本文所述工作後,您可以刪除建立的資源,避免繼續計費,詳情請參閱「清除所用資源」。

事前準備

  1. 在 Google Cloud 控制台的專案選擇器頁面中,選取或建立 Google Cloud 專案。

    選取或建立專案所需的角色

    • 選取專案:選取專案時,不需要具備特定 IAM 角色,只要您已獲授角色,即可選取任何專案。
    • 建立專案:如要建立專案,您需要具備專案建立者角色 (roles/resourcemanager.projectCreator),其中包含 resourcemanager.projects.create 權限。瞭解如何授予角色

    前往專案選取器

  2. 確認專案已啟用計費功能 Google Cloud

  3. 啟用 Dataplex API。

    啟用 API 時所需的角色

    如要啟用 API,您需要服務使用情形管理員 IAM 角色 (roles/serviceusage.serviceUsageAdmin),其中包含 serviceusage.services.enable 權限。瞭解如何授予角色

    啟用 API

  4. 建立 Dataproc Metastore 服務

建立 Cloud Storage 值區

您需要 Cloud Storage bucket 來儲存資料網格的資料資產。

如要建立 Cloud Storage bucket,請按照「建立 Cloud Storage bucket」一文中的操作說明進行。執行時請注意下列事項:

  • 為 bucket 命名。
  • 在「Location type」(位置類型) 中選擇「Region」(區域),然後從選單中選取「us-central1 (Iowa)」(us-central1 (愛荷華州))

建立網域

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「Lakes」(湖泊) 頁面。

    前往「Lakes」(湖泊)

  2. 按一下「建立」即可建立新湖泊,做為資料網格。

  3. 在「Display name」(顯示名稱) 欄位中,輸入 My data mesh

  4. 在「Region」(區域) 中選取 us-central1

  5. 選取您先前建立及設定的 Dataproc Metastore 服務做為相關聯的 Metastore。

  6. 點選「建立」

在湖泊中建立儲存區

建立 Dataplex Universal Catalog 湖泊來建立網域後,您可以使用儲存區,在網域中代管受管理資料合約和個別團隊。儲存區有兩種類型:

  • 原始區域通常用來將外部來源任何格式的資料儲存在 Cloud Storage 中。原始區域適合需要進一步處理才能使用的資料。

  • 精選資料儲存區用於 Cloud Storage 中的結構化資料,這些資料必須符合特定檔案格式,並整理成與 Hive 相容的目錄配置方式。最適合用於可供使用和分析的資料。

每個網域 (例如 salescustomersproducts) 應至少有一個原始區域和一個精選區域。

其他區域則用於管理團隊之間的資料合約,或為特定網域內的團隊提供更精細的細目。例如產品網域內的商品目錄管理。資料擁有者可以管理及存取網域內的資料。

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「管理」檢視畫面。

  2. 按一下要新增可用區的湖泊名稱 (My data mesh)。

  3. 在「區域」分頁中,按一下「新增區域」

  4. 在「Display name」(顯示名稱) 欄位中,輸入 My sub domain。Dataplex Universal Catalog 會自動為可用區產生 ID。

  5. 在「Type」(類型) 中,選取「Raw zone」(原始區域)

  6. 點選「建立」

將資產附加至儲存區

將資料資產附加至儲存區。資料資產是包含資料的儲存資源,可以是 Cloud Storage bucket 或 BigQuery 資料集。這是建立資料網格架構的最後一個步驟。

  1. 在 Dataplex Universal Catalog 的「管理」檢視畫面中,按一下您建立的湖泊 (My data mesh)。

  2. 在「區域」分頁中,按一下要新增資產的區域 (My sub domain)。

  3. 在「資產」分頁中,按一下 「新增資產」

  4. 按一下「新增資產」

  5. 在「類型」部分,選取「Cloud Storage bucket」

  6. 在「顯示名稱」欄位中,輸入 Data mesh asset。Dataplex Universal Catalog 會自動為您產生資產 ID。

  7. 在「Bucket」欄位中,按一下「Browse」(瀏覽)

    1. 從清單中選取所需值區。
    2. 按一下「選取」
  8. 依序點選「完成」和「繼續」

  9. 按一下「繼續」即可沿用預設的「進階設定」

  10. 按一下「提交」

清除所用資源

為避免因為本教學課程所用資源,導致系統向 Google Cloud 收取費用,請刪除含有相關資源的專案,或者保留專案但刪除個別資源。

刪除專案

  1. 前往 Google Cloud 控制台的「Manage resources」(管理資源) 頁面。

    前往「Manage resources」(管理資源)

  2. 在專案清單中選取要刪除的專案,然後點選「Delete」(刪除)
  3. 在對話方塊中輸入專案 ID,然後按一下 [Shut down] (關閉) 以刪除專案。

刪除資料網格架構

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「管理」檢視畫面。

  2. 找出要刪除的湖泊,然後依序點按「查看更多」和「刪除」

  3. 如要確認這項動作,請輸入 delete,然後按一下「刪除湖泊」

後續步驟