建立資料網格

您可以使用 Dataplex Universal Catalog 建構資料網格架構。本快速入門指南將說明如何使用 Dataplex Universal Catalog 功能 (例如湖泊、可用區和資產) 來建立資料網格。

資料網格是一種組織和技術方法,可將資料擁有權分散給多位網域資料擁有者。這些擁有者會以標準方式提供資料做為產品,並促進機構中不同部門之間的通訊,以便與不同位置的分散式資料集進行通訊。進一步瞭解資料網格架構

建立網域

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「Lakes」(湖泊) 頁面。

    前往「Lakes」(湖泊)

  2. 按一下「建立」即可建立新湖泊,做為資料網格。

  3. 在「Display name」(顯示名稱) 欄位中,輸入 My data mesh

  4. 在「Region」(區域) 中選取 us-central1

  5. 選取您先前建立及設定的 Dataproc Metastore 服務做為相關聯的 Metastore。

  6. 點選「建立」

在湖泊中建立區域

建立 Dataplex Universal Catalog 湖泊來建立網域後,您可以使用儲存區,在網域中代管受管理資料合約和個別團隊。儲存區有兩種類型:

  • 原始區域通常用於將外部來源的任何格式資料儲存在 Cloud Storage 中。原始區域適合需要進一步處理才能使用的資料。

  • 精選資料儲存區用於 Cloud Storage 中的結構化資料,這些資料必須符合特定檔案格式,並整理成與 Hive 相容的目錄配置方式。這類檢視畫面最適合用於可供使用和分析的資料。

每個網域 (例如 salescustomersproducts) 應至少有一個原始區域和一個精選區域。

其他區域則用於管理團隊之間的資料合約,或為特定網域內的團隊提供更精細的細目。例如產品網域內的商品目錄管理。資料擁有者可以管理網域內的資料並存取這些資料。

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「Manage」(管理) 檢視畫面。

  2. 按一下要新增可用區的湖泊名稱 (My data mesh)。

  3. 在「區域」分頁中,按一下「新增區域」

  4. 在「Display name」(顯示名稱) 欄位中,輸入 My sub domain。Dataplex Universal Catalog 會自動為儲存區產生 ID。

  5. 在「Type」(類型) 中,選取「Raw zone」(原始區域)

  6. 點選「建立」

將資產連結至儲存區

將資料資產附加至儲存區。資料資產是包含資料的儲存資源,可以是 Cloud Storage bucket 或 BigQuery 資料集。這是建立資料網格架構的最後一個步驟。

  1. 在 Dataplex Universal Catalog 的「管理」檢視畫面中,點選您建立的湖泊 (My data mesh)。

  2. 在「區域」分頁中,按一下要新增資產的區域 (My sub domain)。

  3. 在「資產」分頁中,按一下 「新增資產」

  4. 按一下「新增資產」

  5. 在「Type」(類型) 部分,選取「Cloud Storage bucket」(Cloud Storage bucket)

  6. 在「顯示名稱」欄位中,輸入 Data mesh asset。Dataplex Universal Catalog 會自動為您產生資產 ID。

  7. 在「Bucket」欄位中,按一下「Browse」(瀏覽)

    1. 從清單中選取值區。
    2. 按一下「選取」
  8. 依序點選「完成」和「繼續」

  9. 按一下「繼續」即可沿用預設的「進階設定」

  10. 按一下「提交」