您可以使用 Dataplex Universal Catalog 建構資料網格架構。本快速入門指南將說明如何使用 Dataplex Universal Catalog 功能 (例如湖泊、可用區和資產) 來建立資料網格。
資料網格是一種組織和技術方法,可將資料擁有權分散給多位網域資料擁有者。這些擁有者會以標準方式提供資料做為產品,並促進機構中不同部門之間的通訊,以便與不同位置的分散式資料集進行通訊。進一步瞭解資料網格架構。
建立網域
在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「Lakes」(湖泊) 頁面。
按一下「建立」即可建立新湖泊,做為資料網格。
在「Display name」(顯示名稱) 欄位中,輸入
My data mesh
。在「Region」(區域) 中選取
us-central1
。選取您先前建立及設定的 Dataproc Metastore 服務做為相關聯的 Metastore。
點選「建立」。
在湖泊中建立區域
建立 Dataplex Universal Catalog 湖泊來建立網域後,您可以使用儲存區,在網域中代管受管理資料合約和個別團隊。儲存區有兩種類型:
原始區域通常用於將外部來源的任何格式資料儲存在 Cloud Storage 中。原始區域適合需要進一步處理才能使用的資料。
精選資料儲存區用於 Cloud Storage 中的結構化資料,這些資料必須符合特定檔案格式,並整理成與 Hive 相容的目錄配置方式。這類檢視畫面最適合用於可供使用和分析的資料。
每個網域 (例如 sales
、customers
、products
) 應至少有一個原始區域和一個精選區域。
其他區域則用於管理團隊之間的資料合約,或為特定網域內的團隊提供更精細的細目。例如產品網域內的商品目錄管理。資料擁有者可以管理網域內的資料並存取這些資料。
在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「Manage」(管理) 檢視畫面。
按一下要新增可用區的湖泊名稱 (
My data mesh
)。在「區域」分頁中,按一下「新增區域」
。在「Display name」(顯示名稱) 欄位中,輸入
My sub domain
。Dataplex Universal Catalog 會自動為儲存區產生 ID。在「Type」(類型) 中,選取「Raw zone」(原始區域)。
點選「建立」。
將資產連結至儲存區
將資料資產附加至儲存區。資料資產是包含資料的儲存資源,可以是 Cloud Storage bucket 或 BigQuery 資料集。這是建立資料網格架構的最後一個步驟。
在 Dataplex Universal Catalog 的「管理」檢視畫面中,點選您建立的湖泊 (
My data mesh
)。在「區域」分頁中,按一下要新增資產的區域 (
My sub domain
)。在「資產」分頁中,按一下
「新增資產」按一下「新增資產」。
在「Type」(類型) 部分,選取「Cloud Storage bucket」(Cloud Storage bucket)。
在「顯示名稱」欄位中,輸入
Data mesh asset
。Dataplex Universal Catalog 會自動為您產生資產 ID。在「Bucket」欄位中,按一下「Browse」(瀏覽)。
- 從清單中選取值區。
- 按一下「選取」。
依序點選「完成」和「繼續」。
按一下「繼續」即可沿用預設的「進階設定」。
按一下「提交」。