构建数据网格

您可以使用 Dataplex Universal Catalog 构建数据网格架构。本快速入门介绍了如何使用 Dataplex Universal Catalog 功能(例如数据湖、区域和资产)构建数据网格。

数据网格是一种组织和技术方法,用于在网域数据所有者之间分散数据所有权。这些所有者以标准方式提供数据作为产品,并促进组织不同部门之间的沟通,以便在不同位置分发数据集。详细了解数据网格架构

创建网域

  1. 在 Google Cloud 控制台中,前往“Dataplex Universal Catalog 数据湖”页面。

    前往数据湖

  2. 点击创建以创建新的数据湖,作为您的数据网格。

  3. 显示名称字段中,输入 My data mesh

  4. 对于区域,请选择 us-central1

  5. 选择您之前创建并配置为关联 metastore 的 Dataproc Metastore 服务。

  6. 点击创建

在数据湖中创建区域

通过创建 Dataplex Universal Catalog 数据湖来创建网域后,您可以使用区域在网域中托管代管式数据合同和各个团队。区域有两种类型:

  • 原始区域通常用于存储 Cloud Storage 中来自外部来源的任何格式的数据。对于需要进一步处理才可使用的数据,原始区域非常有用。

  • 精选区域用于存储 Cloud Storage 中的结构化数据,这些数据必须符合特定文件格式,并以与 Hive 兼容的目录布局进行整理。它们最适合用于已准备好供使用和分析的数据。

每个网域(例如 salescustomersproducts)都应至少有一个原始区域和一个精选区域。

其他区域用于管理团队之间的数据合同,或为给定网域内的团队提供更精细的细分。例如,产品网域内的库存管理。数据所有者能够管理其网域内的数据并访问这些数据。

  1. 在 Google Cloud 控制台中,前往 Dataplex Universal Catalog 管理视图。

  2. 点击要将区域添加到的数据湖的名称 (My data mesh)。

  3. 区域标签页中,点击 添加区域

  4. 显示名称字段中,输入 My sub domain。 Dataplex Universal Catalog 会自动生成区域的 ID。

  5. 类型部分,选择原始区域

  6. 点击创建

将资产附加到区域

将数据资产附加到区域。数据资产是包含数据的存储资源,可以是 Cloud Storage 存储桶或 BigQuery 数据集。这是创建数据网格架构的最后一步。

  1. 在 Dataplex Universal Catalog 管理视图中,点击您创建的数据湖 (My data mesh)。

  2. 区域标签页中,点击要将资产添加到的区域 (My sub domain)。

  3. 资产标签页中,点击 添加资产

  4. 点击添加资产

  5. 类型部分,选择 Cloud Storage 存储桶

  6. 显示名称字段中,输入 Data mesh asset。Dataplex Universal Catalog 会自动为您生成资产 ID。

  7. 存储桶字段中,点击浏览

    1. 从列表中选择您的存储桶。
    2. 点击选择
  8. 点击完成,然后点击继续

  9. 点击继续以接受默认的高级设置

  10. 点击提交