本文档介绍了 Dataplex Universal Catalog 中数据产品的架构和关键概念。
数据产品是经过精心整理的逻辑数据资产集合,经过正式封装,可确保其可发现、可信且可访问。数据产品的主要功能包括:
- 将目录资产整理成一个逻辑单元,以解决特定的业务问题并更快地获得分析洞见。
- 分发时附带包含说明、文档和切面的上下文。
- 通过合同建立信任,使数据提供方能够向数据使用方提供保证。
- 为数据使用方提供自助式工作流,以便他们评估数据产品并获取数据访问权限。
主要概念
本部分介绍与数据产品相关的主要概念和术语。
数据产品
经过精心整理的逻辑数据资产分组,以正式封装的形式提供,可供发现、信任和访问,用于解决特定的业务问题。
素材资源
指向物理数据资源的指针,例如 BigQuery 数据集、表或视图。数据产品包含一项或多项资产。
访问权限群组
Google 群组由数据产品所有者配置,并由数据产品使用方用于申请访问权限。资产权限会分配给这些访问权限群组。
访问权限群组可简化数据产品的权限管理。它们充当底层 IAM 群组的别名(如 Reader 或 Analyst),方便用户使用。这样,数据产品所有者就可以在高层级分配权限,并帮助使用方请求正确的访问权限级别。
数据产品所有者或数据提供方
负责创建和管理数据产品的个人或团队。这包括管理质量、访问权限和文档。
数据产品使用方
使用数据产品来生成数据分析的个人、团队或 AI 代理。
合同
数据产品所有者与其使用方之间的协议。此协议通过定义有关数据提供和使用方式(例如刷新时间安排和质量标准)的具体条款,明确了预期。
用例示例
假设一位数据科学家正在分析一家电子商务公司。他们的目标是按流量来源查找平均订单价值 (AOV),并查看用户年龄与订单规模之间是否存在相关性。为此,他们需要合并来自多个表(例如 order_details、user_traffic 和 user_demographic)的数据。
在传统设置中,此流程会产生摩擦。为了生成分析洞见,数据科学家必须先在组织庞大的数据环境中找到正确的表,然后联系每位数据所有者,说明其访问请求的理由,并等待批准。
借助数据产品,数据所有者可以将相关资产打包成一个名为“电子商务业务数据”的单一产品,从而简化此体验。此文件包包含以下内容:
资产
- BigQuery 表
order_details和user_traffic(包含历史订单数据和流量来源) - BigQuery 视图
user_demographics(提供不含 PII 的用户详细信息)
- BigQuery 表
访问权限群组
- 预定义的
Reader和Writer群组,可简化访问权限申请流程
- 预定义的
合同
- 用于定义数据刷新频率(例如,太平洋标准时间每周上午 8:00)的合同
上下文
- 包含示例查询和其他详细信息的文档
- 用于描述数据敏感度的其他元数据
数据科学家现在可以发现此数据产品,并将其视为一个逻辑单元。这样一来,他们就可以放心地生成分析洞见,回答“每个流量来源的平均订单价值是多少?”之类的问题,最终揭示哪些来源带来的客户价值最高。
数据产品用户体验流程
Dataplex Universal Catalog 中的数据产品生命周期涉及两个关键的用户历程:一个是数据产品所有者(或提供方)创建和管理数据的历程,另一个是数据产品使用方发现和使用数据的历程。
数据产品所有者历程
此阶段的重点在于封装、保护和监管数据产品,以确保其可信且可访问。
创建:定义数据产品并添加资产。这涉及以下操作:
- 配置唯一名称、项目、区域和说明。
- 添加 BigQuery 表、数据集或视图等资产。
- 配置访问权限群组(例如
Analyst或Reader),并将它们映射到基础 Google 群组,以简化权限管理。 - 为这些访问权限群组分配特定资产所需的 IAM 角色。
- 添加合同(一种系统切面),以正式传达商定的数据刷新节奏、频率和阈值。
如需了解详情,请参阅创建数据产品。
管理:更新数据产品并确保其可发现性。这涉及以下操作:
- 更新基本详细信息、资产、权限和补充切面(元数据)以及富文本文档。
- 向使用方授予权限,以便他们发现数据产品并请求访问权限。
如需了解详情,请参阅管理数据产品。
数据产品使用方历程
此历程侧重于快速找到可信数据并获取使用这些数据所需的权限。
发现:针对特定业务问题查找相关且值得信赖的数据。这涉及到以下操作:
- 使用关键字或自然语言通过 Dataplex Universal Catalog 搜索功能查找打包的数据产品。
- 查看数据产品的概览、资产、合同和其他切面,以确定其是否适合使用。
如需了解详情,请参阅搜索数据产品。
申请访问权限:向数据产品所有者申请数据访问权限。
如需了解详情,请参阅请求访问数据产品。
使用:访问基础资产以生成分析洞见。这涉及以下操作:
- 获得批准后,您就可以访问相应产品及其资产。例如,如果资产是 BigQuery 表,您可以前往 BigQuery Studio 并直接查询数据。
如需了解详情,请参阅使用数据产品。
支持的资产
一个数据产品可以由一个或多个数据资产组成。在预览版中,支持以下数据资产:
- BigQuery 数据集
- BigQuery 表
- BigQuery 视图
限制
- 数据产品及其基础资产必须位于同一Google Cloud 位置。
- 一个数据产品最多可以包含 10 项资产。
- 您最多可以为每个项目创建 50 个数据产品。
- 预览版中不提供请求审批工作流集成。不过,数据产品使用方可以通过向数据产品所有者发送邮件通知来请求访问权限。
后续步骤
- 了解如何创建数据产品。
- 详细了解如何管理数据产品。
- 了解如何搜索数据产品。
- 了解如何请求数据产品的访问权限。