Dataplex Universal Catalog 是一种统一的智能数据治理解决方案,可帮助您管理、了解和使用组织中的数据资产。借助 AI,Dataplex Universal Catalog 可简化跨各种系统处理分布式数据的流程,让您专注于获取有价值的数据洞见。
例如,假设一家全球零售公司生成大量销售、库存和客户数据,并将其存储在 Cloud Storage、Spanner 和 Pub/Sub 中。当数据以这种方式分布在各个系统中时,管理治理、确保质量和保持合规性可能会非常复杂且耗时。Dataplex Universal Catalog 提供了一个中央数据目录,可用于发现、分析、验证、跟踪组织数据资产的沿袭以及控制对组织数据资产的访问权限,从而简化了执行这些流程的过程。
本文档介绍了 Dataplex Universal Catalog 的核心功能,并重点介绍了关键使用场景。
Dataplex Universal Catalog 功能
Dataplex Universal Catalog 通过以下功能治理数据:
- 元数据编目。检索 Google Cloud 资源(在 BigQuery、Cloud SQL、Spanner、Vertex AI、Pub/Sub、Dataform、Dataproc Metastore 中)和您引入 Dataplex Universal Catalog 的第三方资源的元数据,以便获取即时数据目录。
- 数据发现。扫描 Cloud Storage 存储桶中的结构化数据和非结构化数据,以提取元数据和编制元数据目录。
- 数据分析洞见、使用 AI 生成有关数据的自然语言问题,以发现模式、评估数据质量和执行统计分析。
- 数据分析。识别 BigQuery 表中列数据的常见特征,例如典型数据值、数据分布和 null 数量,这些信息可用于数据分类和质量保证。
- 数据质量。通过根据组织政策验证数据来定义和衡量 BigQuery 表中数据的质量,并在数据不符合质量标准时记录提醒。
- 业务术语库。管理贵组织中与业务相关的术语和定义,并将术语附加到表格列,以促进对数据使用情况的一致理解。
- 数据沿袭。跟踪数据在系统中的移动方式:数据来自何处、传递到何处以及对其应用了哪些转换。
Dataplex Universal Catalog 支持端到端数据生命周期,从分布式发现到业务数据洞见。您还可以通过 BigQuery 使用治理功能。
使用场景
您可以使用 Dataplex Universal Catalog 执行以下操作:
发现和了解数据。Dataplex Universal Catalog 可让您了解组织中的数据资源。它可让您找到满足数据使用需求的资源。Dataplex Universal Catalog 可为数据资源提供上下文,帮助您了解数据资源是否适合数据使用方的需求。
启用数据治理和数据管理。Dataplex Universal Catalog 提供元数据,可为数据治理和数据管理功能提供信息和支持。
创建中央数据目录。 Dataplex Universal Catalog 会存储从 Google Cloud 资源自动收集的元数据并提供其访问权限。您可以集成来自非Google Cloud 系统的自有元数据。您可以使用其他业务和技术元数据注解来丰富所有元数据。
开始使用
如果您是首次使用 Dataplex Universal Catalog,请考虑以下快速入门:
后续步骤
- 详细了解 Dataplex Universal Catalog 中的元数据管理。
- 了解如何搜索数据资产。
- 了解如何管理条目和注入自定义来源。
- 了解如何将元数据导入 Dataplex Universal Catalog。
- 了解 BigQuery 治理。