本页面介绍了如何查看 Cloud Data Fusion 流水线生成的数据沿袭以及上的其他数据移动,以用于发现和治理目的。 Google Cloud您可以在控制台的 Knowledge Catalog 页面上查看受支持数据源的沿袭图,也可以使用 Data Lineage API 检索完整的数据沿袭记录。
支持 Knowledge Catalog 数据沿袭的插件
Cloud Data Fusion 和 Knowledge Catalog 支持以下插件的资产级 沿袭:
- Amazon S3
- BigQuery
- BigQuery 多表接收器(6.9.1 版及更高版本)
- Spanner
- Cloud Storage
- Cloud SQL for MySQL
- Cloud SQL for PostgreSQL
- Knowledge Catalog
- FTP
- 通用数据库
- HTTP
- MSSQL/SQL Server
- 多数据库表来源(6.9.1 版及更高版本)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- SAP 表
如需了解详情,请参阅 Cloud Data Fusion 插件。
准备工作
如需在控制台的 Knowledge Catalog 页面上查看 Cloud Data Fusion 沿袭图,请执行以下操作:
在包含 Cloud Data Fusion 实例的项目中启用 Data Lineage API。
向 Cloud Data Fusion 代管式服务账号(即 Cloud Data Fusion API Service Agent)授予 Data Lineage Events Producer 角色 (
roles/datalineage.producer) 。如果您的实例在较低版本的 Cloud Data Fusion 中运行并且启用了 RBAC,则该过程会有所不同。6.10+ 或未启用 RBAC
如果您的 Cloud Data Fusion 实例使用 6.10.0 版或更高版本,或者您的实例使用较低版本且未启用 RBAC,请按以下步骤操作:
在 Google Cloud 控制台中,前往 IAM 页面。
选中包括 Google 提供的角色授权 复选框。
选择 Cloud Data Fusion API Service Agent 服务帐号,然后 点击 修改。
点击添加其他角色 ,然后选择 Data Lineage Events Producer 角色。
点击保存 。
低于 6.10 且启用了 RBAC
如果您的 Cloud Data Fusion 实例使用低于 6.10.0 的版本且启用了 RBAC,则该服务帐号不会显示在 IAM 页面上的主账号列表中。您必须手动输入服务帐号名称。
如需授予所需角色,请按以下步骤操作:
在 Cloud Data Fusion 中启用 Knowledge Catalog 数据沿袭
对于 Cloud Data Fusion 中的新实例,Knowledge Catalog 数据沿袭默认处于关闭状态。如果您在 2024 年 1 月 27 日之前创建了版本为 6.8.0 或更高版本的实例,则在完成 准备工作中的步骤后,该功能默认处于开启状态。
在创建实例时启用 Knowledge Catalog 数据沿袭
控制台
如需在创建实例时启用 Knowledge Catalog 数据沿袭,请按以下步骤操作:
REST API
如需在创建实例时启用 Knowledge Catalog 数据沿袭,请将可选的 dataplex_data_lineage_integration_enabled 属性设置为 true:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
如需将其关闭,您可以将该属性设置为 false,也可以省略该属性,因为在创建新实例时,沿袭功能默认处于关闭状态。
在现有实例中启用或停用 Knowledge Catalog 数据沿袭
控制台
如需在 Cloud Data Fusion 的现有实例中启用或停用 Knowledge Catalog 数据沿袭,请按以下步骤操作:
- 查看实例详情:
在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。
点击实例,然后点击实例名称以前往实例详情页面。
- 在 Dataplex 数据沿袭集成 字段中,点击修改 。
- 启用或停用 Knowledge Catalog 数据沿袭,然后点击保存 。
REST API
如需在 Cloud Data Fusion 的现有实例中启用 Knowledge Catalog 数据沿袭,请将 dataplex_data_lineage_integration_enabled 属性设置为 true,并添加 updateMask 参数值:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
如需在 Cloud Data Fusion 的现有实例中停用 Knowledge Catalog 数据沿袭,请将 dataplex_data_lineage_integration_enabled 属性设置为 false,并添加 updateMask 参数值:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
查看数据沿袭图
如需查看所有 Google Cloud 服务中实体的沿袭图, 请执行以下操作:
在 Cloud Data Fusion 中前往您的实例,然后运行使用受支持插件的数据流水线。
在控制台的 Knowledge Catalog 页面上查看沿袭图 然后找到要查看其沿袭信息的资产。
限制
在 Knowledge Catalog 中查看沿袭时,存在以下限制:
仅当有 BigQuery 实体连接到受支持的插件时,才能在 Knowledge Catalog 中发现沿袭。如需详细了解数据沿袭图何时可用,请参阅 数据沿袭简介。
Data Lineage API 不支持客户管理的加密密钥 (CMEK)。
Cloud Data Fusion 在
me-central1或europe-west12位置不支持此功能。查看 数据沿袭注意事项。
后续步骤
- 详细了解数据沿袭。