在知识目录中查看沿袭

本页面介绍了如何查看 Cloud Data Fusion 流水线生成的数据沿袭以及上的其他数据移动,以用于发现和治理目的。 Google Cloud您可以在控制台的 Knowledge Catalog 页面上查看受支持数据源的沿袭图,也可以使用 Data Lineage API 检索完整的数据沿袭记录。

支持 Knowledge Catalog 数据沿袭的插件

Cloud Data Fusion 和 Knowledge Catalog 支持以下插件的资产级 沿袭:

  • Amazon S3
  • BigQuery
  • BigQuery 多表接收器(6.9.1 版及更高版本)
  • Spanner
  • Cloud Storage
  • Cloud SQL for MySQL
  • Cloud SQL for PostgreSQL
  • Knowledge Catalog
  • FTP
  • 通用数据库
  • HTTP
  • MSSQL/SQL Server
  • 多数据库表来源(6.9.1 版及更高版本)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • SAP 表

如需了解详情,请参阅 Cloud Data Fusion 插件

准备工作

如需在控制台的 Knowledge Catalog 页面上查看 Cloud Data Fusion 沿袭图,请执行以下操作:

  1. 创建数据流水线 仅使用受支持插件

  2. 在包含 Cloud Data Fusion 实例的项目中启用 Data Lineage API。

  3. 向 Cloud Data Fusion 代管式服务账号(即 Cloud Data Fusion API Service Agent)授予 Data Lineage Events Producer 角色 (roles/datalineage.producer) 。如果您的实例在较低版本的 Cloud Data Fusion 中运行并且启用了 RBAC,则该过程会有所不同。

    6.10+ 或未启用 RBAC

    如果您的 Cloud Data Fusion 实例使用 6.10.0 版或更高版本,或者您的实例使用较低版本且未启用 RBAC,请按以下步骤操作:

    1. 在 Google Cloud 控制台中,前往 IAM 页面。

      转到 IAM

    2. 选中包括 Google 提供的角色授权 复选框。

    3. 选择 Cloud Data Fusion API Service Agent 服务帐号,然后 点击 修改

    4. 点击添加其他角色 ,然后选择 Data Lineage Events Producer 角色。

    5. 点击保存

    低于 6.10 且启用了 RBAC

    如果您的 Cloud Data Fusion 实例使用低于 6.10.0 的版本且启用了 RBAC,则该服务帐号不会显示在 IAM 页面上的主账号列表中。您必须手动输入服务帐号名称。

    如需授予所需角色,请按以下步骤操作:

    1. 在 Google Cloud 控制台中,前往 IAM 页面。

      转到 IAM

    2. 点击授予访问权限

    3. 新的主账号 字段中,输入 Cloud Data Fusion API Service Agent 服务帐号。请使用以下格式: datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com

      TENANT_PROJECT_ID 替换为实例的租户 ID。如需查看租户项目 ID,请前往实例 页面,然后点击实例名称以查看实例详情。

      转到实例

    4. 选择 Data Lineage Events Producer 角色。

    5. 点击保存

在 Cloud Data Fusion 中启用 Knowledge Catalog 数据沿袭

对于 Cloud Data Fusion 中的新实例,Knowledge Catalog 数据沿袭默认处于关闭状态。如果您在 2024 年 1 月 27 日之前创建了版本为 6.8.0 或更高版本的实例,则在完成 准备工作中的步骤后,该功能默认处于开启状态。

在创建实例时启用 Knowledge Catalog 数据沿袭

控制台

如需在创建实例时启用 Knowledge Catalog 数据沿袭,请按以下步骤操作:

  1. 前往 Cloud Data Fusion 实例 页面,然后点击创建实例

    创建实例

  2. 配置实例时,展开高级选项 部分,然后点击启用与 Dataplex 数据沿袭的集成 。如需详细了解如何创建实例,请参阅创建公共 实例

REST API

如需在创建实例时启用 Knowledge Catalog 数据沿袭,请将可选的 dataplex_data_lineage_integration_enabled 属性设置为 true

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

如需将其关闭,您可以将该属性设置为 false,也可以省略该属性,因为在创建新实例时,沿袭功能默认处于关闭状态。

在现有实例中启用或停用 Knowledge Catalog 数据沿袭

控制台

如需在 Cloud Data Fusion 的现有实例中启用或停用 Knowledge Catalog 数据沿袭,请按以下步骤操作:

  1. 查看实例详情:
    1. 在 Google Cloud 控制台中,前往 Cloud Data Fusion 页面。

    2. 点击实例,然后点击实例名称以前往实例详情页面。

      转到实例

  2. Dataplex 数据沿袭集成 字段中,点击修改
  3. 启用或停用 Knowledge Catalog 数据沿袭,然后点击保存

REST API

如需在 Cloud Data Fusion 的现有实例中启用 Knowledge Catalog 数据沿袭,请将 dataplex_data_lineage_integration_enabled 属性设置为 true,并添加 updateMask 参数值:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

如需在 Cloud Data Fusion 的现有实例中停用 Knowledge Catalog 数据沿袭,请将 dataplex_data_lineage_integration_enabled 属性设置为 false,并添加 updateMask 参数值:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

查看数据沿袭图

如需查看所有 Google Cloud 服务中实体的沿袭图, 请执行以下操作:

  1. 在 Cloud Data Fusion 中前往您的实例,然后运行使用受支持插件的数据流水线。

  2. 在控制台的 Knowledge Catalog 页面上查看沿袭图 然后找到要查看其沿袭信息的资产。

限制

在 Knowledge Catalog 中查看沿袭时,存在以下限制:

后续步骤