将数据沿袭与 Google Cloud 系统搭配使用

数据沿袭显示了项目资源与创建这些资源的进程之间的关系。

您可以在 Google Cloud 控制台中查看数据沿袭详细信息,也可以使用 Data Lineage API 检索这些信息。

数据沿袭需要一段时间才能显示图表,具体取决于正在处理的数据量。对于大多数作业,此过程需要 3 小时,而对于某些作业,此过程可能需要长达 24 小时。

系统会跨项目捕获沿袭信息。当您查看从多个项目生成的沿袭时,可以在任何相关项目中查看汇总的沿袭信息。

角色与权限

如需查看数据沿袭,您需要拥有特定的 Identity and Access Management (IAM) 权限。系统会跨项目捕获沿袭信息,因此您需要拥有多个项目的权限。

  • 在 Dataplex Universal Catalog、BigQuery 或 Vertex AI 中查看沿袭时,您需要拥有相应项目的权限才能查看沿袭信息。

  • 查看在其他项目中记录的沿袭时:您需要拥有相应权限,才能查看在这些项目中记录的沿袭信息。

如需查看数据沿袭,您需要具备以下角色或权限。 向相关资源(例如项目或 BigQuery 表)上的主账号(例如用户或服务账号)授予这些角色。

  • Data Lineage Viewer (roles/datalineage.viewer):授予在 Google Cloud 控制台中查看沿袭和使用 Data Lineage API 的权限。 您必须在记录沿袭的项目和查看沿袭的项目中应用此角色。如需了解详情,请参阅项目类型

  • Dataplex Universal Catalog Viewer (roles/dataplex.catalogViewer):授予查看 Dataplex Universal Catalog 中编目的资产的元数据的权限。在存储目录条目的项目上授予此角色,以便用户在谱系图中查看条目详细信息。或者,您也可以在源系统上授予查看者角色。如需了解详情,请参阅使用 Dataplex Universal Catalog 搜索数据资产

  • 其他 BigQuery 权限

    • 如需在沿袭图中查看 BigQuery 资产的详细信息(例如表定义或视图查询),请授予 BigQuery Data Viewer (roles/bigquery.dataViewer) 角色。
    • 如需查看生成谱系的 BigQuery 作业的 SQL 查询,请授予 bigquery.jobs.get 权限。此权限包含在 BigQuery Admin (roles/bigquery.admin) 角色和 BigQuery Resource Viewer (roles/bigquery.resourceViewer) 角色等角色中。

启用 Data Lineage API 后,数据沿袭会自动跟踪沿袭信息。您无需任何管理员或编辑者角色即可捕获数据资产的沿袭信息。

如需详细了解如何授予角色,请参阅管理访问权限。您可以在更高的文件夹或组织级层分配角色。如需了解详情,请参阅授予或撤消单个角色

数据沿袭视图的类型

您可以图表或列表的形式查看沿袭信息。 沿袭图默认显示表级沿袭。对于 BigQuery 作业,您可以在图表视图和列表视图中查看列级沿袭数据。

提供以下视图类型:

  • 图表视图:以交互式图表的形式显示沿袭,让您可以通过展开节点来探索数据资产和列之间的关系。

  • 列表视图:以表格格式显示沿袭,提供表级和列级沿袭的简化版和详细版表示形式。 您可以在此视图中自定义列并导出沿袭数据。

图中的关键元素如下所述:

  • 节点:表示数据实体。在表级视图中,节点会显示表名称及其列。在列级视图中,每个节点都表示一个特定的表及其具有沿袭的列。

  • :连接节点的线条,表示节点之间发生的流程。边可以包含图标或标签,以提供有关转换的更多信息:

    • Icons:在表格级视图中,图标会显示在边缘,表示转换过程。手动探索图表时,边上的图标表示进程的来源系统(例如 BigQuery 或 Vertex AI)。如果涉及多个进程,则会显示“多个进程”图标。如果进程源系统未知,则使用齿轮图标。 应用过滤条件后,所有进程都会使用齿轮图标。
    • 标签:在列级视图中,边会添加标签来描述列之间的依赖关系类型,例如 Exact copyOther

启用数据沿袭

启用数据沿袭功能后,系统会开始自动跟踪受支持的系统的沿袭信息。您必须同时在查看沿袭的项目和记录沿袭的项目中启用 Data Lineage API。如需了解详情,请参阅项目类型

  1. 如需捕获沿袭信息,请完成以下步骤:
    1. 在 Google Cloud 控制台的项目选择器页面上,选择您要记录沿袭的项目。

      转到“项目选择器”(Project selector)

    2. 启用 Data Lineage API。

      启用 Data Lineage API

    3. 针对您要记录沿袭的每个项目重复执行上述步骤。
  2. 在您查看谱系的项目中,启用 Data Lineage API 和 Dataplex API。

    启用 API

在 Dataplex Universal Catalog 中查看沿袭

您可以在 Dataplex Universal Catalog 网页界面中查看数据沿袭信息。

如需查看沿袭,请按照以下说明操作:

  1. 在 Google Cloud 控制台中,前往 Dataplex Universal Catalog 搜索页面。

    转到搜索

  2. 选择 Dataplex Universal Catalog 作为搜索模式。

  3. 搜索要查看的条目,然后点击该条目。如需了解详情,请参阅在 Dataplex Universal Catalog 中搜索资源

  4. 点击沿袭标签页。

    系统会打开默认的视图,其中显示了跨系统和区域的表级沿袭。如需了解详情,请参阅沿袭图视图

  5. 如需手动探索谱系图,请点击节点旁边的展开,一次加载五个节点。

    如需了解详情,请参阅手动探索沿袭图

  6. 视图中,点击某个节点。

    系统会打开详细信息面板,其中包含有关相应资产的信息,例如完全限定名称和类型。如需了解详情,请参阅节点详情

  7. 视图中,点击带有进程图标的边。

    系统会打开查询面板。如需了解详情,请参阅检查转换逻辑审核运行情况和历史记录

    • 如需检查转换逻辑,请点击详细信息标签页。

    • 如需查看运行的审核记录和历史记录,请点击运行标签页。

  8. 沿袭关系探索器面板中,选择过滤条件(例如方向依赖关系类型时间范围),然后点击应用

    这会在特定区域内打开聚焦视图(预览版)。此视图会自动将图表展开到最多三级节点。如需了解详情,请参阅应用过滤条件以获得聚焦的谱系视图

  9. 在聚焦的图表视图中,选择一个节点,然后在该节点的详细信息面板中,点击可视化路径以可视化从所选节点到根条目的沿袭路径(仅在聚焦视图中)。

    如需了解详情,请参阅沿袭路径可视化图表

  10. 如需查看列级沿袭(仅适用于 BigQuery 作业),请执行以下操作之一:

    • 在聚焦的图表视图中,点击表格中的列图标。
      用于切换到列级沿袭的图标。
      “列”图标
    • Lineage explorer 面板中,按列名称过滤,然后点击应用

    如需了解详情,请参阅列级沿袭

  11. 点击 重置

    此操作会移除所有已应用的过滤条件,并将您带到图表视图的开头。

  12. 点击列表即可切换到列表视图。

    列表视图提供表级沿袭和列级沿袭的简化详细表格表示形式,并与图表视图同步。默认情况下,系统会显示简化的列表视图,您可以切换到详细的列表视图来分析各个来源-目标关系。您可以配置要显示的列,并导出谱系数据。如需了解详情,请参阅沿袭列表视图

在 BigQuery 中查看沿袭

您可以在 BigQuery 网页界面中查看数据沿袭信息。

如需查看沿袭,请按照以下说明操作:

  1. 在 Google Cloud 控制台中,前往 BigQuery 页面。

    打开 BigQuery 页面

  2. 打开要查看其数据沿袭的表。

  3. 点击沿袭标签页。

    系统会打开默认的视图,其中显示了跨系统和区域的表级沿袭。如需了解详情,请参阅沿袭图视图

  4. 如需手动探索谱系图,请点击节点旁边的展开,一次加载五个节点。

    如需了解详情,请参阅手动探索沿袭图

  5. 视图中,点击某个节点。

    系统会打开详细信息面板,其中包含有关相应资产的信息,例如完全限定名称和类型。如需了解详情,请参阅节点详情

  6. 视图中,点击带有进程图标的边。

    系统会打开查询面板。如需了解详情,请参阅检查转换逻辑审核运行情况和历史记录

    • 如需检查转换逻辑,请点击详细信息标签页。

    • 如需查看运行的审核记录和历史记录,请点击运行标签页。

  7. 沿袭关系探索器面板中,选择过滤条件(例如方向依赖关系类型时间范围),然后点击应用

    这会在特定区域内打开聚焦视图(预览版)。此视图会自动将图表展开到最多三级节点。如需了解详情,请参阅应用过滤条件以获得聚焦的谱系视图

  8. 在聚焦的图表视图中,选择一个节点,然后在该节点的详细信息面板中,点击可视化路径,以可视化从所选节点到根条目的沿袭路径(仅在聚焦视图中)。

    如需了解详情,请参阅沿袭路径可视化图表

  9. 如需查看列级沿袭(仅适用于 BigQuery 作业),请执行以下操作之一:

    • 在聚焦的图表视图中,点击表格中的列图标。
      用于切换到列级沿袭的图标。
      “列”图标
    • Lineage explorer 面板中,按列名称过滤,然后点击应用

    如需了解详情,请参阅列级沿袭

  10. 点击 重置

    此操作会移除所有已应用的过滤条件,并将您带到图表视图的开头。

  11. 点击列表即可切换到列表视图。

    列表视图提供表级沿袭和列级沿袭的简化详细表格表示形式,并与图表视图同步。默认情况下,系统会显示简化的列表视图,您可以切换到详细的列表视图来分析各个来源-目标关系。您可以配置要显示的列,并导出谱系数据。如需了解详情,请参阅沿袭列表视图

在 Vertex AI 中查看沿袭

Vertex AI Pipelines 等系统会为 Vertex AI 模型和数据集生成沿袭数据。您可以在 Vertex AI 网页界面中查看数据沿袭信息。

在 Vertex AI 中查看托管式数据集的沿袭

如需查看数据集的沿袭,请按照以下说明操作:

  1. 在 Google Cloud 控制台中,前往数据集页面。

    打开“数据集”页面

  2. 点击要查看其数据沿袭的数据集。

  3. 点击沿袭标签页。

    系统会打开默认的视图,其中显示了跨系统和区域的表级沿袭。如需了解详情,请参阅沿袭图视图

  4. 如需手动探索谱系图,请点击节点旁边的展开,一次加载五个节点。

    如需了解详情,请参阅手动探索沿袭图

  5. 视图中,点击某个节点。

    系统会打开详细信息面板,其中包含有关相应资产的信息,例如完全限定名称和类型。如需了解详情,请参阅节点详情

  6. 视图中,点击带有进程图标的边。

    系统会打开查询面板。如需了解详情,请参阅检查转换逻辑审核运行情况和历史记录

    • 如需检查转换逻辑,请点击详细信息标签页。

    • 如需查看运行的审核记录和历史记录,请点击运行标签页。

  7. 沿袭关系探索器面板中,选择过滤条件(例如方向依赖关系类型时间范围),然后点击应用

    这会在特定区域内打开聚焦视图(预览版)。此视图会自动将图表展开到最多三级节点。如需了解详情,请参阅应用过滤条件以获得聚焦的谱系视图

  8. 在聚焦的图表视图中,选择一个节点,然后在该节点的详细信息面板中,点击可视化路径以可视化从所选节点到根条目的沿袭路径(仅在聚焦视图中)。

    如需了解详情,请参阅沿袭路径可视化图表

  9. 如需查看列级沿袭(仅适用于 BigQuery 作业),请执行以下操作之一:

    • 在聚焦的图表视图中,点击表格中的列图标。
      用于切换到列级沿袭的图标。
      “列”图标
    • Lineage explorer 面板中,按列名称过滤,然后点击应用

    如需了解详情,请参阅列级沿袭

  10. 点击 重置

    此操作会移除所有已应用的过滤条件,并将您带到图表视图的开头。

  11. 点击列表即可切换到列表视图。

    列表视图提供表级沿袭和列级沿袭的简化详细表格表示形式,并与图表视图同步。默认情况下,系统会显示简化的列表视图,您可以切换到详细的列表视图来分析各个来源-目标关系。您可以配置要显示的列,并导出谱系数据。如需了解详情,请参阅沿袭列表视图

在 Vertex AI 中查看模型的沿袭

如需查看模型的沿袭,请按照以下说明操作:

  1. 在 Google Cloud 控制台中,前往 Model Registry 页面。

    打开 Model Registry 页面

  2. 点击要查看其数据沿袭的模型。

  3. 点击沿袭标签页。

    系统会打开默认的视图,其中显示了跨系统和区域的表级沿袭。如需了解详情,请参阅沿袭图视图

  4. 如需手动探索谱系图,请点击节点旁边的展开,一次加载五个节点。

    如需了解详情,请参阅手动探索沿袭图

  5. 视图中,点击某个节点。

    系统会打开详细信息面板,其中包含有关相应资产的信息,例如完全限定名称和类型。如需了解详情,请参阅节点详情

  6. 视图中,点击带有进程图标的边。

    系统会打开查询面板。如需了解详情,请参阅检查转换逻辑审核运行情况和历史记录

    • 如需检查转换逻辑,请点击详细信息标签页。

    • 如需查看运行的审核记录和历史记录,请点击运行标签页。

  7. 沿袭关系探索器面板中,选择过滤条件(例如方向依赖关系类型时间范围),然后点击应用

    这会在特定区域内打开聚焦视图(预览版)。此视图会自动将图表展开到最多三级节点。如需了解详情,请参阅应用过滤条件以获得聚焦的谱系视图

  8. 在聚焦的图表视图中,选择一个节点,然后在该节点的详细信息面板中,点击可视化路径以可视化从所选节点到根条目的沿袭路径(仅在聚焦视图中)。

    如需了解详情,请参阅沿袭路径可视化图表

  9. 如需查看列级沿袭(仅适用于 BigQuery 作业),请执行以下操作之一:

    • 在聚焦的图表视图中,点击表格中的列图标。
      用于切换到列级沿袭的图标。
      “列”图标
    • Lineage explorer 面板中,按列名称过滤,然后点击应用

    如需了解详情,请参阅列级沿袭

  10. 点击 重置

    此操作会移除所有已应用的过滤条件,并将您带到图表视图的开头。

  11. 点击列表即可切换到列表视图。

    列表视图提供表级沿袭和列级沿袭的简化详细表格表示形式,并与图表视图同步。默认情况下,系统会显示简化的列表视图,您可以切换到详细的列表视图来分析各个来源-目标关系。您可以配置要显示的列,并导出谱系数据。如需了解详情,请参阅沿袭列表视图

后续步骤