导入和导出术语库和条目链接简介

本文档概述了如何在 Knowledge Catalog(以前称为 Dataplex Universal Catalog)中导入和导出业务术语库和条目链接。

借助 Knowledge Catalog 业务术语库,您可以定义通用业务词汇表,并将这些术语与物理数据资产相关联。随着目录的增长,在 控制台Google Cloud 中单独管理这些术语及其关系可能会变得困难。

如需大规模管理业务术语库,您可以批量导入和导出术语库(类别和术语)和条目链接(术语与数据资产之间的关联)。

术语

在使用导入和导出实用程序之前,请先熟悉以下关键组件:

  • 术语库资源 :由类别和术语组成,用于建立业务词汇表。
  • 条目链接 :资源之间的关系或关联。 Knowledge Catalog 支持三种类型的条目链接:

    • definition:将术语库术语与特定数据资产(例如 BigQuery 列)相关联
    • related:在两个相关术语库术语之间建立关系
    • synonym:在两个同义术语库术语之间建立关系

导入和导出术语库和条目链接的方法

Knowledge Catalog 支持两种主要的批量术语库管理方法。选择最符合您的自动化需求和首选界面的方法:

  • 基于 JSON 的元数据导入
  • 基于 Google 表格的导入和导出实用程序

基于 JSON 的元数据导入

这是内置的、全托管的 Knowledge Catalog 机制。您可以使用 Dataplex API 导入以 JSON 格式的元数据文件中定义的术语库术语及其关联。

用例示例 :自动更新 Knowledge Catalog 元数据,作为每日安排的数据流水线的一部分,例如直接从外部企业数据库同步术语。

如需了解详情,请参阅 使用 JSON 文件导入术语库和条目链接

基于 Google 表格的导入和导出实用程序

这是一种在 dataplex-labs 代码库中提供的基于脚本的开源方法。它使用 Python 脚本在 Google 表格和 Knowledge Catalog 之间同步术语库元数据。

用例示例 :数据治理团队希望与非技术业务利益相关者协作起草和审核数十个新业务术语。 该团队使用这种基于电子表格的方法,以便每个人都可以在管理员运行脚本以将术语批量上传到 Knowledge Catalog 之前,在 Google 表格中修改、评论和批准术语。

如需了解详情,请参阅以下文档:

常见用例:使用 Google 表格进行往返修改

一种常见的管理工作流是执行往返修改。这包括导出现有目录设置、进行批量修改,并将这些更改应用回 Knowledge Catalog。

以下工作流说明了如何执行此过程:

  1. 将现有元数据从 Knowledge Catalog 导出到 Google 表格。

    使用 术语库导出条目链接导出 实用程序将现有术语库结构和条目链接提取到 Google 表格中。

  2. 修改 Google 表格中的元数据。

    在 Google 表格中进行必要的更改。由于在导出期间,对称链接(例如 synonymrelated 条目链接)会简化为单向,以避免重复行,因此您只需管理一次。

    您可以按照所需的列架构向相应的工作表添加新行。您还可以直接在行中修改说明或显示名等详细信息。

  3. 暂存更改,然后将更改从 Google 表格导入回 Knowledge Catalog。

    首先运行术语库导入 实用程序。这样可确保在您尝试链接任何新术语或类别之前,在业务术语库中成功创建这些术语或类别。

    运行条目链接导入实用程序。此实用程序会读取您更新的关联,将其暂存在 Cloud Storage 存储桶中,并将 definitionrelatedsynonym 链接应用于新更新的术语库。

后续步骤