本文档介绍了如何使用条目链接导出实用程序将 Knowledge Catalog(以前称为 Dataplex Universal Catalog)中的条目链接(术语库术语与数据资产之间的关系)提取到 Google 表格中。
您可以将条目链接导出到 Google 表格,以审核现有链接、备份元数据或准备用于批量更新的模板。
准备工作
在将条目链接导出到 Google 表格之前,请完成以下前提条件。
设置服务帐号
如需运行导出实用程序,您必须设置一个服务帐号,该账号具有访问 Google Sheets API 和模拟用户凭据所需的权限:
确定或创建服务帐号。
在运行导入实用程序的项目中选择现有服务帐号或创建新服务账号。如需了解详情,请参阅 创建服务账号。 记下服务帐号电子邮件地址 (例如
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com)。配置服务帐号模拟。
如需在本地运行导出实用程序脚本,您的用户账号必须具有模拟服务帐号的权限。向服务帐号授予用户账号的 Service Account Token Creator 角色 (
roles/iam.serviceAccountTokenCreator)。如需了解详情,请参阅 管理对服务账号的访问权限。
向服务帐号授予对 Google 表格的
Editor访问权限。打开要用于导入过程的 Google 表格,点击共享, 然后将服务帐号电子邮件地址添加为
Editor。此权限允许服务帐号从您的表格中读取数据或向其中写入数据。
所需角色
为确保服务帐号具有将条目链接导出到 Google 表格所需的 权限,请让您的管理员向服务帐号授予以下 IAM 角色:
如果未能向正确的正文授予这些角色,可能会导致权限错误。- Dataplex Administrator (
roles/dataplex.admin) 针对项目的 - Dataplex Catalog Admin (
roles/dataplex.catalogAdmin) 针对项目的 - Dataplex Catalog Editor (
roles/dataplex.catalogEditor) 针对项目的
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
您的管理员还可以通过自定义角色或其他预定义角色向服务帐号授予所需的权限。
启用 API
如需导出条目链接,请在项目中启用以下 API:
启用 API 所需的角色
如需启用 API,您需要拥有 Service Usage Admin IAM 角色 (roles/serviceusage.serviceUsageAdmin),该角色包含 serviceusage.services.enable 权限。了解如何授予
角色。
设置 Git 代码库
克隆 dataplex-labs 代码库:
git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/export
安装依赖项
安装所需的 Python 依赖项:
pip3 install -r requirements.txt cd dataplex-glossary
如果您在软件包安装过程中遇到任何问题, 请设置新的 Python 开发环境。
进行身份验证并配置服务帐号模拟
初始化 Google Cloud CLI 并使用应用默认凭据 (ADC) 通过服务帐号模拟进行身份验证:
# Set your service account email address SA_EMAIL="SERVICE_ACCOUNT_EMAIL" # Authenticate ADC using service account impersonation and required scopes gcloud init gcloud auth login gcloud auth application-default login \ --impersonate-service-account="${SA_EMAIL}" \ --scopes="https://www.googleapis.com/auth/spreadsheets"
将 SERVICE_ACCOUNT_EMAIL 替换为服务帐号电子邮件地址 ID。 例如:
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com
设置用于导出的目标 Google 表格
创建空白 Google 表格或使用现有表格。导出脚本会写入第一个工作表。请确保您已向服务帐号授予对 Google
表格的 Editor 访问权限。
设置环境变量
设置以下环境变量:
# Set your glossary URL export GLOSSARY_URL="GLOSSARY_URL" # Set your Google Sheet URL export SPREADSHEET_URL="GOOGLE_SHEET_URL" # Set the project ID export USER_PROJECT="USER_PROJECT"
将条目链接导出到 Google 表格
如需将术语库中的条目链接导出到 Google 表格,请运行以下脚本:
cd export python3 entrylinks-export.py \ --glossary-url="$GLOSSARY_URL" \ --spreadsheet-url="$SPREADSHEET_URL" \ --user-project="$USER_PROJECT"
您可以在本地执行路径的 logs/ 目录中查看执行日志。这些日志可帮助您审核传输过程,并识别跳过的条目或格式设置警告。
验证导出的条目链接数据
导出脚本会使用以下列填充 Google 表格:
| 列标题 | 说明 |
|---|---|
entry_link_type |
条目链接的类型(definition、related 或
synonym)。 |
source_entry |
来源条目的完整资源路径。 |
target_entry |
目标条目的完整资源路径。 |
source_path |
定义链接的列或字段路径。 |
后续步骤
- 了解如何管理业务术语库。
- 了解如何 从 Google 表格导入条目链接。
- 了解如何将术语库导出到 Google 表格。
- 详细了解元数据管理。