转换到 Dataplex Universal Catalog 中的业务术语库

本文档提供了相关说明,可帮助您一步到位地从支持 Data Catalog 元数据的业务术语库预览版迁移到支持 Dataplex Universal Catalog 元数据的业务术语库正式版。

准备工作

  1. 安装 gcloudPython 软件包。 对您的用户账号和 Python 库使用的应用默认凭证 (ADC) 进行身份验证。运行以下命令,并按照基于浏览器的提示操作:

    gcloud init
    gcloud auth login
    gcloud auth application-default login
    
  2. 启用以下 API:

  3. 在您的任何项目中创建一个或多个 Cloud Storage 存储桶。这些存储桶将用作导入文件的临时位置。您提供的存储桶越多,导入速度就越快。向运行迁移的服务账号授予 Storage Admin IAM 角色:

    service-MIGRATION_PROJECT_ID@gcp-sa-dataplex.iam.gserviceaccount.com

    MIGRATION_PROJECT_ID 替换为要从中迁移术语库的项目。

  4. 设置代码库:

    1. 克隆代码库:

      git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git
      cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import
      
    2. 安装所需的软件包:

      pip3 install -r requirements.txt
      cd migration
      

所需的角色

运行迁移脚本

python3 run.py --project=MIGRATION_PROJECT_ID --user-project=USER_PROJECT_ID --buckets=BUCKET1,BUCKET2

替换以下内容:

  • USER_PROJECT_ID:要迁移的项目的 ID。
  • BUCKET1BUCKET2:将用于导入的 Cloud Storage 存储桶 ID。

迁移中的范围术语表

如需仅迁移特定术语表,请提供相应术语表的网址来定义其范围。

python3 run.py --project=MIGRATION_PROJECT_ID --user-project=USER_PROJECT_ID --buckets=BUCKET1,BUCKET2 --glossaries="GLOSSARY_URL1","GLOSSARY_URL2"

GLOSSARY_URL1(和 GLOSSARY_URL2)替换为您要迁移的术语表的网址。

继续执行因导入作业失败而暂停的迁移

迁移后如果存在文件,则表示某些导入作业失败。如需恢复迁移,请运行以下命令:

python3 run.py --project=MIGRATION_PROJECT_ID --user-project=USER_PROJECT_ID --buckets=BUCKET1,BUCKET2 --resume-import