本文档提供了相关说明,可帮助您一步到位地从支持 Data Catalog 元数据的业务术语库预览版迁移到支持 Dataplex Universal Catalog 元数据的业务术语库正式版。
准备工作
安装 gcloud 或 Python 软件包。 对您的用户账号和 Python 库使用的应用默认凭证 (ADC) 进行身份验证。运行以下命令,并按照基于浏览器的提示操作:
gcloud init gcloud auth login gcloud auth application-default login启用以下 API:
在您的任何项目中创建一个或多个 Cloud Storage 存储桶。这些存储桶将用作导入文件的临时位置。您提供的存储桶越多,导入速度就越快。向运行迁移的服务账号授予 Storage Admin IAM 角色:
service-MIGRATION_PROJECT_ID@gcp-sa-dataplex.iam.gserviceaccount.com
将
MIGRATION_PROJECT_ID替换为要从中迁移术语库的项目。设置代码库:
克隆代码库:
git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import安装所需的软件包:
pip3 install -r requirements.txt cd migration
所需的角色
运行迁移脚本
python3 run.py --project=MIGRATION_PROJECT_ID --user-project=USER_PROJECT_ID --buckets=BUCKET1,BUCKET2
替换以下内容:
USER_PROJECT_ID:要迁移的项目的 ID。BUCKET1和BUCKET2:将用于导入的 Cloud Storage 存储桶 ID。
迁移中的范围术语表
如需仅迁移特定术语表,请提供相应术语表的网址来定义其范围。
python3 run.py --project=MIGRATION_PROJECT_ID --user-project=USER_PROJECT_ID --buckets=BUCKET1,BUCKET2 --glossaries="GLOSSARY_URL1","GLOSSARY_URL2"
将 GLOSSARY_URL1(和 GLOSSARY_URL2)替换为您要迁移的术语表的网址。
继续执行因导入作业失败而暂停的迁移
迁移后如果存在文件,则表示某些导入作业失败。如需恢复迁移,请运行以下命令:
python3 run.py --project=MIGRATION_PROJECT_ID --user-project=USER_PROJECT_ID --buckets=BUCKET1,BUCKET2 --resume-import