Dataplex Universal Catalog のビジネス用語集に移行する

このドキュメントでは、Data Catalog メタデータをサポートするビジネス用語集のプレビュー版から、Dataplex Universal Catalog メタデータをサポートするビジネス用語集の一般提供版に 1 つの手順で移行する手順を説明します。

始める前に

  1. gcloud または Python パッケージをインストールします。ユーザー アカウントと、Python ライブラリが使用するアプリケーションのデフォルト認証情報(ADC)を認証します。次のコマンドを実行し、ブラウザベースのプロンプトに従います。

    gcloud init
    gcloud auth login
    gcloud auth application-default login
    
  2. 次の API を有効にします。

  3. いずれかのプロジェクトに 1 つ以上の Cloud Storage バケットを作成します。バケットは、インポート ファイルの一時的な保存場所として使用されます。バケットの数を増やすほど、インポートは高速になります。移行を実行するサービス アカウントにストレージ管理者の IAM ロールを付与します。

    service-MIGRATION_PROJECT_ID@gcp-sa-dataplex.iam.gserviceaccount.com

    MIGRATION_PROJECT_ID は、用語集の移行元となるプロジェクトに置き換えます。

  4. リポジトリを設定します。

    1. リポジトリのクローンを作成します。

      git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git
      cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import
      
    2. 必要なパッケージをインストールします。

      pip3 install -r requirements.txt
      cd migration
      

必要なロール

移行スクリプトを実行する

python3 run.py --project=MIGRATION_PROJECT_ID --user-project=USER_PROJECT_ID --buckets=BUCKET1,BUCKET2

次のように置き換えます。

  • USER_PROJECT_ID: 移行するプロジェクトのプロジェクト ID。
  • BUCKET1BUCKET2: インポートに使用する Cloud Storage バケット ID。

移行の範囲の用語集

特定の用語集のみを移行するには、それぞれの URL を指定してスコープを定義します。

python3 run.py --project=MIGRATION_PROJECT_ID --user-project=USER_PROJECT_ID --buckets=BUCKET1,BUCKET2 --glossaries="GLOSSARY_URL1","GLOSSARY_URL2"

GLOSSARY_URL1(および GLOSSARY_URL2)を、移行する用語集の URL に置き換えます。

インポート ジョブの失敗時に移行を再開する

移行後にファイルが存在する場合は、一部のインポート ジョブが失敗したことを示しています。移行を再開するには、次のコマンドを実行します。

python3 run.py --project=MIGRATION_PROJECT_ID --user-project=USER_PROJECT_ID --buckets=BUCKET1,BUCKET2 --resume-import