このドキュメントでは、ビジネス用語集のエクスポート ユーティリティを使用して、Knowledge Catalog(以前の Dataplex Universal Catalog)から用語集、カテゴリ、用語を Google スプレッドシートに抽出し、一括管理とレポート作成を行う方法について説明します。
glossary_export ユーティリティは、Knowledge Catalog ビジネス用語集からメタデータを取得し、説明、データ スチュワード、ラベルなどの構造化されたスキーマを含む Google スプレッドシートに入力します。
始める前に
用語集をエクスポートする前に、次の前提条件を満たします。
サービス アカウントを設定する
エクスポート ユーティリティを実行するには、Google Sheets API にアクセスしてユーザー認証情報を借用するために必要な権限を持つサービス アカウントを設定する必要があります。
サービス アカウントを特定または作成します。
インポート ユーティリティを実行するプロジェクトで、既存のサービス アカウントを選択するか、新しいサービス アカウントを作成します。詳細については、サービス アカウントを作成するをご覧ください。サービス アカウントのメールアドレス(
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.comなど)をメモします。サービス アカウントの権限借用を構成します。
エクスポート ユーティリティ スクリプトをローカルで実行するには、ユーザー アカウントにサービス アカウントの権限を借用する権限が必要です。ユーザー アカウントに、サービス アカウントのサービス アカウント トークン作成者ロール(
roles/iam.serviceAccountTokenCreator)を付与します。詳細については、サービス アカウントに対するアクセス権の管理をご覧ください。
サービス アカウント
Editorに Google スプレッドシートへのアクセス権を付与します。インポート プロセスで使用する Google スプレッドシートを開き、[共有] をクリックして、サービス アカウントのメールアドレスを
Editorとして追加します。この権限により、サービス アカウントはシートからデータを読み取ったり、シートにデータを書き込んだりできます。
必要なロール
サービス アカウントに用語集を Google スプレッドシートにエクスポートするために必要な権限が付与されていることを確認するには、サービス アカウントに次の IAM ロールを付与するよう管理者に依頼してください。
- プロジェクトに対する Dataplex 管理者 (
roles/dataplex.admin) - プロジェクトに対する Dataplex Catalog 管理者 (
roles/dataplex.catalogAdmin) - プロジェクトに対する Dataplex Catalog 編集者 (
roles/dataplex.catalogEditor)
ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
管理者は、カスタムロールや他の事前定義ロールを使用して、必要な権限をサービス アカウントに付与することもできます。
API を有効にする
用語集をエクスポートするには、プロジェクトで次の API を有効にします。
API を有効にするために必要なロール
API を有効にするには、serviceusage.services.enable 権限を含む Service Usage 管理者 IAM ロール(roles/serviceusage.serviceUsageAdmin)が必要です。詳しくは、ロールを付与する方法をご覧ください。
Git リポジトリを設定する
dataplex-labs リポジトリのクローンを作成します。
git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/export
依存関係のインストール
必要な Python 依存関係をインストールします。
pip3 install -r requirements.txt
パッケージのインストールで問題が発生した場合は、新しい Python 開発環境を設定してください。
サービス アカウントの権限借用を認証して構成する
Google Cloud CLI を初期化し、サービス アカウントの権限借用を使用してアプリケーションのデフォルト認証情報(ADC)で認証します。
# Set your service account email address SA_EMAIL="SERVICE_ACCOUNT_EMAIL" # Authenticate ADC using service account impersonation and required scopes gcloud auth application-default login \ --impersonate-service-account="${SA_EMAIL}" \ --scopes="https://www.googleapis.com/auth/spreadsheets"
SERVICE_ACCOUNT_EMAIL は、サービス アカウントのメール ID に置き換えます。次に例を示します。
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com
エクスポート先の Google スプレッドシートを設定する
空の Google スプレッドシートを作成するか、既存の Google スプレッドシートを使用します。エクスポート スクリプトは最初のシートに書き込みます。サービス アカウントに Google スプレッドシートへの Editor アクセス権が付与されていることを確認します。
用語集を Google スプレッドシートにエクスポートする
glossary-export.py スクリプトを実行します。このユーティリティを実行すると、エクスポート先の Google スプレッドシートと、エクスポートする特定の用語集の名前を入力するよう求められます。
python3 glossary-export.py
実行ログは、ローカル実行パスの logs/ ディレクトリで確認できます。これらのログは、転送プロセスを監査し、スキップされたエントリや形式に関する警告を特定するのに役立ちます。
エクスポートされた用語集データを確認する
エクスポート スクリプトは、次の列を含む Google スプレッドシートを作成します。エクスポートされたデータを確認します。
| フィールド | 説明 |
|---|---|
id |
用語集内の用語またはカテゴリの一意の識別子。 |
parent |
親カテゴリの ID。 |
display_name |
用語またはカテゴリの表示名。 |
description |
用語またはカテゴリの簡単な説明。 |
overview |
用語またはカテゴリのリッチテキストの説明(HTML タグをサポート)。 |
type |
行のタイプ: TERM または CATEGORY。 |
contact1_email |
用語またはカテゴリのプライマリ データ スチュワードのメールアドレス。 |
contact1_name |
用語またはカテゴリのプライマリ データ スチュワードの名前。 |
contact2_email |
用語またはカテゴリのセカンダリ データ スチュワードのメールアドレス。 |
contact2_name |
用語またはカテゴリのセカンダリ データ スチュワードの名前。 |
label1_key |
最初に割り当てられたラベルのキー。 |
label1_value |
最初に割り当てられたラベルの値。 |
label2_key |
2 番目の割り当て済みラベルのキー。 |
label2_value |
2 つ目の割り当てられたラベルの値。 |
次のステップ
- ビジネス用語集を管理する方法について学習する。
- JSON ファイルを使用して用語集をインポートする方法を確認する。
- Google スプレッドシートから用語集をインポートする方法を確認する。
- メタデータ管理について詳細を確認する。