このドキュメントでは、Knowledge Catalog(以前の Dataplex Universal Catalog)でビジネス用語集とエントリ リンクをインポートおよびエクスポートする方法の概要について説明します。
Knowledge Catalog のビジネス用語集を使用すると、共通のビジネス用語を定義し、それらの用語を物理データアセットに関連付けることができます。カタログが大きくなると、Google Cloud コンソールでこれらの用語とその関係を個別に管理することが難しくなる可能性があります。
ビジネス用語集を大規模に管理するには、用語集(カテゴリと用語)とエントリリンク(用語とデータアセットの関連付け)を一括でインポートおよびエクスポートします。
用語
インポート / エクスポート ユーティリティを使用する前に、次の主要コンポーネントについて理解しておいてください。
- 用語集リソース: ビジネス用語を確立するカテゴリと用語で構成されます。
エントリリンク: リソース間の関係または関連付け。Knowledge Catalog は、次の 3 種類のエントリリンクをサポートしています。
definition: 用語集の用語を特定のデータアセット(BigQuery 列など)に関連付けます。related: 関連する 2 つの用語集の用語間の関係を確立します。synonym: 2 つの同義語の用語集用語間の関係を確立します
用語集とエントリリンクのインポートとエクスポートの方法
Knowledge Catalog は、用語集の一括管理に主に次の 2 つの方法をサポートしています。自動化のニーズと優先するインターフェースに最も適した方法を選択します。
- JSON ベースのメタデータのインポート
- インポートとエクスポート用の Google スプレッドシート ベースのユーティリティ
JSON ベースのメタデータのインポート
これは、組み込みのフルマネージド Knowledge Catalog メカニズムです。Dataplex API を使用して、JSON 形式のメタデータ ファイルで定義された用語集の用語とその関連付けをインポートします。
ユースケースの例: 外部のエンタープライズ データベースから用語を直接同期するなど、毎日のスケジュール設定されたデータ パイプラインの一部として Knowledge Catalog のメタデータを自動的に更新します。
詳細については、JSON ファイルを使用して用語集とエントリリンクをインポートするをご覧ください。
インポートとエクスポート用の Google スプレッドシート ベースのユーティリティ
これは、dataplex-labs リポジトリで提供されるオープンソースのスクリプトベースのアプローチです。Python スクリプトを使用して、Google スプレッドシートと Knowledge Catalog の間で用語集のメタデータを同期します。
ユースケースの例: データ ガバナンス チームが、技術的な知識のないビジネス ステークホルダーと協力して、数十もの新しいビジネス用語の草案を作成し、レビューしたいと考えています。チームは、このスプレッドシート ベースの方法を使用して、管理者がスクリプトを実行して Knowledge Catalog に一括でアップロードする前に、Google スプレッドシートで全員が用語を編集、コメント、承認できるようにしています。
詳細については、次のドキュメントをご覧ください。
- Google スプレッドシートからビジネス用語集をインポートする
- Google スプレッドシートからエントリ リンクをインポートする
- ビジネス用語集を Google スプレッドシートにエクスポートする
- エントリのリンクを Google スプレッドシートにエクスポートする
一般的なユースケース: Google スプレッドシートとのラウンドトリップ編集
一般的な管理ワークフローは、ラウンドトリップ編集を実行することです。これには、既存のカタログ設定をエクスポートし、一括変更を行い、それらの変更を Knowledge Catalog に適用することが含まれます。
次のワークフローは、このプロセスを実行する方法を示しています。
既存のメタデータを Knowledge Catalog から Google スプレッドシートにエクスポートします。
用語集のエクスポート ユーティリティとエントリリンクのエクスポート ユーティリティを使用して、既存の用語集構造とエントリリンクを Google スプレッドシートに抽出します。
Google スプレッドシート内でメタデータを変更します。
Google スプレッドシートで必要な変更を行います。対称リンク(
synonymやrelatedエントリリンクなど)は、重複する行を避けるためにエクスポート時に単一の方向に簡略化されるため、管理は 1 回のみで済みます。必要な列スキーマに沿って、それぞれのシートに新しい行を追加できます。説明や表示名などの詳細を、行で直接変更することもできます。
Google スプレッドシートから Knowledge Catalog に変更をステージングしてインポートします。
まず、用語集のインポート ユーティリティを実行します。これにより、新しい用語やカテゴリをリンクする前に、ビジネス用語集で正常に作成されます。
エントリリンクのインポート ユーティリティを実行します。このユーティリティは、更新された関連付けを読み取り、Cloud Storage バケットにステージングして、
definition、related、synonymのリンクを新しく更新された用語集に適用します。
次のステップ
- ビジネス用語集の管理について学習する。
- JSON ファイルを使用してビジネス用語集とエントリリンクをインポートする方法を確認する。
- 詳しくは、Google スプレッドシートからビジネス用語集をインポートするをご覧ください。
- 詳しくは、Google スプレッドシートからエントリー リンクをインポートする方法をご覧ください。
- ビジネス用語集を Google スプレッドシートにエクスポートする方法を学習する。
- エントリのリンクを Google スプレッドシートにエクスポートする方法をご確認ください。