データを扱う際に、「この列名の意味は何ですか?」「この破損したデータセットの所有者は誰ですか?」「このテーブルは使用が承認されていますか?」といった疑問が生じることがあります。メタデータタグはこれらの質問に答えようとしますが、すぐに古くなったり、矛盾が生じたりします。Knowledge Catalog(以前の Dataplex Universal Catalog)では、構造化メタデータと明確なビジネス定義をデータアセットに直接アタッチすることで、この問題を解決します。Knowledge Catalog(以前の Dataplex Universal Catalog)では、構造化されたメタデータと明確なビジネス定義をデータアセットに直接関連付けることで、この問題を解決します。明確なデータ コンテキストを提供することで、AI エージェントをグラウンディングし、データとやり取りするすべてのユーザーの信頼の基盤を構築できます。
このチュートリアルでは、Knowledge Catalog でデータ コンテキストを確立する方法について説明します。 データ スチュワードやビジネス アナリストなどのユーザー向けに設計されたこのチュートリアルでは、UI ベースの手順に沿って、ワークフローを自動化する前に標準のビジネス用語とコンテキストを構築します。このチュートリアルでは、主要な Knowledge Catalog のコンセプト間の関係を明確にします。このチュートリアルを終えると、データを検出可能で信頼できるものにする方法を理解できます。
目標
このチュートリアルでは、以下の方法について学習します。
- ビジネス用語集 を使用して、ビジネス用語の信頼できる唯一の情報源を作成する。
- アスペクト タイプ を使用してメタデータを構造化し、整理する。
- アスペクト を使用してメタデータをデータアセットにアタッチする。
- Knowledge Catalog Search を使用して、この新しい構造化メタデータを使用して必要なものを正確に見つける。
始める前に
始める前に、次のことを行います。
- このチュートリアル用のGoogle Cloud プロジェクトを選択します。
- プロジェクトで課金が有効になっていることを確認します。
環境の設定
このチュートリアルでは、Cloud Shell(クラウドで実行されるコマンドライン環境)を使用します。
コンソールで、右上のツールバーにある [Cloud Shell をアクティブにする] をクリックします。 Google Cloud 環境がプロビジョニングされ、接続されるまでしばらく待ちます。
Cloud Shell で、今後のすべてのコマンドが特定の Google Cloud プロジェクトをターゲットとするように、
PROJECT_ID変数とLOCATION変数を設定します。export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export LOCATION="us-central1"必要な Google Cloud サービスを有効にします。
gcloud services enable \ dataplex.googleapis.com \ bigquery.googleapis.com \ datacatalog.googleapis.com
BigQuery データセットを作成してサンプルデータを準備する
次のコードを使用して BigQuery データセットを作成し、いくつかのサンプル CSV トランザクションをテーブルに読み込みます。テーブルを作成すると、Knowledge Catalog がテーブルを検出し、カタログにテーブルの エントリを作成します。
エントリは、データアセットの Knowledge Catalog 表現と考えることができます。メタデータをアタッチできるカタログ内のレコードのようなものです。BigQuery テーブルに直接コンテキストを追加する(または拡充する)のではなく、Knowledge Catalog のエントリに追加します。
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Sample retail data for foundational data context tutorial" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into a BigQuery table
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
SELECT クエリを実行して、設定を確認します。
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
出力例:
+----------------+------------------+-------+------------------+
| transaction_id | user_email | gmv | transaction_date |
+----------------+------------------+-------+------------------+
| 1001 | test@example.com | 150.5 | 2025-08-28 |
| 1002 | user@example.com | 75.0 | 2025-08-28 |
+----------------+------------------+-------+------------------+
ビジネス用語集で共通の用語を確立する
適切なデータ コンテキストは、明確な定義に依存します。たとえば、デベロッパーは、gmv という名前の列が総商品価値を意味するのか、税金と返品が含まれているのかを推測する必要はありません。ビジネス用語集は、組織全体でこれらの定義の信頼できる唯一の情報源を作成します。チームメンバーや AI エージェントがデータを分析する際に、この正確なビジネス コンテキストが継承されます。定義を共有することで、財務、営業、オペレーションなどのチーム間で指標を調整し、AI エージェントがハルシネーションを回避するのに役立ちます。
用語集を作成して最初の用語を定義する手順は次のとおりです。
コンソールで、Knowledge Catalog の [用語集] ページに移動します。 Google Cloud
[ビジネス用語集を作成] をクリックします。
次の詳細情報を入力します。
- 表示名:
Retail Business Glossary - ロケーション:
us-central1 (Iowa)
- 表示名:
[作成] をクリックします。
[カテゴリを作成] をクリックします。
カテゴリに
Sales Metricsという名前を付け、[作成] をクリックします。[Sales Metrics] カテゴリを選択し、[用語を追加] をクリックします。
用語に
Gross Merchandise Valueという名前を付け、[作成] をクリックします。[Gross Merchandise Value] 用語をクリックして、詳細ページを開きます。
[概要] の横にある [追加] をクリックします。次の詳細情報を入力します。
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.[保存] をクリックします。
これで、組織全体のデータエントリにリンクできる用語集用語が作成されました。
アスペクト タイプでテクニカル メタデータを定義する
構造化されていないメタデータタグを使用すると、カタログ エントリに矛盾が生じることがよくあります。たとえば、あるテーブルに owner:bob というタグが付けられ、別のテーブルに steward:alice@example.com というタグが付けられることがあります。メタデータを大規模に整理するには、一貫したスキーマが必要です。
そこで役立つのがアスペクト タイプです。アスペクト タイプは、明確なルールと必須フィールドを設定できるメタデータのブループリントです。データ スチュワードの有効なメールアドレスなどの標準フィールドを必須にすることで、ダウンストリーム スクリプトでメタデータを自動的に検証して保護できます。
アスペクト タイプを作成する手順は次のとおりです。
コンソールで、Knowledge Catalog の [**アスペクト タイプ**] タブを [**メタデータのタイプ**] ページで開きます。 Google Cloud
[カスタム] タブで、[作成] をクリックします。
次の詳細情報を入力します。
- 表示名:
Data Asset Context - ロケーション:
us-central1 (Iowa)
- 表示名:
[テンプレート] セクションで、[フィールドを追加] をクリックして、次の 3 つのフィールドを作成します。
フィールド 1:
- 表示名:
Data Steward - タイプ:
Text - 必須: チェックボックスをオンにします。
- テキスト タイプ:
Plain text
- 表示名:
フィールド 2 ([フィールドを追加] をクリック):
- 表示名:
Data Sensitivity - タイプ:
Enum - 必須: 省略可のままにします。
- 値:
Public、Internal、Confidentialを追加します。
- 表示名:
フィールド 3 ([フィールドを追加] をクリック):
- 表示名:
Last Review Date - 必須: 省略可のままにします。
- タイプ:
Date and time
- 表示名:
[保存] をクリックします。
これで、データ スチュワード、機密レベル、レビュー日などのデータ ガバナンス関連のメタデータ フィールドのアスペクト タイプが作成されました。次のセクションでは、これらのフィールドに特定の値を持つアスペクトをアタッチして、このスキーマをテーブル エントリに適用します。
ビジネス コンテキストとテクニカル コンテキストでエントリを拡充する
列名は省略されたり、曖昧になったりすることがよくあります。列をビジネス用語集の用語にリンクすると、明確で一貫した定義が提供されます。このステップでは、Gross Merchandise Value 用語を gmv という名前の列にリンクし、アスペクト タイプを使用してテーブル エントリにアスペクトをアタッチすることで、retail_data.transactions テーブルのエントリを拡充します。
列をビジネス用語にリンクする
retail_data.transactions の gmv 列の内容を明確にするには、Gross Merchandise Value 用語にリンクします。
コンソールで、Knowledge Catalog の [検索] ページに移動します。 Google Cloud
[フィルタ] をクリックして [フィルタ] パネルを開きます。
[**スコープ**] で [**現在のプロジェクト**] を選択します。
retail_data.transactionsを検索し、返されたトランザクション テーブルをクリックします。[スキーマ] タブをクリックします。
gmv列の横にあるチェックボックスをオンにして、[ビジネス用語を追加] をクリックします。Gross Merchandise Valueを選択します。
テーブル エントリにアスペクトをアタッチする
ビジネス用語を列にリンクするだけでなく、テーブル エントリにアスペクトをアタッチして、データの所有権や機密性などのテーブルレベルのメタデータをキャプチャすることもできます。
アスペクトは、メタデータ フィールドに特定の値を持つアスペクト タイプのインスタンスです。エントリにアスペクトをアタッチすると、Knowledge Catalog は、アスペクト タイプで定義されたスキーマと照らし合わせて、指定した情報をチェックし、整合性を確保します。
retail_data.transactions テーブルの所有権と機密性を定義するには、Data Asset Context アスペクトをアタッチします。
retail_data.transactionsエントリページの [詳細] タブで、[オプションのアスペクト] の横にある [追加] をクリックします。- リストから
Data Asset Contextを選択します。 フィールドに値を入力します。
- データ スチュワード:
finance-team@example.com - データの機密性: [内部] を選択します。
- 最終レビュー日: 今日の日付を選択します。
- データ スチュワード:
[保存] をクリックします。
サンプル小売トランザクション データを拡充することで、Knowledge Catalog にデータ コンテキストの強固な基盤を構築しました。
拡充されたメタデータを使用してエントリを検索する
Knowledge Catalog Search を使用して、設定したビジネス コンテキストに基づいてエントリを検索できるようになりました。たとえば、特定の機密レベルのすべてのアセットを検索したり、用語集用語を検索して基盤となるテーブルを見つけたりできます。
コンソールで、Knowledge Catalog の [検索] ページに移動します。 Google Cloud
[フィルタ] をクリックして [フィルタ] パネルを開きます。
[**スコープ**] で [**現在のプロジェクト**] を選択します。
検索バーに「
Find tables where the Data Asset Context aspect has Internal sensitivity.」と入力します。結果のリストに
retail_data.transactionsテーブルが表示されます。検索バーの入力を消去し、「
Find tables with the Gross Merchandise Value term attached.」と入力します。結果に
retail_data.transactionsテーブルが再び表示されます。これは、gmv列がこのビジネス用語に直接リンクされているためです。
AI エージェントを Knowledge Catalog に接続すると、この拡充されたメタデータが自動的に継承されます。たとえば、エージェントに内部の販売指標を取得するように依頼すると、エージェントは [Data Sensitivity] アスペクト([Internal] に設定)と、リンクされた [Gross Merchandise Value] 用語集用語を読み取ります。この共有コンテキストにより、エージェントはデータソースを確認し、アクセス ポリシーを尊重し、ハルシネーションを回避できます。
クリーンアップ
課金されないようにするには、このチュートリアルで作成したリソースを削除します。
サンプル データセットを削除する
サンプル BigQuery データセットとそのすべてのテーブルを削除するには、次のコマンドを使用します。この操作は取り消せません。
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Knowledge Catalog アーティファクトを削除する
コンソールで、Knowledge Catalog の [**アスペクト タイプ**] タブを [**メタデータのタイプ**] ページで開きます。 Google Cloud
Data Asset Contextアスペクト タイプを選択し、[削除] をクリックします。コンソールで、Knowledge Catalog の [用語集] ページに移動します。 Google Cloud
Gross Merchandise Value用語を選択し、[削除] をクリックします。Sales Metricsカテゴリを選択し、[削除] をクリックします。Retail Business Glossaryを選択し、[削除] をクリックします。
次のステップ
Knowledge Catalog を使用したカタログのキュレーションとエージェントの構築の詳細については、次のリソースをご覧ください。
- アスペクトを管理してメタデータを拡充する: カスタム スキーマを定義して構造化メタデータをアタッチする方法については、アスペクトを管理してメタデータを拡充するをご覧ください。
- ビジネス用語集を管理する: 組織の標準化された語彙を確立する方法については、ビジネス用語集を管理するをご覧ください。
- Terraform でガバナンスを行う: Terraform を使用してカスタム アスペクト タイプと用語集をプロビジョニングする方法を学習します。
- 用語集用語を大規模に操作する: 用語集とエントリリンクのインポートとエクスポートについてで、JSON ファイルを使用してメタデータを一括で拡充します。
- エージェントでメタデータを拡充する: メタデータを拡充するエージェントを構築するで、コンテキストを抽出してデータアセットを拡充する AI エージェントを構築します。
- その他のユースケースを確認する: ユースケースで、その他のハンズオン ワークフローとシナリオを確認します。