Knowledge Catalog で基本的なデータ コンテキストを確立する

データを扱う際に、「この列名の意味は何ですか?」「この破損したデータセットの所有者は誰ですか?」「このテーブルは使用が承認されていますか?」といった疑問が生じることがあります。メタデータタグはこれらの質問に答えようとしますが、すぐに古くなったり、矛盾が生じたりします。Knowledge Catalog(以前の Dataplex Universal Catalog)では、構造化メタデータと明確なビジネス定義をデータアセットに直接アタッチすることで、この問題を解決します。Knowledge Catalog(以前の Dataplex Universal Catalog)では、構造化されたメタデータと明確なビジネス定義をデータアセットに直接関連付けることで、この問題を解決します。明確なデータ コンテキストを提供することで、AI エージェントをグラウンディングし、データとやり取りするすべてのユーザーの信頼の基盤を構築できます。

このチュートリアルでは、Knowledge Catalog でデータ コンテキストを確立する方法について説明します。 データ スチュワードやビジネス アナリストなどのユーザー向けに設計されたこのチュートリアルでは、UI ベースの手順に沿って、ワークフローを自動化する前に標準のビジネス用語とコンテキストを構築します。このチュートリアルでは、主要な Knowledge Catalog のコンセプト間の関係を明確にします。このチュートリアルを終えると、データを検出可能で信頼できるものにする方法を理解できます。

目標

このチュートリアルでは、以下の方法について学習します。

  • ビジネス用語集 を使用して、ビジネス用語の信頼できる唯一の情報源を作成する。
  • アスペクト タイプ を使用してメタデータを構造化し、整理する。
  • アスペクト を使用してメタデータをデータアセットにアタッチする。
  • Knowledge Catalog Search を使用して、この新しい構造化メタデータを使用して必要なものを正確に見つける。

始める前に

始める前に、次のことを行います。

環境の設定

このチュートリアルでは、Cloud Shell(クラウドで実行されるコマンドライン環境)を使用します。

  1. コンソールで、右上のツールバーにある [Cloud Shell をアクティブにする] をクリックします。 Google Cloud 環境がプロビジョニングされ、接続されるまでしばらく待ちます。

  2. Cloud Shell で、今後のすべてのコマンドが特定の Google Cloud プロジェクトをターゲットとするように、PROJECT_ID 変数と LOCATION 変数を設定します。

    export PROJECT_ID=$(gcloud config get-value project)
    gcloud config set project $PROJECT_ID
    export LOCATION="us-central1"
    
  3. 必要な Google Cloud サービスを有効にします。

    gcloud services enable \
      dataplex.googleapis.com \
      bigquery.googleapis.com \
      datacatalog.googleapis.com
    

BigQuery データセットを作成してサンプルデータを準備する

次のコードを使用して BigQuery データセットを作成し、いくつかのサンプル CSV トランザクションをテーブルに読み込みます。テーブルを作成すると、Knowledge Catalog がテーブルを検出し、カタログにテーブルの エントリを作成します。

エントリは、データアセットの Knowledge Catalog 表現と考えることができます。メタデータをアタッチできるカタログ内のレコードのようなものです。BigQuery テーブルに直接コンテキストを追加する(または拡充する)のではなく、Knowledge Catalog のエントリに追加します。

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Sample retail data for foundational data context tutorial" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into a BigQuery table
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

SELECT クエリを実行して、設定を確認します。

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

出力例:

+----------------+------------------+-------+------------------+
| transaction_id |    user_email    |  gmv  | transaction_date |
+----------------+------------------+-------+------------------+
|           1001 | test@example.com | 150.5 |       2025-08-28 |
|           1002 | user@example.com |  75.0 |       2025-08-28 |
+----------------+------------------+-------+------------------+

ビジネス用語集で共通の用語を確立する

適切なデータ コンテキストは、明確な定義に依存します。たとえば、デベロッパーは、gmv という名前の列が総商品価値を意味するのか、税金と返品が含まれているのかを推測する必要はありません。ビジネス用語集は、組織全体でこれらの定義の信頼できる唯一の情報源を作成します。チームメンバーや AI エージェントがデータを分析する際に、この正確なビジネス コンテキストが継承されます。定義を共有することで、財務、営業、オペレーションなどのチーム間で指標を調整し、AI エージェントがハルシネーションを回避するのに役立ちます。

用語集を作成して最初の用語を定義する手順は次のとおりです。

  1. コンソールで、Knowledge Catalog の [用語集] ページに移動します。 Google Cloud

    [用語集] に移動

  2. [ビジネス用語集を作成] をクリックします。

  3. 次の詳細情報を入力します。

    • 表示名: Retail Business Glossary
    • ロケーション: us-central1 (Iowa)
  4. [作成] をクリックします。

  5. [カテゴリを作成] をクリックします。

  6. カテゴリに Sales Metrics という名前を付け、[作成] をクリックします。

  7. [Sales Metrics] カテゴリを選択し、[用語を追加] をクリックします。

  8. 用語に Gross Merchandise Value という名前を付け、[作成] をクリックします。

  9. [Gross Merchandise Value] 用語をクリックして、詳細ページを開きます。

  10. [概要] の横にある [追加] をクリックします。次の詳細情報を入力します。The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.

  11. [保存] をクリックします。

これで、組織全体のデータエントリにリンクできる用語集用語が作成されました。

アスペクト タイプでテクニカル メタデータを定義する

構造化されていないメタデータタグを使用すると、カタログ エントリに矛盾が生じることがよくあります。たとえば、あるテーブルに owner:bob というタグが付けられ、別のテーブルに steward:alice@example.com というタグが付けられることがあります。メタデータを大規模に整理するには、一貫したスキーマが必要です。

そこで役立つのがアスペクト タイプです。アスペクト タイプは、明確なルールと必須フィールドを設定できるメタデータのブループリントです。データ スチュワードの有効なメールアドレスなどの標準フィールドを必須にすることで、ダウンストリーム スクリプトでメタデータを自動的に検証して保護できます。

アスペクト タイプを作成する手順は次のとおりです。

  1. コンソールで、Knowledge Catalog の [**アスペクト タイプ**] タブを [**メタデータのタイプ**] ページで開きます。 Google Cloud

    [アスペクト タイプ] に移動

  2. [カスタム] タブで、[作成] をクリックします。

  3. 次の詳細情報を入力します。

    • 表示名: Data Asset Context
    • ロケーション: us-central1 (Iowa)
  4. [テンプレート] セクションで、[フィールドを追加] をクリックして、次の 3 つのフィールドを作成します。

    • フィールド 1:

      • 表示名: Data Steward
      • タイプ: Text
      • 必須: チェックボックスをオンにします。
      • テキスト タイプ: Plain text
    • フィールド 2 ([フィールドを追加] をクリック):

      • 表示名: Data Sensitivity
      • タイプ: Enum
      • 必須: 省略可のままにします。
      • : PublicInternalConfidential を追加します。
    • フィールド 3 ([フィールドを追加] をクリック):

      • 表示名: Last Review Date
      • 必須: 省略可のままにします。
      • タイプ: Date and time
  5. [保存] をクリックします。

これで、データ スチュワード、機密レベル、レビュー日などのデータ ガバナンス関連のメタデータ フィールドのアスペクト タイプが作成されました。次のセクションでは、これらのフィールドに特定の値を持つアスペクトをアタッチして、このスキーマをテーブル エントリに適用します。

ビジネス コンテキストとテクニカル コンテキストでエントリを拡充する

列名は省略されたり、曖昧になったりすることがよくあります。列をビジネス用語集の用語にリンクすると、明確で一貫した定義が提供されます。このステップでは、Gross Merchandise Value 用語を gmv という名前の列にリンクし、アスペクト タイプを使用してテーブル エントリにアスペクトをアタッチすることで、retail_data.transactions テーブルのエントリを拡充します。

retail_data.transactionsgmv 列の内容を明確にするには、Gross Merchandise Value 用語にリンクします。

  1. コンソールで、Knowledge Catalog の [検索] ページに移動します。 Google Cloud

    [検索] に移動

  2. [フィルタ] をクリックして [フィルタ] パネルを開きます。

  3. [**スコープ**] で [**現在のプロジェクト**] を選択します。

  4. retail_data.transactions を検索し、返されたトランザクション テーブルをクリックします。

  5. [スキーマ] タブをクリックします。

  6. gmv 列の横にあるチェックボックスをオンにして、[ビジネス用語を追加] をクリックします。

  7. Gross Merchandise Value を選択します。

テーブル エントリにアスペクトをアタッチする

ビジネス用語を列にリンクするだけでなく、テーブル エントリにアスペクトをアタッチして、データの所有権や機密性などのテーブルレベルのメタデータをキャプチャすることもできます。

アスペクトは、メタデータ フィールドに特定の値を持つアスペクト タイプのインスタンスです。エントリにアスペクトをアタッチすると、Knowledge Catalog は、アスペクト タイプで定義されたスキーマと照らし合わせて、指定した情報をチェックし、整合性を確保します。

retail_data.transactions テーブルの所有権と機密性を定義するには、Data Asset Context アスペクトをアタッチします。

  1. retail_data.transactions エントリページの [詳細] タブで、[オプションのアスペクト] の横にある [追加] をクリックします。
  2. リストから Data Asset Context を選択します。
  3. フィールドに値を入力します。

    • データ スチュワード: finance-team@example.com
    • データの機密性: [内部] を選択します。
    • 最終レビュー日: 今日の日付を選択します。
  4. [保存] をクリックします。

サンプル小売トランザクション データを拡充することで、Knowledge Catalog にデータ コンテキストの強固な基盤を構築しました。

拡充されたメタデータを使用してエントリを検索する

Knowledge Catalog Search を使用して、設定したビジネス コンテキストに基づいてエントリを検索できるようになりました。たとえば、特定の機密レベルのすべてのアセットを検索したり、用語集用語を検索して基盤となるテーブルを見つけたりできます。

  1. コンソールで、Knowledge Catalog の [検索] ページに移動します。 Google Cloud

    [検索] に移動

  2. [フィルタ] をクリックして [フィルタ] パネルを開きます。

  3. [**スコープ**] で [**現在のプロジェクト**] を選択します。

  4. 検索バーに「Find tables where the Data Asset Context aspect has Internal sensitivity.」と入力します。

  5. 結果のリストに retail_data.transactions テーブルが表示されます。

  6. 検索バーの入力を消去し、「Find tables with the Gross Merchandise Value term attached.」と入力します。

  7. 結果に retail_data.transactions テーブルが再び表示されます。これは、gmv 列がこのビジネス用語に直接リンクされているためです。

AI エージェントを Knowledge Catalog に接続すると、この拡充されたメタデータが自動的に継承されます。たとえば、エージェントに内部の販売指標を取得するように依頼すると、エージェントは [Data Sensitivity] アスペクト([Internal] に設定)と、リンクされた [Gross Merchandise Value] 用語集用語を読み取ります。この共有コンテキストにより、エージェントはデータソースを確認し、アクセス ポリシーを尊重し、ハルシネーションを回避できます。

クリーンアップ

課金されないようにするには、このチュートリアルで作成したリソースを削除します。

サンプル データセットを削除する

サンプル BigQuery データセットとそのすべてのテーブルを削除するには、次のコマンドを使用します。この操作は取り消せません。

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Knowledge Catalog アーティファクトを削除する

  1. コンソールで、Knowledge Catalog の [**アスペクト タイプ**] タブを [**メタデータのタイプ**] ページで開きます。 Google Cloud

    [アスペクト タイプ] に移動

  2. Data Asset Context アスペクト タイプを選択し、[削除] をクリックします。

  3. コンソールで、Knowledge Catalog の [用語集] ページに移動します。 Google Cloud

    [用語集] に移動

  4. Gross Merchandise Value 用語を選択し、[削除] をクリックします。

  5. Sales Metrics カテゴリを選択し、[削除] をクリックします。

  6. Retail Business Glossary を選択し、[削除] をクリックします。

次のステップ

Knowledge Catalog を使用したカタログのキュレーションとエージェントの構築の詳細については、次のリソースをご覧ください。

  • アスペクトを管理してメタデータを拡充する: カスタム スキーマを定義して構造化メタデータをアタッチする方法については、アスペクトを管理してメタデータを拡充するをご覧ください。
  • ビジネス用語集を管理する: 組織の標準化された語彙を確立する方法については、ビジネス用語集を管理するをご覧ください。
  • Terraform でガバナンスを行う: Terraform を使用してカスタム アスペクト タイプと用語集をプロビジョニングする方法を学習します。
  • 用語集用語を大規模に操作する: 用語集とエントリリンクのインポートとエクスポートについてで、JSON ファイルを使用してメタデータを一括で拡充します。
  • エージェントでメタデータを拡充する: メタデータを拡充するエージェントを構築するで、コンテキストを抽出してデータアセットを拡充する AI エージェントを構築します。
  • その他のユースケースを確認する: ユースケースで、その他のハンズオン ワークフローとシナリオを確認します。