AI エージェントは推論できますが、特定の企業に関する知識はゼロから始まります。エージェントに「第 1 四半期の収益は?」と質問したとします。ガイダンスがないと、エージェントはデータベース内の「収益」という名前の数十のテーブルから選択する可能性があります。これには、公式レポートから雑然としたテストデータまでが含まれます。エージェントが最も近い名前のテーブルを選択した場合、未検証のソースに基づいて、説得力のある誤った回答を返す可能性があります。
このコンテキストの問題を解決するのがメタデータのエンリッチメントです。このチュートリアルでは、このコンテキストを提供するアスペクトを設定し、Gemini CLI を使用してデータ コンテキストをテストし、エージェントが信頼できる認定データに基づいて正確に回答できることを確認します。
目標
- テスト用の現実的なデータレイクを作成する。
- Knowledge Catalog アスペクトを使用して「ゴールド」データにラベルを付け、テストデータと区別する。
- Gemini CLI を使用してデータ コンテキストをローカルでテストする。
始める前に
始める前に、次のことを確認してください。
- このチュートリアルで使用するGoogle Cloud プロジェクトを選択します。
- プロジェクトで課金が有効になっていることを確認します。
このチュートリアルを完了するには、BigQuery、Knowledge Catalog、Terraform の基本的な知識も必要です。
環境を準備する
このチュートリアルでは、Google Cloud Shell(クラウドで実行されるコマンドライン環境)を使用します。
コンソールで、右上のツールバーにある [Cloud Shell をアクティブにする] をクリックします。 Google Cloud 環境がプロビジョニングされ、接続されるまでしばらく待ちます。
Cloud Shell で、
PROJECT_ID変数とREGION変数を設定して、以降のすべてのコマンドが特定の Google Cloud プロジェクトをターゲットとするようにします。export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export REGION="us-central1"必要な Google Cloud サービスを有効にします。
gcloud services enable \ artifactregistry.googleapis.com \ bigqueryunified.googleapis.com \ cloudaicompanion.googleapis.com \ cloudbuild.googleapis.com \ cloudresourcemanager.googleapis.com \ datacatalog.googleapis.com \ run.googleapis.comGoogle Cloud DevRel Demos リポジトリをクローンします。
GitHub からインフラストラクチャ コードとスクリプトをダウンロードします。スパース チェックアウトを使用して、このチュートリアルに必要な特定のフォルダのみをプルします。
# Perform a shallow clone to get only the latest repository structure without the full history git clone --depth 1 --filter=blob:none --sparse https://github.com/GoogleCloudPlatform/devrel-demos.git cd devrel-demos # Specify and download only the folder you need for this tutorial git sparse-checkout set data-analytics/governance-context cd data-analytics/governance-context
データレイクを構築する
現実的な状況にするには、公式データと信頼できない雑然としたデータを混在させる必要があります。Terraform と、チュートリアル リポジトリの事前構成済み Terraform 構成ファイルを使用して、これをすばやく設定します。
Terraform 構成は、次の 2 つのタスクを処理します。
- Knowledge Catalog のアスペクト タイプ(メタデータ テンプレート)、BigQuery データセット、テーブル(
finance_mart.fin_monthly_closing_internal、analyst_sandbox.tmp_data_dump_v2_final_realなど)を設定します。 - テーブルにサンプルデータを読み込みます。
terraformディレクトリを開いて初期化します。cd terraform terraform init構成を適用します。これには 1 分ほどかかることがあります。
terraform apply -var="project_id=${PROJECT_ID}" -var="region=${REGION}" -auto-approve
これで、管理されていないデータレイクが作成されました。AI エージェントにとって、データレイク内のテーブルは、列を持つオブジェクトにすぎないため、まったく同じように見えます。これを修正するには、次のステップでガバナンスを適用する必要があります。
ガバナンスを適用する
これは設定の最も重要な部分です。現時点では、2 つのテーブルは AI エージェントにとって同じように見えます。これらを区別するには、エージェントに必要なコンテキストを提供する認定メタデータ ラベルのようなアスペクトを適用します。このセクションでは、メタデータを生成するスクリプトと、テーブルに適用するスクリプトの 2 つを使用します。
ガバナンス ペイロードを生成する
Terraform でアスペクト タイプがすでに設定されているため、データを生成して入力する必要があります。
./generate_payloads.sh スクリプトを実行して、aspect_payloads/ ディレクトリを作成します。このディレクトリには、さまざまなガバナンス シナリオを定義する 4 つの YAML ファイルが含まれています。これらは次のステップで適用します。
チュートリアル ディレクトリのルートに戻り、./generate_payloads.sh スクリプトを実行します。
cd ..
chmod +x ./generate_payloads.sh
./generate_payloads.sh
アスペクトを適用する
apply_governance.shスクリプトを実行する前に、テーブルに添付されるデータを確認します。次のコマンドを実行して、内部財務データ用に定義されたメタデータを表示します。cat aspect_payloads/fin_internal.yamlYAML ファイルは、テーブルのビジネス コンテキストを定義します。
your-project-id.us-central1.official-data-product-spec: data: product_tier: GOLD_CRITICAL data_domain: FINANCE usage_scope: INTERNAL_ONLY update_frequency: DAILY_BATCH is_certified: trueこれにより、データが
is_certified: trueとして明示的にマークされ、GOLD_CRITICAL階層が割り当てられます。これにより、AI エージェントに明確で構造化されたルールが提供されます。apply_governance.shスクリプトを実行します。このスクリプトは BigQuery テーブルを反復処理し、gcloudCLI を使用して、YAML ペイロードのメタデータを各テーブルに「スタンプ」します。chmod +x ./apply_governance.sh ./apply_governance.sh
メタデータを確認する
次に進む前に、スクリプトがアスペクトを正しく適用したことを確認します。
- コンソールで [Knowledge Catalog] ページを開きます。 Google Cloud 上部にある検索バーを使って拡張機能を探すことができます。
fin_monthly_closing_internalを検索します。結果でテーブル名を選択して、詳細ページを開きます。- [オプションのタグとアスペクト] セクションで、
official-data-product-specアスペクトを見つけます。値が適用した「Gold Internal」シナリオと一致していることを確認します。
これで、メタデータを使用してこれらのテーブルを区別し、AI エージェントが同じことを行う方法を提供できました。
Gemini CLI でデータ コンテキストをテストする
完全なウェブ アプリケーションを構築する前に、Model Context Protocol(MCP)環境を使用して、ガバナンス ロジックをローカルでテストできます。この設定では、Gemini CLI がクライアント(対話するインターフェース)として機能し、Knowledge Catalog 拡張機能 がローカル サーバーとして機能します。
Knowledge Catalog 拡張機能をインストールする
Cloud Shell で、Knowledge Catalog 拡張機能をインストールします。
export DATAPLEX_PROJECT="${PROJECT_ID}"
gemini extensions install https://github.com/gemini-cli-extensions/dataplex
ルールを定義
GEMINI.md 構成ファイルには、「安全なデータが必要」などの宣言型ルールを、正しいガバナンス ラベルが付いたテーブルのみを返す正確な検索に変換するロジックが含まれています。
現時点では、構成ファイルはテンプレートにすぎません。CLI を実行したときに、管理対象データが正しくターゲットとなるように、特定の Google Cloud プロジェクト ID をルールに追加する必要があります。
構成ファイルに
PROJECT_IDを追加します。envsubst < GEMINI.md > GEMINI.md.tmp && mv GEMINI.md.tmp GEMINI.md変更を確認し、データ コンテキストの仕組みを理解するには、
GEMINI.mdファイルを簡単に確認します。cat GEMINI.mdファイルでは、ルールがフェーズ 1 とフェーズ 2 に分割されています。これにより、オペレーションの厳格な順序が適用されます。エージェントは、データ自体にアクセスする前に(フェーズ 2)、正しいガバナンス ラベル(フェーズ 1)を探す必要があります。この「検索優先」ロジックにより、エージェントがテーブル名を推測したり、未検証のソースから回答を生成したりすることを防ぎます。
フェーズ 2 に実際の Google Cloud プロジェクト ID が含まれていることを確認します。これが正しくないと、エージェントはデータの検索場所を認識できません。
Gemini CLI を起動してシナリオをテストする
新しい Gemini セッションを開始します。プロジェクト フォルダにいるため、CLI はローカルの GEMINI.md をシステム コンテキストとして自動的に検出して読み込みます。
gemini
インストールを確認する
Knowledge Catalog 拡張機能が有効になっていることを確認します。構成済みの MCP サーバーツールのリストに dataplex が表示されます。
/mcp desc
試してみる
次に、データ コンテキストの動作を確認します。これらのプロンプトを 1 つずつ CLI に貼り付けます。
シナリオ 1: 「ゴールド」標準データを見つける
Gemini CLI が、重要な取締役会で最も信頼できるデータを見つけられるかどうかを確認します。
We are preparing the deck for an internal Board of Directors meeting next week. I need the numbers to be absolutely finalized, trustworthy, and kept strictly confidential. Which table is safe to use?
CLI は生データをスキップして fin_monthly_closing_internal を見つけます。これは、リクエストした「最終」データと「機密」データを、以前に適用した GOLD_CRITICAL タグと INTERNAL_ONLY タグと照合することで行われます。
シナリオ 2: 公開
データを外部と共有するとします。CLI が内部の秘密を漏らさないようにする必要があります。
I need to share our quarterly financial summary with an external consulting firm. It is critical that we do not leak any raw or internal metrics. Which dataset is officially scrubbed and explicitly approved for external sharing?
内部テーブルには最も詳細な情報が含まれていますが、CLI はそれをバイパスする必要があります。EXTERNAL_READY としてタグ付けされているテーブルは fin_quarterly_public_report のみであるため、このテーブルを指す必要があります。
シナリオ 3: リアルタイムの運用ニーズ
データ サイエンティストは、最新の情報を必要とすることがよくあります。Gemini CLI が、日次バッチとライブストリームの違いを理解しているかどうかを確認します。
My dashboard needs to show what's happening right now with our ad spend. I can't wait for the overnight load. What do you recommend?
CLI は mkt_realtime_campaign_performance を見つけます。メタデータで REALTIME_STREAMING の更新の頻度を識別します。
シナリオ 4: サンドボックスの探索
「完璧」よりも「十分」な方が良い場合もあります。Gemini CLI が、実験的な ML 作業用の生サンドボックス データを見つけられるかどうかを確認します。
I'm just playing around with some new ML models and need a lot of raw data. It doesn't need to be perfect, just a sandbox environment.
CLI は tmp_data_dump_v2_final_real を見つけます。これは BRONZE_ADHOC 階層と一致し、is_certified: false で明示的にマークされているため、これが正しい選択であることがわかります。
テストが完了したら、CLI セッションを終了できます。
/quit
クリーンアップ
継続的な料金が発生しないようにするには、次の手順を行います。
Terraform リソースを破棄します。
cd ~/devrel-demos/data-analytics/governance-context/terraform terraform destroy -var="project_id=${PROJECT_ID}" -var="region=${REGION}" -auto-approveKnowledge Catalog 拡張機能をアンインストールし、ローカルのデモファイルを削除します。
gemini extensions uninstall dataplex cd ~ rm -rf ~/devrel-demos
まとめ
堅牢なデータ基盤を構築し、メタデータを使用して厳格なコンテキストを適用し、Gemini CLI を使用してすべてがローカルで動作することを確認しました。
次のステップ
- 他の Knowledge Catalog のユースケースを試す。