Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini CLI エージェントを使用してデータコンテキストをテストする

AI エージェントは推論できますが、特定の企業に関する知識はゼロから始まります。エージェントに「第 1 四半期の収益は？」と質問したとします。ガイダンスがないと、エージェントはデータベース内の「収益」という名前の数十のテーブルから選択する可能性があります。これには、公式レポートから雑然としたテストデータまでが含まれます。エージェントが最も近い名前のテーブルを選択した場合、未検証のソースに基づいて、説得力のある誤った回答を返す可能性があります。

このコンテキストの問題を解決するのがメタデータのエンリッチメントです。このチュートリアルでは、このコンテキストを提供するアスペクトを設定し、Gemini CLI を使用してデータコンテキストをテストし、エージェントが信頼できる認定データに基づいて正確に回答できることを確認します。

目標

テスト用の現実的なデータレイクを作成する。
Knowledge Catalog アスペクトを使用して「ゴールド」データにラベルを付け、テストデータと区別する。
Gemini CLI を使用してデータコンテキストをローカルでテストする。

始める前に

始める前に、次のことを確認してください。

このチュートリアルで使用するGoogle Cloud プロジェクトを選択します。
プロジェクトで課金が有効になっていることを確認します。

このチュートリアルを完了するには、BigQuery、Knowledge Catalog、Terraform の基本的な知識も必要です。

環境を準備する

このチュートリアルでは、Google Cloud Shell（クラウドで実行されるコマンドライン環境）を使用します。

コンソールで、右上のツールバーにある [Cloud Shell をアクティブにする] をクリックします。 Google Cloud 環境がプロビジョニングされ、接続されるまでしばらく待ちます。
Cloud Shell で、PROJECT_ID 変数と REGION 変数を設定して、以降のすべてのコマンドが特定の Google Cloud プロジェクトをターゲットとするようにします。
```
export PROJECT_ID=$(gcloud config get-value project)
gcloud config set project $PROJECT_ID
export REGION="us-central1"
```

必要な Google Cloud サービスを有効にします。

gcloud services enable \
  artifactregistry.googleapis.com \
  bigqueryunified.googleapis.com \
  cloudaicompanion.googleapis.com \
  cloudbuild.googleapis.com \
  cloudresourcemanager.googleapis.com \
  datacatalog.googleapis.com \
  run.googleapis.com

Google Cloud DevRel Demos リポジトリをクローンします。

GitHub からインフラストラクチャコードとスクリプトをダウンロードします。スパースチェックアウトを使用して、このチュートリアルに必要な特定のフォルダのみをプルします。

# Perform a shallow clone to get only the latest repository structure without the full history
git clone --depth 1 --filter=blob:none --sparse https://github.com/GoogleCloudPlatform/devrel-demos.git
cd devrel-demos

# Specify and download only the folder you need for this tutorial
git sparse-checkout set data-analytics/governance-context
cd data-analytics/governance-context

データレイクを構築する

現実的な状況にするには、公式データと信頼できない雑然としたデータを混在させる必要があります。Terraform と、チュートリアルリポジトリの事前構成済み Terraform 構成ファイルを使用して、これをすばやく設定します。

Terraform 構成は、次の 2 つのタスクを処理します。

Knowledge Catalog のアスペクトタイプ（メタデータテンプレート）、BigQuery データセット、テーブル（finance_mart.fin_monthly_closing_internal、analyst_sandbox.tmp_data_dump_v2_final_real など）を設定します。
テーブルにサンプルデータを読み込みます。

terraform ディレクトリを開いて初期化します。
```
cd terraform
terraform init
```

構成を適用します。これには 1 分ほどかかることがあります。

terraform apply -var="project_id=${PROJECT_ID}" -var="region=${REGION}" -auto-approve

これで、管理されていないデータレイクが作成されました。AI エージェントにとって、データレイク内のテーブルは、列を持つオブジェクトにすぎないため、まったく同じように見えます。これを修正するには、次のステップでガバナンスを適用する必要があります。

ガバナンスを適用する

これは設定の最も重要な部分です。現時点では、2 つのテーブルは AI エージェントにとって同じように見えます。これらを区別するには、エージェントに必要なコンテキストを提供する認定メタデータラベルのようなアスペクトを適用します。このセクションでは、メタデータを生成するスクリプトと、テーブルに適用するスクリプトの 2 つを使用します。

ガバナンスペイロードを生成する

Terraform でアスペクトタイプがすでに設定されているため、データを生成して入力する必要があります。

./generate_payloads.sh スクリプトを実行して、aspect_payloads/ ディレクトリを作成します。このディレクトリには、さまざまなガバナンスシナリオを定義する 4 つの YAML ファイルが含まれています。これらは次のステップで適用します。

チュートリアルディレクトリのルートに戻り、./generate_payloads.sh スクリプトを実行します。

cd ..
chmod +x ./generate_payloads.sh
./generate_payloads.sh

アスペクトを適用する

apply_governance.sh スクリプトを実行する前に、テーブルに添付されるデータを確認します。次のコマンドを実行して、内部財務データ用に定義されたメタデータを表示します。
```
cat aspect_payloads/fin_internal.yaml
```
YAML ファイルは、テーブルのビジネスコンテキストを定義します。
```
your-project-id.us-central1.official-data-product-spec:
  data:
    product_tier: GOLD_CRITICAL
    data_domain: FINANCE
    usage_scope: INTERNAL_ONLY
    update_frequency: DAILY_BATCH
    is_certified: true
```
これにより、データが is_certified: true として明示的にマークされ、GOLD_CRITICAL 階層が割り当てられます。これにより、AI エージェントに明確で構造化されたルールが提供されます。
apply_governance.sh スクリプトを実行します。このスクリプトは BigQuery テーブルを反復処理し、gcloud CLI を使用して、YAML ペイロードのメタデータを各テーブルに「スタンプ」します。
```
chmod +x ./apply_governance.sh
./apply_governance.sh
```

メタデータを確認する

次に進む前に、スクリプトがアスペクトを正しく適用したことを確認します。

コンソールで [Knowledge Catalog] ページを開きます。 Google Cloud 上部にある検索バーを使って拡張機能を探すことができます。
fin_monthly_closing_internal を検索します。結果でテーブル名を選択して、詳細ページを開きます。
[オプションのタグとアスペクト] セクションで、official-data-product-spec アスペクトを見つけます。値が適用した「Gold Internal」シナリオと一致していることを確認します。

これで、メタデータを使用してこれらのテーブルを区別し、AI エージェントが同じことを行う方法を提供できました。

Gemini CLI でデータコンテキストをテストする

完全なウェブアプリケーションを構築する前に、Model Context Protocol（MCP）環境を使用して、ガバナンスロジックをローカルでテストできます。この設定では、Gemini CLI がクライアント（対話するインターフェース）として機能し、Knowledge Catalog 拡張機能 がローカルサーバーとして機能します。

Knowledge Catalog 拡張機能をインストールする

Cloud Shell で、Knowledge Catalog 拡張機能をインストールします。

export DATAPLEX_PROJECT="${PROJECT_ID}"

gemini extensions install https://github.com/gemini-cli-extensions/dataplex

ルールを定義

GEMINI.md 構成ファイルには、「安全なデータが必要」などの宣言型ルールを、正しいガバナンスラベルが付いたテーブルのみを返す正確な検索に変換するロジックが含まれています。

現時点では、構成ファイルはテンプレートにすぎません。CLI を実行したときに、管理対象データが正しくターゲットとなるように、特定の Google Cloud プロジェクト ID をルールに追加する必要があります。

構成ファイルに PROJECT_ID を追加します。

envsubst < GEMINI.md > GEMINI.md.tmp && mv GEMINI.md.tmp GEMINI.md

変更を確認し、データコンテキストの仕組みを理解するには、GEMINI.md ファイルを簡単に確認します。
```
cat GEMINI.md
```
ファイルでは、ルールがフェーズ 1 とフェーズ 2 に分割されています。これにより、オペレーションの厳格な順序が適用されます。エージェントは、データ自体にアクセスする前に（フェーズ 2）、正しいガバナンスラベル（フェーズ 1）を探す必要があります。この「検索優先」ロジックにより、エージェントがテーブル名を推測したり、未検証のソースから回答を生成したりすることを防ぎます。

フェーズ 2 に実際の Google Cloud プロジェクト ID が含まれていることを確認します。これが正しくないと、エージェントはデータの検索場所を認識できません。

Gemini CLI を起動してシナリオをテストする

新しい Gemini セッションを開始します。プロジェクトフォルダにいるため、CLI はローカルの GEMINI.md をシステムコンテキストとして自動的に検出して読み込みます。

gemini

インストールを確認する

Knowledge Catalog 拡張機能が有効になっていることを確認します。構成済みの MCP サーバーツールのリストに dataplex が表示されます。

/mcp desc

試してみる

次に、データコンテキストの動作を確認します。これらのプロンプトを 1 つずつ CLI に貼り付けます。

シナリオ 1: 「ゴールド」標準データを見つける

Gemini CLI が、重要な取締役会で最も信頼できるデータを見つけられるかどうかを確認します。

We are preparing the deck for an internal Board of Directors meeting next week. I need the numbers to be absolutely finalized, trustworthy, and kept strictly confidential. Which table is safe to use?

CLI は生データをスキップして fin_monthly_closing_internal を見つけます。これは、リクエストした「最終」データと「機密」データを、以前に適用した GOLD_CRITICAL タグと INTERNAL_ONLY タグと照合することで行われます。

シナリオ 2: 公開

データを外部と共有するとします。CLI が内部の秘密を漏らさないようにする必要があります。

I need to share our quarterly financial summary with an external consulting firm. It is critical that we do not leak any raw or internal metrics. Which dataset is officially scrubbed and explicitly approved for external sharing?

内部テーブルには最も詳細な情報が含まれていますが、CLI はそれをバイパスする必要があります。EXTERNAL_READY としてタグ付けされているテーブルは fin_quarterly_public_report のみであるため、このテーブルを指す必要があります。

シナリオ 3: リアルタイムの運用ニーズ

データサイエンティストは、最新の情報を必要とすることがよくあります。Gemini CLI が、日次バッチとライブストリームの違いを理解しているかどうかを確認します。

My dashboard needs to show what's happening right now with our ad spend. I can't wait for the overnight load. What do you recommend?

CLI は mkt_realtime_campaign_performance を見つけます。メタデータで REALTIME_STREAMING の更新の頻度を識別します。

シナリオ 4: サンドボックスの探索

「完璧」よりも「十分」な方が良い場合もあります。Gemini CLI が、実験的な ML 作業用の生サンドボックスデータを見つけられるかどうかを確認します。

I'm just playing around with some new ML models and need a lot of raw data. It doesn't need to be perfect, just a sandbox environment.

CLI は tmp_data_dump_v2_final_real を見つけます。これは BRONZE_ADHOC 階層と一致し、is_certified: false で明示的にマークされているため、これが正しい選択であることがわかります。

テストが完了したら、CLI セッションを終了できます。

/quit

クリーンアップ

継続的な料金が発生しないようにするには、次の手順を行います。

Terraform リソースを破棄します。

cd ~/devrel-demos/data-analytics/governance-context/terraform
terraform destroy -var="project_id=${PROJECT_ID}" -var="region=${REGION}" -auto-approve

Knowledge Catalog 拡張機能をアンインストールし、ローカルのデモファイルを削除します。
```
gemini extensions uninstall dataplex
cd ~
rm -rf ~/devrel-demos
```

まとめ

堅牢なデータ基盤を構築し、メタデータを使用して厳格なコンテキストを適用し、Gemini CLI を使用してすべてがローカルで動作することを確認しました。

次のステップ

他の Knowledge Catalog のユースケースを試す。