AI エージェントの Knowledge Catalog

データ エコシステムがますます複雑になるにつれて、AI アプリケーションには単なる生データへのアクセス以上のものが必要になります。ビジネス コンテキストが必要です。 Knowledge Catalog は Dataplex から進化し、AI とエージェント型システムの強化に重点を置いています。

このプラットフォームの中核となる統合マップは、物理データアセットをビジネス セマンティクス、ガバナンス ルール、使用状況の関係にリンクします。Knowledge Catalog を AI ワークフローに統合することで、次のことが可能になります。

  • AI エージェントをグラウンディングして、エージェントの推論をガイドする信頼性の高い最新のコンテキスト メタデータを提供します。

  • ハルシネーションを減らし、生成モデルが確立された企業の真実に基づいて回答できるようにします。

  • AI エージェントに統合されたコンテキスト(データランドスケープの単一の管理されたビュー)を提供します。

ユースケース

Knowledge Catalog は、データと AI のライフサイクル全体で異なる役割を果たします。

  • AI デベロッパーとエージェント ビルダー。LangChain や Agent Development Kit(ADK)を使用して、企業データに対してクエリを実行して理解する必要があるカスタムボットまたはエージェントを構築するデベロッパー。

    • ユースケース:エージェントが企業データを操作できるようにするためのコンテキストの自然言語検索と取得、エージェント型データ検出。
  • データ アナリスト。Gemini in BigQuery や Looker などの AI アシスト ツールを使用してデータを見つけ、そのビジネス上の意味を理解するユーザー。

    • ユースケース:自然言語クエリと会話型データ探索。
  • データ スチュワード。AI によるメタデータの拡充を監督し、カタログのコンテキストの品質を確保するドメイン エキスパート。

    • ユースケース:AI によって生成されたメタデータと説明の確認、キュレーション、プロモーション。

MCP で Knowledge Catalog コンテキストにアクセスする

Model Context Protocol(MCP)は、AI エージェントとツールを Knowledge Catalog などのデータソースにシームレスに接続できる標準化されたブリッジです。

さまざまなデプロイ ワークフローに対応するため、Knowledge Catalog には 2 種類の MCP 実装が用意されています。環境を設定するうえで、それぞれをいつ使用するかを理解することが重要です。

  • リモート MCP サーバー: クラウドネイティブ アプリケーションを構築する場合、エージェントをサーバーレス環境(Cloud Run など)にデプロイする場合、またはローカル インフラストラクチャの管理を回避したい外部マネージド サービスと統合する場合。

  • ローカル MCP ツールボックス: ローカル エージェントの開発、迅速なプロトタイピング、または VS Code や Cursor などのローカル デスクトップ IDE との直接統合が必要な場合。

リモート MCP サーバー

Google がホストするエンドポイント。AI アプリケーションやサービス(Cloud Run で実行されているエージェントや Claude などの外部サービスなど)の Knowledge Catalog ツールに直接アクセスできます。

  • エンドポイント: https://dataplex.googleapis.com/mcp
  • メリット: ローカル MCP サーバーを実行する必要がないため、サーバーレス環境に適しています。
  • リファレンス: リモート MCP サーバーを使用する

ローカル MCP ツールボックス

IDE(VS Code、Cursor など)またはローカル ツールと Knowledge Catalog の間のローカル プロキシとして機能するコマンドライン ツール。

  • インストール: ダウンロード可能なバイナリ。
  • 構成: 通常、プロジェクトまたは IDE 構成に .mcp.json ファイルまたは設定ファイルが含まれます。
  • メリット: ローカルで安全な開発環境や、さまざまな IDE との統合に最適です。
  • リファレンス: ローカル MCP サーバーを使用する

Knowledge Catalog のコンテキストを拡充する

AI で Knowledge Catalog の価値を最大限に高めるには、基盤となるグラフに豊富なビジネス コンテキストが必要です。これは、すぐに使える機能またはカスタム エージェントによる拡充によって実現できます。

データ分析情報によるすぐに使える拡充

データ分析情報(Gemini in BigQuery を搭載)は、カタログを自動的に拡充し、新しいデータ プラットフォームの「コールド スタート」の問題を軽減します。有効にすると、次のものが自動的に生成されます。

  • データセットと列レベルの説明。
  • テーブル間の関係グラフ。
  • 過去の使用パターンに基づくクエリの例。

これにより、手動でデータ スチュワードシップを行わなくても、ダウンストリーム エージェントに即座にセマンティックな理解を提供できます。

たとえば、telco_churn という名前のテーブルの場合、データ分析情報では TenureMonthlyCharges などのフィールドの説明を自動的に生成し、顧客テーブルとの関係を推測して、セグメント別の離反率を調べるなどのクエリ例をカタログに公開できます。

エージェントによるカスタム コンテキストの拡充

専門的なナレッジベースを持つ組織の場合は、カスタムの拡充エージェントを構築して、内部 Wiki、コード リポジトリ、独自のシステムなどのカスタムソースからメタデータを取り込むことができます。

  • Knowledge Catalog API(CRUD オペレーション): カタログにメタデータを追加または更新するために使用します。

    • たとえば、UpdateEntry API メソッドを呼び出して、内部システムから抽出したドキュメントを使用して、テーブルに概要アスペクトをプログラムで添付します。
  • ADK などのツール: 拡充エージェントの構築に使用します。

    • たとえば、内部ツールを使用して技術 Wiki ページを抽出する Java ベースの ADK エージェントを構築し、LLM を使用して用語集の用語に解析して、用語を Knowledge Catalog に同期します。
  • エクスポート オペレーションとインポート オペレーション: レビューによるメタデータの一括更新に使用します。

    • たとえば、AI によって生成されたビジネス用語集をファイルにエクスポートし、データ スチュワードが定義を共同で確認して改善し、最終版のファイルをカタログにインポートします。

次のステップ