データ エコシステムがますます複雑になるにつれて、AI アプリケーションには生データへのアクセス以上のものが必要になります。ビジネス コンテキストが必要です。Knowledge Catalog は Dataplex から進化し、AI とエージェント システムの強化に重点を置いています。
このプラットフォームの中核となるのは、物理データアセットをビジネス セマンティクス、ガバナンス ルール、使用関係にリンクする統合マップです。Knowledge Catalog を AI ワークフローに統合すると、次のことが可能になります。
AI エージェントをグラウンディングして、信頼性が高く最新のコンテキスト メタデータを提供し、エージェントの推論をガイドします。
ハルシネーションを減らし、生成モデルが確立された企業の真実に基づいて回答するようにします。
AI エージェントに統合コンテキスト(データランドスケープの単一の管理ビュー)を提供します。
ユースケース
Knowledge Catalog は、データと AI のライフサイクル全体で異なる役割を果たします。
AI デベロッパーとエージェント ビルダー。エンタープライズ データのクエリと理解が必要なカスタムボットまたはエージェント(LangChain や Agent Development Kit(ADK)などを使用)を構築するデベロッパー。
- ユースケース: エージェントが企業データを使用できるようにする自然言語検索とコンテキストの取得、エージェントによるデータ検出。
データ アナリスト。Gemini in BigQuery や Looker などの AI アシスタント ツールを使用してデータを見つけ、そのビジネス上の意味を理解するユーザー。
- ユースケース: 自然言語クエリと会話型データ探索。
データ スチュワード。AI 駆動型のメタデータ拡充を監督し、カタログのコンテキストの品質を確保するドメイン エキスパート。
- ユースケース: AI 生成のメタデータと説明の確認、キュレーション、プロモーション。
MCP を使用して Knowledge Catalog のコンテキストにアクセスする
Model Context Protocol(MCP)は、AI エージェントとツールを Knowledge Catalog などのデータソースにシームレスに接続できる標準化されたブリッジです。
さまざまなデプロイ ワークフローに対応するために、Knowledge Catalog には 2 種類の MCP 実装が用意されています。環境を設定するうえで、それぞれをいつ使用するかを理解することが重要です。
リモート MCP サーバー: クラウドネイティブ アプリケーションの構築、サーバーレス環境(Cloud Run など)へのエージェントのデプロイ、ローカル インフラストラクチャの管理を回避したい外部マネージド サービスとの統合を行う場合。
ローカル MCP ツールボックス: ローカル エージェントの開発、迅速なプロトタイピング、または VS Code や Cursor などのローカル デスクトップ IDE との直接統合が必要な場合。
リモート MCP サーバー
AI アプリケーションとサービス(Cloud Run で実行されているエージェントや Claude などの外部サービスなど)の Knowledge Catalog ツールに直接アクセスできる Google ホストのエンドポイント。
- エンドポイント:
https://dataplex.googleapis.com/mcp - メリット: ローカル MCP サーバーを実行する必要がないため、サーバーレス環境に適しています。
- リファレンス: リモート MCP サーバーを使用する
ローカル MCP ツールボックス
IDE(VS Code、Cursor など)またはローカルツールと Knowledge Catalog の間のローカル プロキシとして機能するコマンドライン ツール。
- インストール: ダウンロード可能なバイナリ。
- 構成: 通常、プロジェクトまたは IDE 構成の
.mcp.jsonファイルまたは設定ファイルが関係します。 - メリット: ローカルで安全な開発環境や、さまざまな IDE との統合に最適です。
- リファレンス: ローカル MCP サーバーを使用する
Knowledge Catalog のコンテキストを拡充する
AI 向けの Knowledge Catalog の価値を最大限に高めるには、基盤となるグラフにビジネス コンテキストが豊富に含まれている必要があります。これは、すぐに使用できる機能またはカスタム エージェント エンリッチメントを使用して実現できます。
データ分析情報によるすぐに使える拡充
データ分析情報(Gemini in BigQuery を搭載)は、カタログを自動的に拡充し、新しいデータ プラットフォームの「コールド スタート」の問題を軽減します。有効にすると、次のものが自動的に生成されます。
- データセットと列レベルの説明。
- テーブル間の関係グラフ。
- 過去の使用パターンに基づくクエリの例。
これにより、手動のデータ スチュワードシップを必要とせずに、ダウンストリーム エージェントに即座にセマンティックな理解を提供できます。
たとえば、telco_churn という名前のテーブルの場合、データ分析情報では、Tenure や MonthlyCharges などのフィールドの説明を自動的に生成し、顧客テーブルとの関係を推論して、セグメント別に離脱率を求めるなどのクエリ例をカタログに公開できます。
エージェントによるカスタム コンテキストの拡充
専門的なナレッジベースを持つ組織では、カスタムのエンリッチメント エージェントを構築して、内部 Wiki、コード リポジトリ、独自のシステムなどのカスタムソースからメタデータを取り込むことができます。
Knowledge Catalog API(CRUD オペレーション): カタログ内のメタデータの追加または更新に使用します。
- たとえば、
UpdateEntryAPI メソッドを呼び出して、内部システムから抽出されたドキュメントを使用して、概要アスペクトをテーブルにプログラムで関連付けます。
- たとえば、
ADK などのツール: エンリッチメント エージェントの構築に使用します。
- たとえば、内部ツールを使用して技術的な Wiki ページを抽出し、LLM を使用して用語集の用語に解析し、用語を Knowledge Catalog に同期する Java ベースの ADK エージェントを構築します。
エクスポート オペレーションとインポート オペレーション: レビューを伴うメタデータの一括更新に使用します。
- たとえば、AI によって生成されたビジネス用語集をファイルにエクスポートし、データ スチュワードが定義を共同で確認して調整し、最終的なファイルをカタログにインポートします。