Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

AI エージェントの Knowledge Catalog

データエコシステムがますます複雑になるにつれて、AI アプリケーションには生データへのアクセス以上のものが必要になります。ビジネスコンテキストが必要です。Knowledge Catalog は Dataplex からの進化であり、AI とエージェントシステムの強化に重点を置いています。

このプラットフォームの中核となるのは、物理データアセットをビジネスセマンティクス、ガバナンスルール、使用関係にリンクする統合マップです。Knowledge Catalog を AI ワークフローに統合すると、次のことが可能になります。

AI エージェントをグラウンディングして、信頼性が高く、最新のコンテキストメタデータを提供し、エージェントの推論をガイドします。
ハルシネーションを減らし、生成モデルが確立された企業の真実に基づいて回答できるようにします。
AI エージェントに統合コンテキスト（データランドスケープの単一の管理ビュー）を提供します。

ユースケース

Knowledge Catalog は、データと AI のライフサイクル全体で異なる役割を果たします。

AI デベロッパーとエージェントビルダー。エンタープライズデータのクエリと理解が必要なカスタムボットまたはエージェント（LangChain や Agent Development Kit（ADK）などを使用）を構築するデベロッパー。
- ユースケース: エージェントが企業データを使用できるようにするコンテキストの自然言語検索と取得、エージェントによるデータ検出。
データアナリスト。Gemini in BigQuery や Looker などの AI アシスタントツールを使用してデータを見つけ、そのビジネス上の意味を理解するユーザー。
- ユースケース: 自然言語クエリと会話型データ探索。
データスチュワード。AI 駆動型のメタデータ拡充を監督し、カタログのコンテキストの品質を確保するドメインエキスパート。
- ユースケース: AI 生成のメタデータと説明の確認、キュレーション、プロモーション。

MCP を使用して Knowledge Catalog のコンテキストにアクセスする

Model Context Protocol（MCP）は、AI エージェントとツールを Knowledge Catalog などのデータソースにシームレスに接続できる標準化されたブリッジです。

さまざまなデプロイワークフローに対応するために、Knowledge Catalog には 2 種類の MCP 実装が用意されています。環境を設定するうえで、それぞれをいつ使用するかを理解することが重要です。

リモート MCP サーバー: クラウドネイティブアプリケーションの構築、サーバーレス環境（Cloud Run など）へのエージェントのデプロイ、ローカルインフラストラクチャの管理を回避したい外部マネージドサービスとの統合を行う場合。
ローカル MCP ツールボックス: ローカルエージェントの開発、迅速なプロトタイピング、または VS Code や Cursor などのローカルデスクトップ IDE との直接統合が必要な場合。

リモート MCP サーバー

AI アプリケーションとサービス（Cloud Run で実行されているエージェントや Claude などの外部サービスなど）の Knowledge Catalog ツールに直接アクセスできる Google ホストのエンドポイント。

エンドポイント: https://dataplex.googleapis.com/mcp
メリット: ローカル MCP サーバーを実行する必要がないため、サーバーレス環境に適しています。
リファレンス: リモート MCP サーバーを使用する

ローカル MCP ツールボックス

IDE（VS Code、Cursor など）またはローカルツールと Knowledge Catalog の間のローカルプロキシとして機能するコマンドラインツール。

インストール: ダウンロード可能なバイナリ。
構成: 通常、プロジェクトまたは IDE 構成の .mcp.json ファイルまたは設定ファイルが関係します。
メリット: ローカルで安全な開発環境や、さまざまな IDE との統合に最適です。
リファレンス: ローカル MCP サーバーを使用する

Knowledge Catalog のコンテキストを拡充する

AI 向けのナレッジカタログの価値を最大限に高めるには、基盤となるグラフにビジネスコンテキストが豊富に含まれている必要があります。これは、すぐに使用できる機能またはカスタムエージェントエンリッチメントを使用して実現できます。

データ分析情報によるすぐに使える拡充

データ分析情報（Gemini in BigQuery を搭載）により、カタログが自動的に拡充されるため、新しいデータプラットフォームの「コールドスタート」の問題が軽減されます。有効にすると、次のものが自動的に生成されます。

データセットと列レベルの説明。
テーブル間の関係グラフ。
過去の使用パターンに基づくクエリの例。

これにより、手動でデータ管理を行うことなく、ダウンストリームエージェントに即座にセマンティックな理解を提供できます。

たとえば、telco_churn という名前のテーブルの場合、データ分析情報では、Tenure や MonthlyCharges などのフィールドの説明を自動的に生成し、顧客テーブルとの関係を推測して、セグメント別の離脱率を求めるなどのクエリ例をカタログに公開できます。

エージェントによるカスタムコンテキストの拡充

専門的なナレッジベースを持つ組織では、カスタムエンリッチメントエージェントを構築して、内部 Wiki、コードリポジトリ、独自のシステムなどのカスタムソースからメタデータを取り込むことができます。

Knowledge Catalog API（CRUD オペレーション）: カタログ内のメタデータの追加または更新に使用します。
- たとえば、UpdateEntry API メソッドを呼び出して、内部システムから抽出されたドキュメントを使用して、概要アスペクトをテーブルにプログラムで関連付けます。
ADK などのツール: エンリッチメントエージェントの構築に使用します。
- たとえば、内部ツールを使用して技術的な Wiki ページを抽出し、LLM を使用して用語集の用語に解析し、用語を Knowledge Catalog に同期する Java ベースの ADK エージェントを構築します。
エクスポートオペレーションとインポートオペレーション: レビューを伴うメタデータの一括更新に使用します。
- たとえば、AI によって生成されたビジネス用語集をファイルにエクスポートし、データスチュワードが定義を共同で確認して調整し、最終的なファイルをカタログにインポートします。

AI エージェントの Knowledge Catalog コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。