Knowledge Catalog に関するよくある質問

このドキュメントでは、Knowledge Catalog(以前の Dataplex Universal Catalog)に関するよくある質問とその回答を紹介します。

Knowledge Catalog の詳細については、Knowledge Catalog の概要をご覧ください。

Knowledge Catalog とは

Google Knowledge Catalog は、 Google Cloudのデータと AI アセット向けのインテリジェントなガバナンス ソリューションです。BigQuery、Cloud Storage、Pub/Sub、Spanner などの Google Cloud データソース全体でデータを検出、管理、制御できる一元化されたインベントリが提供されます。AI を使用して、データ検出、メタデータ拡充、データ品質を自動化します。Knowledge Catalog は、管理されたデータカタログを通じて、AI エージェントが高品質のコンテンツを生成するために必要なグラウンディングを提供します。

Data Catalog とは

Data Catalog は、 Google Cloudのメタデータ サービスの元の名前です。その後、Dataplex Universal Catalog に進化し、現在は Knowledge Catalog に名前が変更され、進化しています。

このタイプのデータ インデックス作成を説明する際に「Data Catalog」という用語がまだ使用されていますが、 Google Cloudのコンテキストでは、これは以前のプロダクトを指します。すべての新しいプロジェクトで Knowledge Catalog を使用して、AI を活用した機能と強化されたガバナンスを活用することをおすすめします。

Knowledge Catalog は Data Catalog とは異なるのですか?

はい。Knowledge Catalog は、最終的に既存の Data Catalog に代わる AI を活用したデータ ガバナンス プラットフォームです。同様のコンセプトを共有していますが、Knowledge Catalog にはいくつかの機能強化が施されています。

  • AI によるコンテキスト: Knowledge Catalog は、Data Catalog とは異なり、Gemini を使用してビジネス コンテキストを自動的に抽出し、自然言語の説明を生成し、AI エージェントのグラウンディングに SQL の「ゴールデン クエリ」を提供します。

  • リッチ メタデータのサポート: Knowledge Catalog は、ネストされた配列、マップ、レコードなど、より複雑なメタデータ型をサポートします。

  • エージェント アクセス: AI エージェントは、ローカルまたはリモートの MCP サーバーを介して Knowledge Catalog ツールを検出して適応的に使用できます。

  • データ検出: Knowledge Catalog は、より多くの Google Cloud サービスと外部データソースからメタデータを自動的に取り込むことができます。

  • 大規模なガバナンス: データ プロファイリング、自動データ品質、一元化されたガバナンスの機能が強化されています。

Knowledge Catalog の用途

Google Knowledge Catalog は、「データ コールド スタート」の問題を解決します。これは、実際にデータを使用する前に、データの検索、理解、信頼に費やされる時間の無駄を指します。主な用途は次のとおりです。

  • データ検出の高速化: 複雑な組織サイロをナビゲートしてデータを探す代わりに、自然言語検索(「最新の顧客離脱データを表示して」など)を使用してGoogle Cloud リソース全体でアセットを瞬時に見つけることができるため、データ利用者の生産性が向上します。

  • AI エージェントのグラウンディング: 生成 AI または ADK の「信頼できる唯一の情報源」として機能します。物理データをビジネス定義にリンクすることで、AI エージェント(Vertex AI で構築されたものなど)が高品質のデータを使用できるようになり、AI ハルシネーションが大幅に減少し、AI 生成の分析情報に対する信頼性が向上します。

  • 自動データ ガバナンス: データを自動的にスキャンして機密情報(PII など)を特定し、データの出所(リネージ)を追跡し、その精度(自動データ品質)をモニタリングします。これらの機能により、手動による作業を減らしながら、データの信頼性、セキュリティ、コンプライアンスを向上させることができます。

  • 「ダークデータ」の検出: 非構造化ファイル(Cloud Storage の PDF や画像など)をスキャンし、内部の情報を抽出して、BigQuery で検索可能かつクエリ可能にします。これにより、これまでアクセスできなかったデータから分析情報を取得できます。

実践的なユースケースについては、Knowledge Catalog を探索するをご覧ください。

Knowledge Catalog にはどのような種類のメタデータが保存されますか?

Knowledge Catalog には、次の 3 種類のメタデータが保存されます。

  • テクニカル メタデータ: スキーマ、テーブル名、システム プロパティが自動的に収集されます。

  • ビジネス メタデータ: ビジネスの説明、用語集の用語、所有権などのユーザー定義のコンテキスト。

  • ランタイム メタデータ: データ リネージ、データ品質スコア、データ プロファイリング統計に関する情報。

Data Catalog から移行するにはどうすればよいですか?

Knowledge Catalog への移行はシームレスに行われるように設計されており、手動でデータを移動する必要はありません。現在の使用状況に応じて、プロセスには次の 2 つの主なフェーズがあります。

  • 準備フェーズ: カスタム メタデータ(タグ、タグ テンプレート、カスタム エントリ)がある場合、このコンテンツは読み取り専用として Knowledge Catalog に自動的に取り込まれます。このフェーズでは、既存の Data Catalog コンテンツを新しいインターフェースで同時に利用できるようにする構成タスクを実行します。

  • 移行フェーズ: 準備が完了したら、メタデータのアクティブな状態を移行して、Knowledge Catalog 内で読み取り / 書き込み可能にします。この手順は、新しい Knowledge Catalog エンドポイントを指すようにプログラマティック ワークロード(API、クライアント ライブラリ、Terraform モジュール)を更新する手順と連携して行う必要があります。

カスタム メタデータがない場合や、プラットフォームを初めて使用する場合は、 Google Cloud コンソールで Knowledge Catalog をデフォルトの UI エクスペリエンスとして設定して、移行を完了できます。

詳細については、Data Catalog から Knowledge Catalog への移行をご覧ください。