Knowledge Catalog を BigQuery で使用する
Knowledge Catalog(旧称 Dataplex Universal Catalog)は、BigQuery のメタデータの中央データ ガバナンス レイヤおよびエージェント アクセス レイヤとして BigQuery と連携します。詳細については、 Knowledge Catalog の概要をご覧ください。
Knowledge Catalog を BigQuery で使用するにはどうすればよいですか?
Knowledge Catalog は、次のように BigQuery と連携します。
メタデータの自動取り込み
Knowledge Catalog は、BigQuery アセットからテクニカル メタデータを自動的に検出してインデックスに登録します。これには次のものが含まれます。
- アセットタイプ: データセット、テーブル、ビュー、モデル、ルーティン、接続、 リンクされたデータセット。
- BigQuery Sharing: エクスチェンジとリスティング BigQuery Sharing(旧 Analytics Hub)から。
- リアルタイム更新: システムは準リアルタイムの取り込みをサポートし、 メタデータ変更フィードを Pub/Sub を使用して提供し、BigQuery のスキーマの変更や削除をダウンストリーム システムに通知します。
- ダークデータの検出: Knowledge Catalog は 非構造化ファイル (Cloud Storage の PDF など)をスキャンしてエンティティを抽出し、 BigQuery でクエリ可能なアセットに変換できます。この機能により、これまでアクセスできなかった「ダークデータ」を BigQuery ベースの分析と AI のグラウンディングに使用できます。
メタデータの表現と拡充
- エントリ: 各 BigQuery
テーブルまたはアセットは、テーブル全体ではなく、カタログ内の エントリ
として表されます(例:
project.dataset.table)。 - 列レベルのメタデータ: 個々の列またはフィールドは パスとして表されます。これにより、テーブル自体だけでなく、BigQuery テーブル内の個々のフィールドに、PII マーカーやデータ品質スコアなどの特定のメタデータを追加できます。
- アスペクト: テクニカル メタデータは アスペクトで拡充されます。 アスペクトは、所有権、データ品質、ドキュメントなど、データにビジネス コンテキストを追加します。
- データ プロダクト: 関連する BigQuery アセットを データ プロダクト(たとえば、e コマースのビジネスデータ)にパッケージ化できます。これらは、アクセスと ガバナンスの制約を共有します。
データの検出と検索
- セマンティック検索: ユーザーは自然言語を使用して BigQuery データを検索できます。これは、データ サイエンティストや AI エージェントが長いクエリや複雑なクエリを使用して信頼できるデータ プロダクトを見つける場合に特に便利です。
- 名前の変換: プログラムによるルックアップを容易にするため、システムではBigQuery SQL 名または完全修飾された名をKnowledge Catalog エントリ名に変換できます。
エージェント アクセスとグラウンディング
- エージェント アクセス: AI エージェントは、ローカルまたはリモートの MCP サーバーを介して Knowledge Catalog ツールを検出して適応的に使用できます。
- AI エージェントのコンテキスト: Knowledge Catalog は、コンテキスト グラフをキュレートします。このグラフは、BigQuery データセットをビジネス セマンティクスにリンクし、モデルが企業承認済みのデータを使用することで、AI のハルシネーションを減らすのに役立ちます。
ガバナンスとコンプライアンス
- データリネージ: Knowledge Catalog は、データがどのようにフローし、 BigQuery テーブルとの間で変換されるかを自動的に追跡します。この機能は、データ資産全体で PII などの機密情報を監査するうえで重要です。
- アクセス制御: メタデータ管理は Identity and Access Management(IAM)と VPC Service Controls と統合され、BigQuery メタデータの検出とアクセスが組織のセキュリティ ポリシーに準拠していることを保証します。
移行に関する考慮事項
非推奨の Data Catalog から Knowledge Catalog への移行には、いくつかの手順が必要です。BigQuery の標準メタデータ(データセット、テーブル、ビューなど)は Knowledge Catalog で自動的に使用できるため、移行プロセスでは主にカスタム メタデータ、API の使用、ユーザー インターフェースのデフォルトに重点を置いています。
移行の際に考慮すべき主な点は次のとおりです。
変更内容を理解する
Knowledge Catalog は、Data Catalog と比較して、メタデータ管理、ガバナンス、検出の機能が強化されています。 Knowledge Catalog は異なる API(Knowledge Catalog API)を使用し、 データモデルが若干異なります。たとえば、Knowledge Catalog では、 アスペクトとアスペクト タイプの代わりに タグとタグ テンプレートを使用します。
現在のデータカタログの使用状況を評価する
- カスタム メタデータなし: カスタムタグ、タグ テンプレート、カスタム エントリ、エントリ グループを作成せずに、標準の BigQuery メタデータの自動取り込みと検出に Knowledge Catalog のみを使用している場合、移行は簡単です。Knowledge Catalog インターフェースをすぐに使用できます。
- カスタム メタデータまたはプログラムによる使用: カスタムタグまたは テンプレート、カスタム エントリを作成した場合、または Data Catalog API、クライアント ライブラリ、 Google Cloud CLI コマンド、Terraform を使用している場合は、より構造化された 移行が必要です。
BigQuery 固有の考慮事項
- 自動取り込み: BigQuery アセット(データセット、テーブル、ビュー、モデル、ルーティン)のテクニカル メタデータは、 Dataplex Universal Catalog と同様に、 Knowledge Catalog に自動的に取り込まれます。
- ポリシータグ: BigQuery の列レベルの アクセス制御に使用されるポリシータグは非推奨ではなく、管理は BigQuery 内に残ります。
- リネージ: BigQuery オペレーションのデータリネージは Knowledge Catalog 内に表示されます。データリネージの詳細については、 BigQuery テーブルのデータリネージを追跡するをご覧ください。
移行ガイドに従う
Knowledge Catalog に移行するには、 Data Catalog から Knowledge Catalog への移行の手順に沿って操作します。
プログラムによるワークフローを Knowledge Catalog API に更新するには、 Data Catalog API メソッドを Knowledge Catalog にマッピングするをご覧ください。
次のステップ
Knowledge Catalog の詳細を確認する。