Knowledge Catalog の非構造化データのデータ分析は、ダークデータや非構造化ファイル(PDF など)を構造化されたクエリ可能なアセットに変換します。標準の検出ツールはサイズやタイプなどのファイルレベルのメタデータに限定されますが、非構造化データのデータ分析情報では Vertex AI を使用してファイルの内容を分析します。AI エージェントのグラウンディングと高度な分析の実現に必要なビジネス コンテキストを自動的に抽出します。
この自動化により、ドキュメントの手動解析やカスタム ETL コードが不要になり、これまでアクセスできなかったデータを検出、分類、使用できるようになります。
非構造化データの自動検出
検出スキャンは、Cloud Storage 内の非構造化ファイルを自動的に特定し、分析のために BigQuery の 1 つ以上の BigLake オブジェクト テーブルにカタログ化するプロセスです。非構造化データのデータ分析情報のエントリ ポイントとして機能します。システムは、結果の BigLake オブジェクト テーブルを Knowledge Catalog のエントリとして自動的に登録します。検出スキャンによって複数のテーブルが作成された場合、各エントリには独自の [分析情報] タブがあります。このエントリを開いて、生成されたデータ分析情報を確認できます。非構造化データのデータ分析情報が有効になっている状態で検出スキャンを実行すると、システムは次の処理を行います。
ファイルを識別してグループ化します。Cloud Storage 内の非構造化ファイルを自動的に識別して、BigLake オブジェクト テーブルに整理します。これらのオブジェクト テーブルは、非構造化データへの構造化インターフェースを提供する読み取り専用テーブルです。
非構造化データのデータ分析情報を実行します。Vertex AI を使用して、ファイル内の実際のコンテンツを分析し、その意味と構造を理解します。これには、生成 AI を使用してファイル コンテンツから特定の属性(
Company、Product、Serial Numberなど)を抽出するエンティティ推論が含まれます。また、関係抽出も含まれています。これは、これらのエンティティがどのように接続されているか(例:Component is_part_of Product)を特定して、セマンティック グラフを作成します。スキーマとグラフ プロファイルを生成します。AI が提案するリレーショナル スキーマとグラフ プロファイル アスペクトを提供します。これは、エンティティと関係の推論されたスキーマを含む Knowledge Catalog メタデータ アスペクトです。
メタデータを拡充します。AI 生成のメタデータで Knowledge Catalog を自動的に入力します。これにより、データが検索可能になり、抽出の準備が整います。
データベース スキーマを手動で設計する代わりに、ワンクリック SQL またはパイプライン オーケストレーションを使用してデータ抽出を実行できます。このプロセスでは、推論されたエンティティとリレーションシップがテーブルやビューなどの構造化された形式にマテリアライズされます。
ユースケース
非構造化データのデータ分析は、次のようなさまざまな目的に使用できます。
自動 ETL パイプラインの生成。カスタム パーサーを自動スキーマ候補とワンクリック デプロイに置き換えて、Cloud Storage から BigQuery へのデータ抽出を自動化し、データを BigQuery テーブル、ビュー、セマンティック グラフに具体化します。
たとえば、金融サービス会社は、数千もの PDF 請求書から請求書の詳細、ベンダー名、契約条件を自動的に抽出し、カスタムの解析コードを記述することなく、それらを BigQuery に直接マテリアライズして、費用分析を即座に実行できます。
コンテンツの分類と検証。ダークデータを自動的にグループ化して、AI 生成のメタデータで強化された検索可能なアセットにします。これにより、データ スチュワードは抽出されたエンティティの人間参加型検証とモニタリングを大規模に実行できます。
たとえば、法務部門やコンプライアンス部門は、過去の契約書の大きなリポジトリを自動的に分類し、キーエンティティを抽出できます。これにより、データ スチュワードは、重要な法令上の報告に使用する前にメタデータを検証できます。
AI エージェントのグラウンディング。検証済みのグラフを使用して、検索拡張生成(RAG)エージェントをグラウンディングします。これにより、生ファイルと構造化されたビジネス ロジックを結び付ける明確な「トレーサビリティ チェーン」が提供され、ハルシネーションが軽減されます。これにより、AI エージェントは多テーブル結合を曖昧さなくナビゲートできます。
たとえば、製造業者はメンテナンス ログから機器の関係を抽出できます。技術者が会話型 AI エージェントに「シリコンのリコール対象地域はどこですか?」と質問すると、エージェントは検証済みの関係グラフを使用して、元のマニュアルに明確に遡れる正確な回答を提供します。
制限事項
非構造化データのデータ分析を使用する前に、次の制限事項を確認してください。
サポートされている形式。検出スキャンでは、さまざまな非構造化ファイル タイプが自動的に識別され、BigQuery オブジェクト テーブルにグループ化されますが、非構造化データのデータ分析情報は PDF ファイルに対してのみ最適化されています。
地域。非構造化データのデータ分析は、Vertex AI Gemini 2.5 Pro モデルをサポートするロケーションでのみ使用できます。サポートされているリージョンの一覧については、Gemini 2.5 Pro のサポートされているリージョンをご覧ください。
料金
プレビュー段階では、非構造化データのデータ分析は、セマンティック推論機能のテストと実験に無料で利用できます。ただし、プロセス中に消費された基盤となるリソースとサービスの費用は引き続きお客様の負担となります。
プレビュー期間
セマンティック推論。プレビュー期間中は、Vertex AI を使用してセマンティック情報を抽出し、検出スキャン中にグラフ プロファイルを推論しても料金は発生しません。
基盤となるリソースの費用。データの保存と処理に必要なリソースには、標準料金が適用されます。
Knowledge Catalog。
検出スキャンは、非構造化データのスキャンとグループ化について、Knowledge Catalog Premium 処理 SKU(DCU 時間)に基づいて課金されます。詳細については、Knowledge Catalog の料金をご覧ください。
グラフ プロファイルなどの AI 生成メタデータには、標準の Knowledge Catalog ストレージ料金が発生します。
BigQuery。
パイプライン抽出方法を使用する場合は、Dataform 実行と BigQuery ジョブの標準料金が適用されます。
SQL メソッドを使用する場合は、標準の BigQuery ML 料金と BigQuery ジョブ料金が適用されます。
オブジェクト テーブル、推論されたメタデータ、抽出されたエンティティなど、BigQuery にマテリアライズされたデータには、BigQuery の標準ストレージ料金とクエリ料金が発生します。詳細については、BigQuery の料金をご覧ください。
一般提供(GA)
非構造化データのデータ分析の正式な請求は、一般提供(GA)の開始時に開始されます。
割り当て
標準の DataScan リソースと API の割り当ては、個々の検出ジョブに適用されます。特定の割り当てによってセマンティック推論のボリュームが管理されます。BigQuery オブジェクト テーブルでの 1 日あたりのセマンティック推論の合計実行回数は、1 プロジェクトにつき 1 日あたり 1 回に制限されます。
非構造化データのデータ分析は検出スキャンに依存するため、検出スキャンでサポートされるテーブル数の上限が適用されます。詳細については、BigQuery の割り当てと上限をご覧ください。
次のステップ
- 非構造化データにデータ分析情報を使用する方法を学習する。
- データの検出の詳細を確認する。