Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

非構造化データの分析情報について

Knowledge Catalog の非構造化データのデータプロファイルスキャンでは、Cloud Storage の PDF などのダークデータや非構造化ファイルが、BigQuery の構造化されたクエリ可能なアセットに変換されます。標準の検出ツールはサイズやタイプなどのファイルレベルのメタデータに限定されますが、Vertex AI Gemini モデルを搭載した非構造化データのデータプロファイルスキャンでは、ファイルの内容が分析されます。AI エージェントのグラウンディングと高度な分析の実現に必要なビジネスコンテキストを自動的に抽出します。

この自動化により、手動のドキュメント解析やカスタム ETL コードが不要になり、これまでアクセスできなかったデータを検出、分類、使用できるようになります。

非構造化データのデータプロファイルスキャンでは、非構造化ファイルのコンテンツを分析して情報を抽出し、スキーマを推論します。これは、既存の構造化テーブルのメタデータと標準の統計データプロファイリングに基づいて説明と SQL クエリを生成する構造化データのデータ分析情報機能とは異なります。また、null カウントや値の分布などの指標を計算する機能とも異なります。

自動検出とセマンティックプロファイリング

開始点に応じて、次の 2 つの異なるワークフローを使用して非構造化データプロファイリングを実行できます。

Cloud Storage 検出スキャン中: 検出スキャンは、Cloud Storage 内の非構造化ファイルを自動的に特定し、分析のために BigQuery の 1 つまたは複数のオブジェクトテーブルにカタログ化します。オブジェクトテーブルは、Cloud Storage 内にある非構造化データオブジェクトの読み取り専用テーブルです。[セマンティック推論を有効にする] を有効にして検出スキャンを実行すると、非構造化データプロファイリングの自動エントリポイントとして機能します。
非構造化データのスタンドアロンデータプロファイルスキャンとして: 既存の BigQuery オブジェクトテーブルがある場合は、これらのテーブルで非構造化データのデータプロファイルスキャンを直接実行できます。このスタンドアロンワークフローでは、DataScan 仕様でカスタマイズされたプロンプトを指定して、抽出をガイドすることもできます。

非構造化データのプロファイリングが実行されると（検出スキャン中に自動的に実行されるか、スタンドアロンスキャンとして実行されるか）、システムはオブジェクトテーブルを Knowledge Catalog のエントリとして登録します。エントリは、メタデータをキャプチャするデータアセットを表します。検出スキャンによって複数のテーブルが作成された場合、各エントリに独自の [分析情報] タブがあります。このエントリを開いて、生成されたデータ分析情報を確認できます。システムは次のアクションを実行します。

ファイルを特定してグループ化します（検出スキャンのみ）。Cloud Storage 内の非構造化ファイルを自動的に識別してオブジェクトテーブルに整理します。これらのオブジェクトテーブルは、非構造化データへの構造化インターフェースを提供する読み取り専用テーブルです。
非構造化データのデータプロファイルスキャンを実行します。Vertex AI Gemini モデルを使用して、ファイル内のコンテンツを分析し、その意味と構造を理解します。これには、生成 AI を使用してファイルコンテンツから Company、Product、Serial Number などの特定の属性を抽出するエンティティ推論が含まれます。また、関係抽出も含まれています。これは、これらのエンティティがどのように接続されているか（例: Component is_part_of Product）を特定して、セマンティックグラフを作成します。スタンドアロンプロファイルスキャンを実行している場合は、DataScan 仕様でカスタマイズされたプロンプトを指定して、この抽出をガイドできます。
スキーマとグラフプロファイルを生成します。AI が提案するリレーショナルスキーマを提供し、オブジェクトテーブルを表すカタログエントリに Graph Profile アスペクト（dataplex-types.global.graph-profile）を付加します。アスペクトは、エントリ内のメタデータのキャプチャに使用します。このメタデータアスペクトには、エンティティ（NodeType）と関係（EdgeType）の推論されたスキーマが含まれています。
メタデータを拡充します。AI 生成のメタデータが Knowledge Catalog に自動的に入力されます。これにより、データが検索可能になり、抽出の準備が整います。

データベーススキーマを手動で設計する代わりに、ワンクリック SQL またはパイプラインオーケストレーションを使用してデータ抽出を実行できます。このプロセスでは、推論されたエンティティとリレーションシップが、物理 BigQuery テーブルやビューなどの構造化された形式で実体化されます。

API メソッド

次の REST API メソッドを使用して、非構造化データのデータプロファイルスキャンとその結果のカタログエントリを構成、実行、管理できます。

API メソッド	説明
`projects.locations.dataScans.create`	検出スキャン（`dataDiscoverySpec` を使用）または非構造化データのスタンドアロンデータプロファイルスキャン（`unstructuredDataProfileSpec` を使用）を作成します。
`projects.locations.dataScans.run`	オンデマンドのデータプロファイルスキャンジョブまたは検出スキャンジョブをトリガーして、非構造化ファイルを分析し、セマンティック分析情報を生成します。
`projects.locations.dataScans.get`	既存のデータプロファイルスキャンの構成の詳細と最新のジョブ結果を取得します。
`projects.locations.dataScans.jobs.list`	特定のデータプロファイルスキャンまたは検出スキャンの過去のスキャンジョブを一覧表示します。
`projects.locations.dataScans.jobs.get`	特定のデータプロファイルスキャンジョブの詳細な実行結果とログを取得します。
`projects.locations.entryGroups.entries.get`	オブジェクトテーブルを表すカタログエントリを取得します。これには、関連付けられた AI 生成メタデータアスペクト（`GraphProfile` など）が含まれます。
`projects.locations.entryGroups.entries.patch`	カタログエントリを更新して、メタデータアスペクト（`dataplex-types.global.graph-profile` など）を関連付け、変更、キュレートします。

ユースケース

非構造化データのデータプロファイルスキャンは、次のようなさまざまな業界ドメインでさまざまな目的に使用できます。

パイプラインの設定とゼロ ETL 正規化。カスタムパーサーを自動スキーマ提案とワンクリックデプロイに置き換えることで、Cloud Storage から BigQuery へのデータ抽出を容易にし、BigQuery のテーブル、ビュー、セマンティックグラフにデータを具体化します。

たとえば、e コマースや小売業では、マーケットプレイスで数百もの異なる PDF レイアウトのサプライヤーの請求書と注文書を、カスタムの解析コードを記述することなく、一貫性のある統一された BigQuery スキーマ（Unit Pr.、Price/Pkg、Item Cost を単一の Unit_Price 列にマッピング）に自動的に正規化できます。医療分野では、生物統計学者が多施設共同臨床試験のプロトコルと症例報告書（CRF）を構造化されたテーブルに取り込み、迅速なコホート分析を行うことができます。
コンテンツの分類と検証。ダークデータを AI 生成のメタデータで強化された検索可能なアセットに自動的にグループ化し、データスチュワードが抽出されたエンティティの人間による検証とモニタリングを大規模に実行できるようにします。

たとえば、金融サービスでは、M&A のデューデリジェンスを実施する投資銀行が、過去の契約やクレジット契約の大規模なリポジトリを自動的に分類し、複雑な法人（Contracting_Parties、Indemnity_Cap、Governing_Law）を抽出できます。データスチュワードは、[分析情報] タブで視覚的なナレッジグラフを調べて、データをエグゼクティブレポートにエクスポートする前にリスクの高い負債を特定できます。
AI エージェントのグラウンディング。検証済みのグラフを使用して、検索拡張生成（RAG）エージェントをグラウンディングします。これにより、生ファイルと構造化されたビジネスロジックを結び付ける明確な「トレーサビリティチェーン」が提供され、ハルシネーションが軽減されます。これにより、AI エージェントは多テーブル結合を曖昧さなくナビゲートできます。

たとえば、製造業や産業分野では、重機メーカーが数十年にわたる非構造化フィールドメンテナンスログやインシデントレポートから機器の関係を抽出できます。現場の技術者が、会話型 AI エージェントに油圧の異常な低下を解決する方法を尋ねると、エージェントは検証済みの関係グラフ（Error_Code indicates_failure Hydraulic_Valve）を使用して、正確な過去のインシデントレポートを引用した、正確な修理計画を段階的に提供します。

制限事項

非構造化データのデータプロファイルスキャンを使用する前に、次の制限事項を確認してください。

サポートされている形式。検出スキャンでは、さまざまな非構造化ファイルタイプが自動的に識別され、BigQuery オブジェクトテーブルにグループ化されますが、データプロファイルスキャンの非構造化データ用のセマンティック推論エンジンは、主に PDF ドキュメント用に最適化されています。
地域。非構造化データのデータプロファイルスキャンは、Vertex AI Gemini 2.5 Pro モデルをサポートするロケーション（us-central1、europe-west1、asia-southeast1 など）でのみ使用できます。サポートされているリージョンのリストについては、 Gemini 2.5 Pro のサポートされているリージョンをご覧ください。サポートされていないリージョンで作成されたスキャンは、検証エラーまたは実行エラーを返します。
リソーススコープ。非構造化データのデータプロファイルスキャンは、BigQuery オブジェクトテーブルでのみ動作します。標準の BigQuery 構造化テーブル、構造化データに対する外部テーブル、BigQuery ビューはサポートされていません。

料金

一般提供プレビュー段階では、非構造化データのデータプロファイルスキャンは、特別なプロモーション条件の下でテストとテストに使用できます。

セマンティック推論。プレビュー期間中、Vertex AI Gemini モデルを使用してセマンティック情報を抽出し、検出スキャン中にグラフプロファイルを推論する場合、料金は発生しません。
基盤となるリソースの費用。データの保存と処理に必要なリソースには、標準料金が適用されます。
- Knowledge Catalog
  - 検出スキャンは、非構造化ファイルのベースラインスキャンとグループ化について、Knowledge Catalog Premium 処理 SKU（DCU 時間）に基づいて課金されます。詳細については、 Knowledge Catalog の料金をご覧ください。
  - グラフプロファイルなどの AI 生成メタデータアスペクトには、標準の Knowledge Catalog カタログストレージ料金が発生します。
- BigQuery と Dataform
  - パイプライン抽出方法を使用する場合は、Dataform 実行と BigQuery ジョブの標準料金が適用されます。
  - SQL メソッドを使用する場合は、標準の BigQuery ML 料金（ML.PROCESS_DOCUMENT）と BigQuery クエリ処理料金が適用されます。
  - オブジェクトテーブル、推論されたメタデータ、抽出されたエンティティなど、BigQuery にマテリアライズされたデータには、BigQuery の標準ストレージ料金とクエリ料金が発生します。詳細については、BigQuery の料金をご覧ください。

非構造化データのデータプロファイルスキャンとセマンティック推論の公式の専用課金体系は、一般提供（GA）時に開始されます。

割り当て

標準の DataScan リソースと API の割り当ては、個々の検出スキャンまたはデータプロファイルスキャンジョブに適用されます。特定の割り当てによってセマンティック推論の量も管理されます。BigQuery オブジェクトテーブルの非構造化データに対するデータプロファイルスキャンの 1 日あたりの合計実行回数は、プロジェクトあたり 1 日あたり 140 回に制限されます。

検出スキャン中に非構造化データプロファイリングが実行される場合、検出スキャンでサポートされるテーブル数の上限も適用されます。詳細については、BigQuery の割り当てと上限をご覧ください。