Google は AI 技術を使用して、コンテンツをご希望の言語に翻訳しています。AI 翻訳には誤りが含まれる場合があります。

非構造化データにデータプロファイルを使用する

Vertex AI Gemini 2.5 Pro モデルを搭載した非構造化データ（UnstructuredDataProfileSpec）のデータプロファイルスキャンでは、既存の BigQuery オブジェクトテーブルを分析して、Cloud Storage 内の未加工の非構造化ファイル（PDF など）を構造化されたクエリ可能なアセットに変換します。このスタンドアロンワークフローは、BigQuery オブジェクトテーブルをすでに使用しているユーザーを対象としており、カスタマイズされたプロンプトを使用して抽出をガイドできます。Cloud Storage の未加工ファイルから開始し、自動検出ワークフローが必要な場合は、非構造化データに検出スキャンを使用するをご覧ください。

このドキュメントでは、必要な権限を設定する方法、オブジェクトテーブルを準備する方法、REST API を使用して非構造化データのデータプロファイルスキャンを作成する方法、生成インサイトを表示する方法、グラフプロファイルをキュレートする方法、データを BigQuery に抽出する方法について説明します。

始める前に

非構造化データのデータプロファイルスキャンを作成する前に、必要な権限が付与され、必要な API が有効になっていることを確認してください。

API を有効にする

プロジェクトで次の API を有効にします。

dataplex.googleapis.com
bigquery.googleapis.com
aiplatform.googleapis.com（Vertex AI）

API を有効にするために必要なロール

API を有効にするには、serviceusage.services.enable 権限が必要です。プロジェクトを作成した場合は、オーナーロール（roles/owner）を介してこの権限がすでに付与されている可能性があります。それ以外の場合は、Service Usage 管理者ロール（roles/serviceusage.serviceUsageAdmin）を介してこの権限を取得できます。ロールを付与する方法をご覧ください。

API を有効にする

必要なロールと権限

非構造化データのセマンティック推論は、BigQuery オブジェクトテーブルで動作する高度なデータプロファイルスキャン機能です。非構造化データプロファイリングを構成して実行するには、オブジェクトテーブルにアクセスするためのベースライン権限を満たし、複数のサービスエージェントにわたるセマンティック推論用の追加のロールを付与する必要があります。

ベースラインオブジェクトテーブルのロール

BigQuery オブジェクトテーブルにアクセスしてクエリを実行するには、ユーザーと Knowledge Catalog で使用されるサービスアカウントに、プロジェクトに対する次のベースラインの Identity and Access Management（IAM）ロールが付与されていることを確認します。

BigQuery データ閲覧者（roles/bigquery.dataViewer）
BigQuery Connection ユーザー（roles/bigquery.connectionUser）

オブジェクトテーブルの前提条件の完全なリストについては、オブジェクトテーブルを作成するをご覧ください。

セマンティック推論の追加ロール

ベースラインテーブルアクセスに加えて、ユーザーとサービスアカウントに次の追加の IAM ロールがあることを確認します。

追加の ID とロールの概要

ID タイプ	一般的なプリンシパルの形式	必要な IAM のロール	重要な目的
エンドユーザー	お客様の Google Cloud ユーザーアカウント	Dataplex DataScan 編集者 Dataplex Catalog 編集者 BigQuery データ編集者 BigQuery ジョブユーザー	これらの追加ロールを使用して、スキャンの構成、AI 生成結果の表示、グラフプロファイルのキュレーション、最終的なデータ抽出のトリガーを行います。
Dataplex Universal Catalog 検出エージェント	`service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com`	Agent Platform ユーザー BigQuery ジョブユーザー BigQuery データ閲覧者	この Google マネージドサービスエージェントは、これらの追加ロールを使用して Vertex AI を呼び出し、推論されたスキーマとメタデータを生成します。
BigQuery 接続サービスアカウント	接続に関連付けられた一意の ID（`bqcx-<var>PROJECT_NUMBER</var>-<var>ID</var>@gcp-sa-bigquery-condel.iam.gserviceaccount.com` など）	Storage オブジェクト閲覧者（ソースバケット） Agent Platform ユーザー（プロジェクト）	BigQuery を外部ストレージに接続し、個人ユーザーの認証情報を公開することなく、BigQuery で未加工ファイルの読み取り、オブジェクトテーブルの作成、AI 推論の実行を可能にします。
パイプライン実行サービスアカウント（省略可）	ユーザー管理のサービスアカウント	BigQuery データ編集者 BigQuery ジョブユーザー BigQuery ユーザー Agent Platform ユーザー	自動化されたパイプラインを使用してデータを抽出する場合、この ID はバックグラウンドジョブを実行して、AI によって生成されたエンティティを BigQuery テーブルに具体化します。
デフォルトの Dataform サービスアカウント（省略可）	`service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com`	サービスアカウントトークン作成者（パイプライン実行サービスアカウントに付与）	パイプライン抽出メソッドを使用する場合、Dataform はワークフローをオーケストレートするために、パイプライン実行サービスアカウントを偽装する権限を必要とします。

エンドユーザーの役割と権限

スキャンの作成、分析情報の表示、グラフプロファイルのキュレーション、データの抽出に必要な権限がユーザーアカウントに付与されるように、プロジェクトに対する次の IAM ロールをユーザーアカウントに付与するよう管理者に依頼してください。

スキャンを作成して分析情報を表示する:
- Dataplex DataScan 編集者（roles/dataplex.dataScanEditor）
- Dataplex Catalog 編集者（roles/dataplex.catalogEditor）
SQL またはパイプラインを使用してデータを抽出する:
- BigQuery データ編集者（roles/bigquery.dataEditor）
- BigQuery ジョブユーザー（roles/bigquery.jobUser）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

これらの事前定義ロールには、スキャンの作成、分析情報の表示、グラフプロファイルのキュレーション、データの抽出に必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。

必要な権限

スキャンの作成、分析情報の表示、グラフプロファイルのキュレーション、データの抽出を行うには、次の権限が必要です。

DataScans:
- dataplex.datascans.create
- dataplex.datascans.get
- dataplex.datascans.getData
- dataplex.datascans.list
- dataplex.datascans.update
データ抽出:
- bigquery.tables.create
- bigquery.tables.update
- bigquery.tables.getData
- bigquery.jobs.create

管理者は、カスタムロールや他の事前定義ロールを使用して、これらの権限をユーザーアカウントに付与することもできます。

Dataplex Discovery サービスエージェントのロールと権限

Dataplex 検出サービスエージェントは、Vertex AI を使用してスキャンを実行し、セマンティック推論を行うためにアクセス権が必要なサービスエージェントです。

Dataplex 検出サービスエージェント（通常は service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com）に、スキャンを実行し、Vertex AI を使用してセマンティック推論を実行するために必要な権限が付与されるように、プロジェクトの Dataplex 検出サービスエージェント（通常は service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com）に次の IAM ロールを付与するよう管理者に依頼してください。

重要: これらのロールは、ユーザーアカウントではなく、Dataplex 検出サービスエージェント（通常は service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com）に付与する必要があります。正しいプリンシパルにロールを付与しないと、権限エラーが発生する可能性があります。

すべて:
- Agent Platform ユーザー（roles/aiplatform.user）
- Dataplex Discovery サービスエージェント（roles/dataplex.discoveryServiceAgent）
- BigQuery ジョブユーザー（roles/bigquery.jobUser）
- BigQuery データ閲覧者（roles/bigquery.dataViewer）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

これらの事前定義ロールには、Vertex AI を使用してスキャンを実行し、セマンティック推論を実行するために必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。

必要な権限

Vertex AI を使用してスキャンを実行し、セマンティック推論を行うには、次の権限が必要です。

すべて:
- aiplatform.endpoints.predict
- bigquery.datasets.create
- bigquery.datasets.get
- bigquery.tables.get
- bigquery.tables.getData
- storage.buckets.get
- storage.objects.get
- storage.objects.list

管理者は、Dataplex 検出サービスエージェント（通常は service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com）に、カスタムロールや他の事前定義ロールを付与することもできます。

BigQuery 接続サービスアカウントのロールと権限

BigQuery Cloud リソース接続を使用すると、Knowledge Catalog は Cloud Storage に保存されている非構造化データにアクセスできます。接続を作成すると、BigQuery は専用のサービスアカウントを自動的に作成します。このサービスアカウントは、外部データソースへの接続に使用される ID として機能します。

デフォルトでは、このサービスアカウントには権限がありません。このサービスアカウントには、データを含む Cloud Storage バケットに対する必要な IAM ロールを明示的に付与する必要があります。既存の BigQuery 接続を使用するか、ソース Cloud Storage バケットと同じロケーションに新しい接続を作成できます。接続の共有の詳細については、ユーザーと接続を共有するをご覧ください。

BigQuery 接続サービスアカウント（接続の詳細の [接続情報] セクションから ID を取得）にオブジェクトテーブルの読み取りと推論の実行に必要な権限があることを確認するには、BigQuery 接続サービスアカウント（接続の詳細の [接続情報] セクションから ID を取得）に次の IAM ロールを付与するよう管理者に依頼してください。

すべて:
- 非構造化データを含むバケットに対する Storage オブジェクト閲覧者（roles/storage.objectViewer）
- プロジェクトに対するAgent Platform ユーザー（roles/aiplatform.user）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

これらの事前定義ロールには、オブジェクトテーブルの読み取りと推論の実行に必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。

必要な権限

オブジェクトテーブルを読み取って推論を実行するには、次の権限が必要です。

すべて:
- 非構造化データを含むバケットに対する storage.buckets.get
- 非構造化データを含むバケットに対する storage.objects.get
- プロジェクトに対する aiplatform.endpoints.predict

管理者は、BigQuery 接続のサービスアカウント（接続の詳細の [接続情報] セクションから ID を取得）に、カスタムロールや他の事前定義ロールを付与することもできます。

パイプライン実行サービスアカウントのロールと権限（省略可）

自動パイプラインを使用して推論されたデータを抽出する場合は、パイプラインを実行するための専用のサービスアカウントを作成するか、指定する必要があります。この実行サービスアカウントは、BigQuery でバックグラウンドデータ抽出タスクと分析タスクを認証して実行する ID として機能します。また、デフォルトの Dataform サービスアカウントに、この実行サービスアカウントの権限借用を許可する必要があります。

パイプラインを使用して推論されたエンティティとリレーションシップを抽出するために必要な権限がパイプライン実行サービスアカウントに付与されるように、プロジェクトに対する次の IAM ロールをパイプライン実行サービスアカウントに付与するよう管理者に依頼してください。

すべて:
- BigQuery データ編集者（roles/bigquery.dataEditor）
- BigQuery ジョブユーザー（roles/bigquery.jobUser）
- BigQuery ユーザー（roles/bigquery.user）
- Agent Platform ユーザー（roles/aiplatform.user）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

これらの事前定義ロールには、パイプラインを使用して推論されたエンティティとリレーションシップを抽出するために必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。

必要な権限

パイプラインを使用して推論されたエンティティとリレーションシップを抽出するには、次の権限が必要です。

すべて:
- bigquery.tables.create
- bigquery.tables.update
- bigquery.tables.get
- bigquery.tables.getData
- bigquery.jobs.create
- aiplatform.endpoints.predict

管理者は、カスタムロールや他の事前定義ロールを使用して、これらの権限をパイプライン実行サービスアカウントに付与することもできます。

デフォルトの Dataform サービスアカウント（service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com）に、パイプライン実行サービスアカウントの権限を借用するために必要な権限があることを確認するには、パイプライン実行サービスアカウントに対する次の IAM ロールをデフォルトの Dataform サービスアカウント（service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com）に付与するよう管理者に依頼してください。

重要: これらのロールは、ユーザーアカウントではなく、デフォルトの Dataform サービスアカウント（service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com）に付与する必要があります。正しいプリンシパルにロールを付与しないと、権限エラーが発生する可能性があります。

すべて: サービスアカウントトークン作成者（roles/iam.serviceAccountTokenCreator）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

これらの事前定義ロールには、パイプライン実行サービスアカウントの権限を借用するために必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。

必要な権限

パイプライン実行サービスアカウントの権限を借用するには、次の権限が必要です。

すべて: iam.serviceAccounts.getAccessToken

管理者は、デフォルトの Dataform サービスアカウント（service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com）に、カスタムロールや他の事前定義ロールを付与することもできます。

オブジェクトテーブルを準備する

非構造化データのデータプロファイルスキャンは、既存の BigQuery オブジェクトテーブルで直接動作します。スキャンを作成する前に、非構造化データ（PDF など）が Cloud Storage バケットに保存されていること、および Cloud リソース接続を使用してそのバケットに BigQuery オブジェクトテーブルが作成されていることを確認してください。

オブジェクトテーブルで使用される接続に対して、ユーザーと Knowledge Catalog サービスアカウントに BigQuery Connection ユーザー（roles/bigquery.connectionUser）ロールがあることを確認します。

オブジェクトテーブルの作成と必要な接続の設定の詳細については、オブジェクトテーブルを作成するをご覧ください。

非構造化データのデータプロファイルスキャンを作成する

オブジェクトテーブルからセマンティック分析情報を抽出するには、非構造化データ（UnstructuredDataProfileSpec）のデータプロファイルスキャンを作成する必要があります。このスキャンでは、Vertex AI Gemini 2.5 Pro モデルを使用して、オブジェクトテーブルで参照されている非構造化ファイルを分析し、推論されたメタデータ、スキーマ、関係を生成します。

この初回リリースでは、スキャンの作成は REST API の使用でのみサポートされています。

REST API を使用して非構造化データのデータプロファイルスキャンを作成するには、unstructuredDataProfileSpec を使用して dataScans.create メソッドを使用します。

POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN
{
  "description": "Data profile scan for unstructured data",
  "data": {
    "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID"
  },
  "executionSpec": {
    "trigger": {
      "onDemand": {}
    }
  },
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "",
    "graphProfilePublishingEnabled": false
  }
}

次のように置き換えます。

PROJECT_ID: 実際の Google Cloudプロジェクトの ID。
LOCATION: Google Cloud リージョン（Gemini 2.5 Pro をサポートしている必要があります）。
DATASCAN: データプロファイルスキャンの名前。
DATASET_ID と TABLE_ID: BigQuery データセットとオブジェクトテーブルの名前。

データプロファイルスキャンの仕様パラメータ

customizedPrompt: 省略可。抽出する特定のエンティティまたはドメインコンテキストを Gemini に指示する自然言語プロンプト（例: Focus extraction on M&A contract terms, identifying purchasing entities, target companies, and agreed escrow amounts.）。デフォルトでは、これは空の文字列（""）です。カスタマイズされたプロンプトの最大文字長には上限があります。
graphProfilePublishingEnabled: 省略可。推論されたグラフプロファイルをスキャン完了時にカタログに自動的に公開するかどうか。デフォルトは false です。

Knowledge Catalog はデータプロファイルスキャンを実行し、AI 生成のメタデータでカタログエントリを拡充します。このプロセスは、標準的なデータセットの場合には通常数分かかります。

例: 販売者の PDF から契約条件を抽出する

次の例は、サンプル小売企業がオブジェクトテーブル（seller_agreements_obj_table）に保存されている販売者契約 PDF を分析するためにデータプロファイルスキャン（seller-contracts-scan）を作成する REST API リクエストを示しています。カスタマイズされたプロンプトを使用して、Gemini に手数料率や支払い条件などの特定のビジネス用語を抽出するよう指示しています。

POST https://dataplex.googleapis.com/v1/projects/example-retail-project/locations/us-central1/dataScans?dataScanId=seller-contracts-scan
{
  "description": "Data profile scan for seller PDF agreements",
  "data": {
    "resource": "//bigquery.googleapis.com/projects/example-retail-project/datasets/marketplace_operations/tables/seller_agreements_obj_table"
  },
  "executionSpec": {
    "trigger": {
      "onDemand": {}
    }
  },
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
    "graphProfilePublishingEnabled": true
  }
}

データプロファイルスキャンを実行する

オンデマンドで実行するようにデータプロファイルスキャンを構成した場合は、非構造化データを分析するためにスキャンを手動でトリガーする必要があります。

REST API を使用してオンデマンドデータプロファイルスキャンを実行するには、dataScans.run メソッドを使用します。

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN:run"

次のように置き換えます。

PROJECT_ID: 実際の Google Cloudプロジェクトの ID。
LOCATION: データプロファイルスキャンが配置されている Google Cloud リージョン。
DATASCAN: データプロファイルスキャンの名前。

データプロファイルスキャンの結果を確認する

データプロファイルスキャンが完了すると、Knowledge Catalog はエンティティとリレーションシップの推論されたスキーマを含むグラフプロファイルを生成します。これらの結果は、 Google Cloud コンソールまたは REST API を使用して確認できます。

コンソール

カタログ（graphProfilePublishingEnabled: true）へのグラフプロファイルの公開を有効にしている場合は、Knowledge Catalog でオブジェクトテーブルとその推論されたセマンティックグラフを表示できます。

Google Cloud コンソールで、Knowledge Catalog の [検索] ページに移動します。

[検索] に移動
スキャンで構成した ID のオブジェクトテーブルを貼り付けて検索します。
検索結果で、表をクリックしてエントリページを開きます。
[詳細] タブの [アスペクト] で、グラフプロファイル アスペクト（dataplex-types.global.graph-profile）が存在することを確認します。このアスペクトには、エンティティとリレーションシップの推論されたスキーマが含まれています。
[分析情報] タブをクリックします。[分析情報] タブでは、次の情報を確認できます。
- セマンティックの抽出。抽出可能なエンティティと関係が検出されたことを示すバナーが表示されます。SQL またはパイプラインのデプロイを使用してデータを実体化するための [抽出] ボタンがあります。
- 説明。AI が生成した人が読める形式の要約で、非構造化データの内容を説明します。検出されたプライマリノード（エンティティ）と、エッジ（関係）を介して相互にマッピングする方法について説明します。
- パイプライン。このリソースに関連付けられている、以前にデプロイされたデータ抽出パイプラインのリスト。表示名、リージョン、作成時間、パイプラインを作成したユーザーを表示できます。
- 推論されたエンティティと関係。非構造化データの検出されたセマンティック構造が、インタラクティブなグラフで視覚的に表示されます。グラフには、個別のエンティティを表すノード（Recipe や Ingredient など）と、それらの間の接続を表すエッジ（HasAllergenStatus など）が含まれています。凡例を使用して、特定のノードとエッジをフィルタして調べることができます。
- エンティティ。検出されたプライマリエンティティの詳細なリスト。各エンティティを展開して、AI によって生成された説明と、フィールド名、データ型、フィールドの説明を含む推定スキーマを表示できます。
- 関係。エンティティ間の検出された接続の詳細なリスト。各リレーションシップを展開して、その説明と、エンティティ間のマッピング方法を定義するスキーマを表示できます。

REST

REST API を使用してスキャンジョブの実行からグラフプロファイルの結果を直接取得するには、view=full で dataScans.jobs.get メソッドを使用します。

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN/jobs/JOB_ID?view=full"

次のように置き換えます。

PROJECT_ID: 実際の Google Cloudプロジェクトの ID。
LOCATION: データプロファイルスキャンが配置されている Google Cloud リージョン。
DATASCAN: データプロファイルスキャンの名前。
JOB_ID: データプロファイルスキャンジョブ実行の一意の ID。

次の例は、unstructuredDataProfileResult と graphProfile を含む seller-contracts-scan ジョブのレスポンスを示しています。

{
  "name": "projects/example-retail-project/locations/us-central1/dataScans/seller-contracts-scan/jobs/123e4567-e89b-12d3-a456-426614174000",
  "uid": "123e4567-e89b-12d3-a456-426614174000",
  "startTime": "2026-06-08T19:12:03.102Z",
  "endTime": "2026-06-08T19:15:28.415Z",
  "state": "SUCCEEDED",
  "type": "DATA_SCAN_TYPE_UNSTRUCTURED_DATA_PROFILE",
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
    "graphProfilePublishingEnabled": true
  },
  "unstructuredDataProfileResult": {
    "description": "The unstructured data contains seller agreement PDFs. The primary entities discovered are Seller Entity, Commission Rate, Payment Terms, and Termination Clause, mapped to each other through business agreement relationships.",
    "graphProfile": {
      "nodeTypes": [
        {
          "name": "Seller Entity",
          "description": "Discovered business entity representing the seller.",
          "fields": [
            {
              "name": "seller_name",
              "dataType": "STRING",
              "description": "The legal name of the seller.",
              "mode": "NULLABLE"
            },
            {
              "name": "address",
              "dataType": "STRING",
              "description": "The physical or mailing address of the seller.",
              "mode": "NULLABLE"
            }
          ]
        },
        {
          "name": "Commission Rate",
          "description": "Discovered agreed commission rate terms.",
          "fields": [
            {
              "name": "rate_percentage",
              "dataType": "NUMBER",
              "description": "The agreed commission percentage.",
              "mode": "NULLABLE"
            }
          ]
        },
        {
          "name": "Payment Terms",
          "description": "Discovered payment schedule and terms.",
          "fields": [
            {
              "name": "billing_cycle",
              "dataType": "STRING",
              "description": "The agreed billing frequency or payment schedule.",
              "mode": "NULLABLE"
            }
          ]
        }
      ],
      "edgeTypes": [
        {
          "name": "AgreedCommission",
          "description": "Defines the commission rate agreed by the seller entity.",
          "sourceNodeType": "Seller Entity",
          "targetNodeType": "Commission Rate"
        },
        {
          "name": "HasPaymentTerms",
          "description": "Defines the payment terms applicable to the seller entity.",
          "sourceNodeType": "Seller Entity",
          "targetNodeType": "Payment Terms"
        }
      ]
    }
  }
}

推論された分析情報を更新する

推論された分析情報は、オブジェクトテーブルにアスペクトとして関連付けられ、Knowledge Catalog Catalog に保存されます。これらの分析情報は、REST API を使用して手動で更新できます。

REST

REST API を使用して推論された分析情報を更新する手順は次のとおりです。

payload.json という名前のファイルを作成し、更新するアスペクトの JSON コンテンツを追加します。次に例を示します。

{
  "aspects": {
    "dataplex-types.global.graph-profile": {
      "data": {
        "nodeTypes": [],
        "edgeTypes": []
      }
    }
  }
}

ターミナルで次のコマンドを実行します。
```
curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d @payload.json \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID?updateMask=aspects"
```
次のように置き換えます。
- PROJECT_ID: プロジェクトの ID（例: example-project）
- LOCATION: エントリの場所（例: us-central1）
- ENTRY_GROUP_ID: エントリグループの ID（例: example-entry-group）。BigQuery オブジェクトテーブルの場合は、@bigquery を使用します。
- ENTRY_ID: エントリの ID（例: example-entry）。（ Google Cloud コンソールのエントリの詳細ページの [概要] タブから取得します）。

他の言語の詳細とコードサンプルについては、エントリのアスペクトを更新するをご覧ください。

BigQuery にデータを抽出する

SQL または自動パイプラインを使用して、推論されたエンティティとリレーションシップを BigQuery の構造化テーブルまたはビューにマテリアライズできます。

Google Cloud コンソールで、Knowledge Catalog の [検索] ページに移動します。

[検索] に移動
スキャンで生成されたオブジェクトテーブルを検索します。
検索結果で、表をクリックしてエントリページを開きます。
[分析情報] タブをクリックします。
[分析情報] タブで、[抽出] をクリックします。
分析のニーズと非構造化データの規模に基づいて、次のいずれかの方法を選択します。
- SQL で抽出: 迅速なアドホック分析、小規模から中規模のデータセット、または BigQuery リモートモデルを使用したインフラストラクチャ不要のアプローチが必要な場合は、このオプションを選択します。
  
  SQL を使用して抽出する手順は次のとおりです。
  1. [SQL で抽出] を選択します。
  2. [SQL で抽出] ペインで、宛先データセットを選択します。データセットは、ソースと同じロケーションに存在する必要があります。
  3. [Extract] をクリックします。
  4. BigQuery エディタで、ML.PROCESS_DOCUMENT 関数を利用するクエリが事前入力された状態で開きます。クエリを実行して、標準テーブルとビューを作成します。
  SQL を使用してドキュメントの分析情報を抽出する方法については、ML.PROCESS_DOCUMENT 関数を使用してドキュメントを処理するをご覧ください。
- パイプラインで抽出: 大規模なデータ処理を行う場合や、大量のドキュメントを処理するために堅牢な再試行ロジック、エラー処理、自動オーケストレーションが必要な場合は、このオプションを選択します。
  
  パイプラインを使用して抽出する手順は次のとおりです。
  1. [Extract by pipeline] を選択します。
  2. [パイプラインで抽出] ペインで、パイプラインの表示名を入力します。
  3. リージョンを選択します。
  4. 宛先データセットを選択します。データセットは、ソースと同じロケーションに存在する必要があります。
  5. [抽出] をクリックします。これにより、Dataform を使用してデータマテリアライズをオーケストレートする BigQuery パイプラインが作成されます。
  6. パイプライン内のすべてのタスクを実行して、構造化されたノードビューとエッジビューを生成します。
  データワークフローの実行の詳細については、Dataform の概要をご覧ください。

セマンティック分析情報を抽出して BigQuery にマテリアライズすると、次のタスクを実行できます。

構造化データをクエリします。新しく作成されたテーブルに対して標準 SQL クエリを実行して、抽出されたエンティティとリレーションシップを分析します。
既存のデータと結合します。非構造化ファイルから抽出した定性的な分析情報を、既存の構造化 BigQuery データセットと組み合わせます（解析済みの請求書データを会計テーブルと結合するなど）。
データ分析情報を確認します。BigQuery Studio のデータ分析情報機能を使用して、新しい構造化アセットの自然言語の質問と SQL クエリを自動的に生成します。
Gemini で分析します。BigQuery の Gemini を使用して、会話分析の実行、傾向の要約、抽出されたデータに基づくデータポータルでのダッシュボードの作成を行います。

非構造化データにデータ プロファイルを使用する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

始める前に

API を有効にする

必要なロールと権限

ベースライン オブジェクト テーブルのロール

セマンティック推論の追加ロール

追加の ID とロールの概要

エンドユーザーの役割と権限

必要な権限

Dataplex Discovery サービス エージェントのロールと権限

必要な権限

BigQuery 接続サービス アカウントのロールと権限

必要な権限

パイプライン実行サービス アカウントのロールと権限（省略可）

必要な権限

必要な権限

オブジェクト テーブルを準備する

非構造化データのデータ プロファイル スキャンを作成する

データ プロファイル スキャンの仕様パラメータ

例: 販売者の PDF から契約条件を抽出する

データ プロファイル スキャンを実行する

データ プロファイル スキャンの結果を確認する

コンソール

REST

推論された分析情報を更新する

REST

BigQuery にデータを抽出する

次のステップ

非構造化データにデータプロファイルを使用する

ベースラインオブジェクトテーブルのロール

Dataplex Discovery サービスエージェントのロールと権限

BigQuery 接続サービスアカウントのロールと権限

パイプライン実行サービスアカウントのロールと権限（省略可）

オブジェクトテーブルを準備する

非構造化データのデータプロファイルスキャンを作成する

データプロファイルスキャンの仕様パラメータ

データプロファイルスキャンを実行する

データプロファイルスキャンの結果を確認する