Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

構造化データのデータ分析情報を使用する

このドキュメントでは、構造化データのデータ分析情報を生成、表示、管理する方法について説明します。AI を活用したデータ分析情報を使用すると、テーブルとデータセットのメタデータから説明、リレーションシップグラフ、SQL クエリが自動的に生成されるため、データ探索を迅速に行うことができます。

BigQuery Studio では、BigQuery データセット、テーブル、ビュー、 Google Cloud Lakehouse テーブル、BigQuery 外部テーブルのデータ分析情報を生成できます。

Knowledge Catalog では、Lakehouse Iceberg REST カタログテーブルのデータ分析情報を生成できます。

始める前に

データ分析情報を使用する前に、次の前提条件を満たしていることを確認してください。

必要なロール

データ分析情報の使用に必要な権限を取得するには、次の IAM ロールを付与するよう管理者に依頼してください。

生成された分析情報への読み取り専用アクセス権を取得する: リソースを含むプロジェクトに対する Dataplex DataScan データ閲覧者（roles/dataplex.dataScanDataViewer）
Iceberg REST カタログテーブルデータの読み取り: リソースに対する BigLake 閲覧者（roles/biglake.viewer）
説明をアスペクトとして公開する: リソースに対する Dataplex Catalog 編集者（roles/dataplex.catalogEditor）
クエリをアスペクトとして公開する: リソースに対する Dataplex エントリ / エントリリンクオーナー（roles/dataplex.entryOwner）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

これらの事前定義ロールには、データ分析情報の使用に必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。

必要な権限

データ分析情報を使用するには、次の権限が必要です。

dataplex.datascans.create
dataplex.datascans.get
dataplex.datascans.getData
dataplex.datascans.run

カスタムロールや他の事前定義ロールを使用して、これらの権限を取得することもできます。

API を有効にする

データ分析情報を使用するには、プロジェクトで次の API を有効にします。

Dataplex API
BigQuery API
Gemini for Google Cloud API

API を有効にするために必要なロール

API を有効にするには、serviceusage.services.enable 権限を含む Service Usage 管理者 IAM ロール（roles/serviceusage.serviceUsageAdmin）が必要です。詳しくは、ロールを付与する方法をご覧ください。

API を有効にする

Gemini for Google Cloud API の有効化の詳細については、 Google Cloud プロジェクトで Gemini for Google Cloud API を有効にするをご覧ください。

データの準備

Google Cloud Lakehouse テーブルの場合は、データが Cloud Storage にあり、 Google Cloud Lakehouse テーブルが作成されていることを確認します。

Iceberg REST Catalog テーブルの場合は、テーブルが Lakehouse ランタイムカタログに登録されていることを確認します。

BigQuery で分析情報を生成する

BigQuery データセット、テーブル、ビュー、Google Cloud Lakehouse テーブル、BigQuery 外部テーブルのデータ分析情報は、Gemini in BigQuery を使用して生成され、BigQuery Studio でのみ生成できます。

まず、Gemini in BigQuery を設定してから、分析情報を生成する必要があります。分析情報を生成したら、Knowledge Catalog で表示して変更できます。

BigQuery で分析情報を生成する方法については、次のドキュメントをご覧ください。

Iceberg REST カタログテーブルの分析情報を生成する

Google Cloud コンソールで、Knowledge Catalog の [検索] ページに移動します。

[検索] に移動
[フィルタ] で、[Lakehouse] を選択します。
分析情報を生成する Iceberg REST カタログテーブルを選択します。
[分析情報] タブをクリックします。タブが空の場合、このテーブルの分析情報はまだ生成されていません。
分析情報を生成してアスペクトとしてテーブルに永続的に関連付けるには、[生成して公開] をクリックします。これにより、分析情報がインデックス登録され、検索可能になり、Knowledge Catalog 内の組織内の他のユーザーに表示されるようになります。

分析情報を生成して現在のセッション中に一時的に表示するには、[公開せずに生成] をクリックします。このオプションは、メタデータを Knowledge Catalog に保存せずに、データの簡単な分析のみが必要な場合に使用します。

[生成して公開] モードと [公開せずに生成] モードの違いについては、データ分析情報を生成するモードをご覧ください。
分析情報を生成するリージョンを選択し、[生成] をクリックします。

分析情報が生成されるまで数分かかります。
[分析情報] タブをクリックして、次の内容を確認します。
- 説明: AI によって生成された、テーブルの目的を説明し、特定の列を詳細に説明する要約です。
- サンプルクエリ: データセットのスキーマとコンテンツに合わせて特別に設計された SQL クエリのリストです。
質問に回答する SQL クエリを表示するには、質問をクリックします。

リソースの生成された分析情報を確認する

リソースの生成された分析情報を表示する手順は次のとおりです。

Google Cloud コンソールで、Knowledge Catalog の [検索] ページに移動します。

[検索] に移動
分析情報を表示するリソースを検索します。
検索結果で、リソースをクリックしてエントリの詳細ページを開きます。
選択したリソースに対して生成された説明とクエリを確認します。
データポイントがどのように接続されているかを把握するために、関係グラフを表示するには、[関係（プレビュー）] タブをクリックします。リレーションシップは、データセットレベルではなく、テーブルレベルでのみ表示できます。

テーブルの分析情報を管理する

テーブルの分析情報を生成して公開すると、Knowledge Catalog でメタデータアスペクトとして確認して管理できます。テーブルレベルの分析情報には、テーブルと列の説明、サンプルクエリが含まれます。

テーブルの生成された説明を更新する

テーブルと列の説明は、Dataplex API を使用してのみ更新できます。これを行うには、entries.patch メソッドを使用します。

テーブルの生成されたクエリを更新する

テーブル用に生成されたクエリは、 Google Cloud コンソールと Dataplex API の両方を使用して更新できます。

コンソール

生成されたクエリを更新するテーブルを検索します。
検索結果で、表をクリックしてエントリの詳細ページを開きます。
[クエリ] セクションで、 [編集] をクリックします。
必要に応じてクエリの説明を更新します。
所有権の管理: デフォルトでは、[ソース] は [エージェント] に設定されています。クエリを変更してソースを [ユーザー] に変更すると、後続の分析情報生成実行で変更がオーバーライドされることはありません。ソースがエージェントのままである場合、再生成中にクエリが置き換えられることがあります。
オーバーライドを管理する: 再実行中にすべてのクエリがオーバーライドされないようにするには、[ユーザー管理] オプションを [True] に設定します。これは、そのメタデータアスペクトのクエリのセット全体に適用され、手動で行った変更が失われないようにします。

REST

テーブルのクエリを更新するには、entries.patch メソッドを使用します。

テーブルの生成されたリレーションシップを更新する

関係を更新できるのは、Dataplex API を使用する場合のみです。これを行うには、entries.patch メソッドを使用します。

データセットの分析情報を管理する

データセットレベルの分析情報は、概要とデータセット全体のクエリに重点を置いています。

データセットの生成された説明を更新する

データセットの説明は、Dataplex API を使用してのみ更新できます。これを行うには、entries.patch メソッドを使用します。

データセットの生成されたクエリを更新する

データセットの生成されたクエリは、 Google Cloud コンソールと Dataplex API の両方を使用して更新できます。

コンソール

生成されたクエリを更新するデータセットを検索します。
検索結果で、データセットをクリックしてエントリの詳細ページを開きます。
[クエリ] セクションで、 [編集] をクリックします。
必要に応じて説明を更新します。
所有権の管理: デフォルトでは、[ソース] は [エージェント] に設定されています。クエリを変更してソースを [ユーザー] に変更すると、後続の分析情報生成実行で変更がオーバーライドされることはありません。ソースがエージェントのままである場合、再生成中にクエリが置き換えられることがあります。
オーバーライドを管理する: 再実行中にすべてのクエリがオーバーライドされないようにするには、[ユーザー管理] オプションを [True] に設定します。これは、そのメタデータアスペクトのクエリのセット全体に適用され、手動で行った変更が失われないようにします。

REST

データセットのクエリを更新するには、entries.patch メソッドを使用します。

データセットの生成されたエントリリンクを更新する

データ分析によって検出されたリレーションシップは、テーブルエントリ間のエントリリンクとして保存されます。これらのリンクには、テーブルの接続方法を記述する schema-join アスペクトが含まれています。

これらの関係を編集したり、手動でオーバーライドしたりするには、Dataplex API を使用する必要があります。

エントリリンクの更新動作

API を使用して関係を管理する場合は、手動の API 更新が自動バックグラウンドスキャンとどのように連携するかを理解して、データを誤って上書きしないようにすることが重要です。

手動更新（API レベルの動作）: UpdateEntryLink API は PATCH メソッドを使用してアスペクトレベルの置換を行います。
- アスペクトの完全な置換: 更新リクエストに schema-join アスペクトを含めると、Knowledge Catalog は既存のアスペクト全体を、指定した新しいアスペクトに置き換えます。
- 自動マージなし: API は、新しいエントリを内部 joins リストに自動的にマージしません。結合を 1 つだけ含むペイロードを送信すると、そのアスペクト内の以前に存在した結合はすべて削除されます。
警告: API を使用して既存の関係を維持しながら新しい関係を追加するには、まず現在の schema-join アスペクトを取得し、既存のすべての結合を更新リクエストの本文に含める必要があります。
自動スキャン（システムレベルの動作）: データ分析情報などの自動スキャンでは、API を呼び出す前に特別なマージロジックを実行し、ソースに基づいて確実性の高いメタデータが保持されるようにします。
- ソースの優先度: 複数のソースが同じ関係を特定した場合、Knowledge Catalog は次の順序で優先順位を付けます。
  1. USER（手動編集）
  2. TABLE_CONSTRAINTS
  3. QUERY_HISTORY
  4. AGENT（LLM の候補）
- LLM の鮮度: AGENT ソースから派生した関係は動的です。その後のスキャンで関係が推奨されなくなった場合は、削除されます。

エントリリンクを更新する

エントリリンクを表示して変更する手順は次のとおりです。

エントリリンクを特定します。

関係を更新する前に、特定のテーブルエントリを含むすべてのエントリリンクを一覧表示して、リソース名を見つけます。
```
gcurl -X GET "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks?filter=entry_references.name=\"TABLE_ENTRY_NAME\""
```
次のように置き換えます。
- PROJECT_ID: Google Cloudの ID
- LOCATION: データスキャンがトリガーされるリージョン
- TABLE_ENTRY_NAME: BigQuery テーブルエントリの完全なリソース名（例: bigquery.googleapis.com/projects/my-project/datasets/my_dataset/tables/my_table）

エントリのリンクを更新します。

ターゲットエントリリンクの schema-join アスペクトを変更するには、PATCH メソッドを使用します。

gcurl -X PATCH "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks/ENTRYLINK_ID?aspectKeys=dataplex-types.global.schema-join" \
-d '{
  "aspects": {
    "dataplex-types.global.schema-join": {
      "data": {
        "joins": [
          {
            "source": { "name": "PROJECT_ID.DATASET_ID.SOURCE_TABLE", "fields": ["SOURCE_FIELD"] },
            "target": { "name": "PROJECT_ID.DATASET_ID.TARGET_TABLE", "fields": ["TARGET_FIELD"] },
            "type": "JOIN",
            "inferenceSource": "USER"
          }
        ],
        "userManaged": false 
      }
    }
  }
}'

次のように置き換えます。

ENTRYLINK_ID: 前の識別ステップで取得したエントリリンクの ID
DATASET_ID: BigQuery データセットの ID
SOURCE_TABLE: ソーステーブルの名前
SOURCE_FIELD: ソーステーブルの結合に使用される列名
TARGET_TABLE: ターゲットテーブルの名前
TARGET_FIELD: ターゲットテーブルの結合に使用される列名

次のステップ

詳しくは、構造化データのデータ分析情報をご覧ください。
非構造化データの分析情報を生成する方法を学習する。

構造化データのデータ分析情報を使用する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

始める前に

必要なロール

必要な権限

API を有効にする

データの準備

BigQuery で分析情報を生成する

Iceberg REST カタログ テーブルの分析情報を生成する

リソースの生成された分析情報を確認する

テーブルの分析情報を管理する

テーブルの生成された説明を更新する

テーブルの生成されたクエリを更新する

コンソール

REST

テーブルの生成されたリレーションシップを更新する

データセットの分析情報を管理する

データセットの生成された説明を更新する

データセットの生成されたクエリを更新する

コンソール

REST

データセットの生成されたエントリ リンクを更新する

エントリ リンクの更新動作

エントリリンクを更新する

次のステップ

構造化データのデータ分析情報を使用する

Iceberg REST カタログテーブルの分析情報を生成する

データセットの生成されたエントリリンクを更新する

エントリリンクの更新動作