構造化データのデータ分析情報を使用する

このドキュメントでは、構造化データのデータ分析情報を生成、表示、管理する方法について説明します。AI を活用したデータ分析情報を使用すると、テーブルとデータセットのメタデータから説明、関係グラフ、SQL クエリが自動的に生成されるため、データ探索を迅速に行うことができます。

BigQuery Studio では、BigQuery データセット、テーブル、ビュー、BigLake テーブル、BigQuery 外部テーブルのデータ分析情報を生成できます。

Knowledge Catalog では、BigLake テーブルと Iceberg REST カタログ テーブルのデータ分析情報を生成できます。

始める前に

データ分析情報を使用する前に、次の前提条件を満たしていることを確認してください。

必要なロール

データ分析情報の使用に必要な権限を取得するには、次の IAM ロールを付与するよう管理者に依頼してください。

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

これらの事前定義ロールには、データ分析情報の使用に必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。

必要な権限

データ分析情報を使用するには、次の権限が必要です。

  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

カスタムロールや他の事前定義ロールを使用して、これらの権限を取得することもできます。

API を有効にする

データ分析情報を使用するには、プロジェクトで次の API を有効にします。

  • Dataplex API
  • BigQuery API
  • Gemini for Google Cloud API。

API を有効にするために必要なロール

API を有効にするには、serviceusage.services.enable 権限を含む Service Usage 管理者 IAM ロール(roles/serviceusage.serviceUsageAdmin)が必要です。詳しくは、ロールを付与する方法をご覧ください。

API を有効にする

Gemini for Google Cloud API の有効化の詳細については、 Google Cloud プロジェクトで Gemini for Google Cloud API を有効にするをご覧ください。

データの準備

BigLake テーブルの場合は、データが Cloud Storage にあり、BigLake テーブルが作成されていることを確認します。

Iceberg REST カタログ テーブルの場合は、テーブルが BigLake metastore に登録されていることを確認します。

BigQuery で分析情報を生成する

BigQuery データセット、テーブル、ビュー、BigLake テーブル、BigQuery 外部テーブルのデータ分析情報は、Gemini in BigQuery を使用して生成され、BigQuery Studio でのみ生成できます。

まず、Gemini in BigQuery を設定してから、分析情報を生成する必要があります。分析情報を生成したら、Knowledge Catalog で表示して変更できます。

BigQuery で分析情報を生成する方法については、次のドキュメントをご覧ください。

Iceberg REST カタログ テーブルの分析情報を生成する

  1. Google Cloud コンソールで、Knowledge Catalog の [検索] ページに移動します。

    [検索] に移動

  2. [フィルタ] で、[BigLake] を選択します。

  3. 分析情報を生成する Iceberg REST カタログ テーブルを選択します。

  4. [分析情報] タブをクリックします。タブが空の場合、このテーブルの分析情報はまだ生成されていません。

  5. 分析情報を生成してアスペクトとしてテーブルに永続的に関連付けるには、[生成して公開] をクリックします。これにより、分析情報がインデックス登録され、検索可能になり、Knowledge Catalog 内の組織内の他のユーザーに表示されるようになります。

    分析情報を生成して現在のセッション中に一時的に表示するには、[公開せずに生成] をクリックします。このオプションは、メタデータを Knowledge Catalog に保存せずに、データの簡単な分析のみが必要な場合に使用します。

    [生成して公開] モードと [公開せずに生成] モードの違いについては、データ分析情報を生成するモードをご覧ください。

  6. 分析情報を生成するリージョンを選択し、[生成] をクリックします。

    分析情報が生成されるまで数分かかります。

  7. [分析情報] タブをクリックして、次の内容を確認します。

    • 説明: AI によって生成された、テーブルの目的を説明し、特定の列を詳細に説明する要約です。
    • サンプルクエリ: データセットのスキーマとコンテンツに合わせて特別に設計された SQL クエリのリストです。
  8. 質問に回答する SQL クエリを表示するには、質問をクリックします。

リソースの生成された分析情報を確認する

リソースの生成された分析情報を表示する手順は次のとおりです。

  1. Google Cloud コンソールで、Knowledge Catalog の [検索] ページに移動します。

    [検索] に移動

  2. 分析情報を表示するリソースを検索します。

  3. 検索結果で、リソースをクリックしてエントリの詳細ページを開きます。

  4. 選択したリソースに対して生成された説明クエリを確認します。

  5. データポイントがどのように接続されているかを把握するために、関係グラフを表示するには、[関係(プレビュー)] タブをクリックします。リレーションシップは、データセット レベルではなく、テーブルレベルでのみ表示できます。

テーブルの分析情報を管理する

テーブルの分析情報を生成して公開すると、Knowledge Catalog でメタデータ アスペクトとして確認して管理できます。テーブルレベルの分析情報には、テーブルと列の説明、サンプルクエリが含まれます。

テーブルの生成された説明を更新する

テーブルと列の説明は、Dataplex API を使用してのみ更新できます。これを行うには、entries.patch メソッドを使用します。

テーブルの生成されたクエリを更新する

テーブル用に生成されたクエリは、 Google Cloud コンソールと Dataplex API の両方を使用して更新できます。

コンソール

  1. 生成されたクエリを更新するテーブルを検索します。

  2. 検索結果で、表をクリックしてエントリの詳細ページを開きます。

  3. [クエリ] セクションで、 [編集] をクリックします。

  4. 必要に応じてクエリの説明を更新します。

  5. 所有権の管理: デフォルトでは、[ソース] は [エージェント] に設定されています。クエリを変更してソースを [ユーザー] に変更すると、後続の分析情報生成実行で変更がオーバーライドされることはありません。ソースエージェントのままである場合、再生成中にクエリが置き換えられることがあります。

  6. オーバーライドを管理する: 再実行中にすべてのクエリがオーバーライドされないようにするには、[ユーザー管理] オプションを [True] に設定します。これは、そのメタデータ アスペクトのクエリのセット全体に適用され、手動で行った変更が失われないようにします。

REST

テーブルのクエリを更新するには、entries.patch メソッドを使用します。

テーブルの生成されたリレーションシップを更新する

関係を更新できるのは、Dataplex API を使用する場合のみです。これを行うには、entries.patch メソッドを使用します。

データセットの分析情報を管理する

データセット レベルの分析情報は、概要とデータセット全体のクエリに重点を置いています。

データセットの生成された説明を更新する

データセットの説明は、Dataplex API を使用してのみ更新できます。これを行うには、entries.patch メソッドを使用します。

データセットの生成されたクエリを更新する

データセットの生成されたクエリは、 Google Cloud コンソールと Dataplex API の両方を使用して更新できます。

コンソール

  1. 生成されたクエリを更新するデータセットを検索します。

  2. 検索結果で、データセットをクリックしてエントリの詳細ページを開きます。

  3. [クエリ] セクションで、 [編集] をクリックします。

  4. 必要に応じて説明を更新します。

  5. 所有権の管理: デフォルトでは、[ソース] は [エージェント] に設定されています。クエリを変更してソースを [ユーザー] に変更すると、後続の分析情報生成実行で変更がオーバーライドされることはありません。ソースエージェントのままである場合、再生成中にクエリが置き換えられることがあります。

  6. オーバーライドを管理する: 再実行中にすべてのクエリがオーバーライドされないようにするには、[ユーザー管理] オプションを [True] に設定します。これは、そのメタデータ アスペクトのクエリのセット全体に適用され、手動で行った変更が失われないようにします。

REST

データセットのクエリを更新するには、entries.patch メソッドを使用します。

次のステップ