データセットの分析情報を生成する
このドキュメントでは、BigQuery データセットのデータセット分析情報を生成する方法について説明します。データセットの分析情報は、関係グラフとテーブル間クエリを生成することで、データセット内のテーブル間の関係を把握するのに役立ちます。
データセットの分析情報は、複数のテーブルを含むデータセットの探索を迅速化するのに役立ちます。テーブル間の関係を自動的に検出してグラフで可視化し、主キーと外部キーの関係を特定して、テーブル間のクエリのサンプルを生成します。これは、ドキュメントなしでデータ構造を理解したり、スキーマ定義、使用状況ベース、AI 推論によるテーブル間の関係を検出したり、複数のテーブルを結合する複雑なクエリを生成したりするのに役立ちます。
テーブルとデータセットの分析情報の概要については、データ分析情報の概要をご覧ください。
始める前に
データ分析情報は Gemini in BigQuery を使用して生成されます。分析情報の生成を開始するには、まず Gemini in BigQuery を設定する必要があります。
API を有効にする
データ分析情報を使用するには、プロジェクトで Dataplex API、BigQuery API、Gemini for Google Cloud API を有効にします。
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin), which
contains the serviceusage.services.enable permission. Learn how to grant
roles.
Gemini for Google Cloud API の有効化の詳細については、 Google Cloud プロジェクトで Gemini for Google Cloud API を有効にするをご覧ください。
データ プロファイル スキャンを完了する
分析情報の品質を向上させるには、データセット内のテーブルのデータ プロファイリングの結果を生成します。
必要なロール
データセットの分析情報の生成、管理、取得に必要な権限を取得するには、次の IAM ロールを付与するよう管理者に依頼してください。
-
分析情報を生成、管理、取得するには:
-
プロジェクトに対する Dataplex DataScan 編集者(
roles/dataplex.dataScanEditor)または Dataplex DataScan 管理者(roles/dataplex.dataScanAdmin) -
テーブルに対する BigQuery データ編集者 (
roles/bigquery.dataEditor) -
プロジェクトに対する BigQuery ユーザー(
roles/bigquery.user)または BigQuery Studio ユーザー(roles/bigquery.studioUser)。
-
プロジェクトに対する Dataplex DataScan 編集者(
-
分析情報を表示する手順は次のとおりです。
-
プロジェクトに対する Dataplex DataScan データ閲覧者 (
roles/dataplex.dataScanDataViewer) -
データセットに対する BigQuery データ閲覧者 (
roles/bigquery.dataViewer)
-
プロジェクトに対する Dataplex DataScan データ閲覧者 (
ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
分析情報を生成するために必要な正確な権限については、「必要な権限」セクションを開いてください。
必要な権限
bigquery.datasets.get: データセットのメタデータを読み取るbigquery.jobs.create: ジョブを作成するbigquery.tables.get: テーブルのメタデータを取得するbigquery.tables.getData: テーブルのデータとメタデータを取得するdataplex.datascans.create: DataScan リソースを作成するdataplex.datascans.get: DataScan リソース メタデータを読み取るdataplex.datascans.getData: DataScan 実行結果を読み取るdataplex.datascans.run: オンデマンド DataScan を実行する
データセットの分析情報を生成する
Google Cloud コンソールで、[BigQuery Studio] に移動します。
[エクスプローラ] ペインで、プロジェクトと、分析情報を生成するデータセットを選択します。
[分析情報] タブをクリックします。
[生成] をクリックします。
データセットがマルチリージョンにある場合は、分析情報を生成するリージョンを選択するよう求められることがあります。分析情報のスキャンを作成するマルチリージョンに対応するリージョンを選択します。
分析情報が生成されるまで数分かかります。データセット内のテーブルにデータ プロファイリングの結果が含まれている場合、分析情報の品質が向上します。
分析情報が生成されると、BigQuery にデータセットの説明、関係グラフ、関係テーブル、テーブル間のクエリのサンプルが表示されます。
データセットの説明を表示して保存する
Gemini は、データセットの自然言語の説明を生成し、データセットに含まれるテーブルの種類と、データセットが表すビジネス ドメインを要約します。この説明をデータセットのメタデータに保存するには、[詳細に保存] をクリックします。
説明は、詳細を保存する前に編集できます。
関係グラフを確認する
[リレーションシップ] グラフには、データセット内のテーブル間の関連性が視覚的に表示されます。最も関連性の高い上位 10 個のテーブルがノードとして表示され、それらの関係が線で表されます。
- 2 つのテーブルを結合する列など、リレーションシップの詳細を表示するには、テーブルノードを接続するエッジにカーソルを合わせます。
- グラフを見やすくするために、テーブルノードをドラッグしてグラフを再配置します。
リレーションシップ テーブルを使用する
関係テーブルには、検出された関係が表形式で一覧表示されます。各行は 2 つのテーブル間の関係を表し、ソーステーブルと列、宛先テーブルと列を示します。[Source] 列には、関係がどのように決定されたかが示されます。
- LLM が推論しました。データセット全体のテーブル名、列名、説明に基づいて Gemini が推測したリレーション。
- 使用量ベース。頻繁な結合に基づいて、クエリログから抽出された関係。
- スキーマ定義。テーブル スキーマ内の既存の主キーと外部キーのマッピングから派生した関係。
特定のテーブルの関係をフィルタしたり、検出された関係の品質に関するフィードバックを提供したりできます。生成されたデータセットの説明とリレーションシップを JSON ファイルにエクスポートするには、[JSON にエクスポート] をクリックします。
クエリの推奨事項を使用する
Gemini は、検出された関係に基づいてサンプルクエリを生成します。これらは、データセット内の複数のテーブルを結合する対応する SQL クエリを含む自然言語の質問です。
SQL クエリを表示するには、質問をクリックします。
BigQuery クエリエディタでクエリを開くには、[クエリにコピー] をクリックします。その後、クエリを実行するか、変更します。
フォローアップの質問をするには、[追加で質問する] をクリックします。これにより、無題のデータ キャンバスが開きます。ここで Gemini とチャットしてデータを調べることができます。
次のステップ
- データ分析情報の概要について学習する。
- テーブルの分析情報を生成する方法を学習する。
- Dataplex Universal Catalog データ プロファイリングの詳細を学習する。