Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

構造化データのデータ分析情報について

Knowledge Catalog（旧称 Dataplex Universal Catalog）のデータ分析情報は、テーブルとデータセットのメタデータから説明、関係グラフ、SQL クエリを自動的に生成します。この情報により、広範な手動設定を行わなくても、データ構造、コンテンツ、関係をすばやく理解できます。詳しく調査するには、データキャンバスでフォローアップの質問をします。

データアナリストは、新しい不慣れなテーブルを探索するときに、クエリの作成をどのように開始するかというコールドスタートの問題に直面することがよくあります。この問題には、データ構造やデータ内のキーパターンに関する不確実性が伴うことがあります。Knowledge Catalog のデータ分析情報機能を使用すると、データを自動的に探索して理解できます。これにより、パターンの検出、データ品質の評価、統計分析を行うことができます。

概要

データ分析情報は Gemini を使用してメタデータを分析し、次のものを生成します。

説明: データセットの目的、テーブルの構造、特定の列の詳細を説明する AI 生成の要約。
サンプルクエリ: データセットまたはテーブルのスキーマとコンテンツに合わせて特別に設計された SQL クエリ。
関係グラフ: データセット内のさまざまなテーブル間の接続と依存関係を示す可視化。

サポートされているリソース

データ分析は、次の構造化データ型で使用できます。

BigQuery のデータセット、テーブル、ビュー
Google Cloud Lakehouse テーブル（Apache Iceberg を含む）
外部テーブル
Iceberg REST カタログテーブル

分析情報の実行例

データ分析情報は、テーブルのメタデータに基づいて自然言語クエリとそれに対応する SQL の要素を自動的に生成します。

次のメタデータを持つ telco_churn というテーブルについて考えてみましょう。

フィールド名	型
CustomerID	`STRING`
性別	`STRING`
Tenure	`INT64`
InternetService	`STRING`
StreamingTV	`STRING`
OnlineBackup	`STRING`
契約	`STRING`
TechSupport	`STRING`
PaymentMethod	`STRING`
月額料金	`FLOAT`
チャーン	`BOOLEAN`

データ分析情報によってこのテーブルに対して生成されるクエリのサンプルを次に示します。

すべてのプレミアムサービスを定期購入していて、50 か月以上定期購入している顧客を特定します。

SELECT
  CustomerID,
  Contract,
  Tenure
FROM
  agentville_datasets.telco_churn
WHERE
  OnlineBackup = 'Yes'
  AND TechSupport = 'Yes'
  AND StreamingTV = 'Yes'
  AND Tenure > 50;

解約した顧客が最も多いインターネットサービスを特定します。

SELECT
  InternetService,
  COUNT(DISTINCT CustomerID) AS total_customers
FROM
  agentville_datasets.telco_churn
WHERE
  Churn = TRUE
GROUP BY
  InternetService
ORDER BY
  total_customers DESC
LIMIT 1;

価値の高い顧客のセグメント別解約率を特定します。

SELECT
  Contract,
  InternetService,
  Gender,
  PaymentMethod,
  COUNT(DISTINCT CustomerID) AS total_customers,
  SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
  (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
  * 100 AS churn_rate
FROM
  agentville_datasets.telco_churn
WHERE
  MonthlyCharges > 100
GROUP BY
  Contract,
  InternetService,
  Gender,
  PaymentMethod;

データ分析情報を生成するモード

データ分析情報を生成する場合、Knowledge Catalog には次の 2 つのモードがあります。

モード	説明	用途
生成して公開する	生成されたデータ分析情報をメタデータアスペクトとして Knowledge Catalog で保持します。公開するには、必要な権限が付与されている必要があります。[生成して公開] を使用すると、次のアクションが行われます。テーブルと列の説明を Knowledge Catalog に保存します。クエリと質問の候補を再利用可能なアスペクトとしてキャプチャします。公開された分析情報に、適切な Knowledge Catalog アクセス権を持つすべてのユーザーがアクセスできるようにし、組織で知識を共有できるようにします。 Knowledge Catalog で説明を直接編集して保存できます。	このモードは、永続化して再利用可能な全社的なデータドキュメントや、カタログ主導のガバナンスワークフローを構築する場合に使用します。
公開せずに生成	説明、自然言語の質問、SQL クエリなどのデータ分析情報をオンデマンドで作成します。[公開せずに生成] を選択すると、分析情報は Knowledge Catalog に公開されません。	このモードは、アドホックな探索をすばやく行う場合に使用し、カタログが煩雑になるのを防ぎます。

モード

説明

用途

生成して公開する

生成されたデータ分析情報をメタデータアスペクトとして Knowledge Catalog で保持します。公開するには、必要な権限が付与されている必要があります。[生成して公開] を使用すると、次のアクションが行われます。

テーブルと列の説明を Knowledge Catalog に保存します。
クエリと質問の候補を再利用可能なアスペクトとしてキャプチャします。
公開された分析情報に、適切な Knowledge Catalog アクセス権を持つすべてのユーザーがアクセスできるようにし、組織で知識を共有できるようにします。
Knowledge Catalog で説明を直接編集して保存できます。

このモードは、永続化して再利用可能な全社的なデータドキュメントや、カタログ主導のガバナンスワークフローを構築する場合に使用します。

公開せずに生成

説明、自然言語の質問、SQL クエリなどのデータ分析情報をオンデマンドで作成します。[公開せずに生成] を選択すると、分析情報は Knowledge Catalog に公開されません。

このモードは、アドホックな探索をすばやく行う場合に使用し、カタログが煩雑になるのを防ぎます。

料金

この機能の料金の詳細については、Gemini in BigQuery の料金の概要をご覧ください。

ロケーション

データ分析情報は、すべての BigQuery ロケーションで使用できます。Gemini in BigQuery がデータを処理する場所については、Gemini in BigQuery がデータを処理する場所をご覧ください。

制限事項

マルチクラウドのお客様の場合、他のクラウドのデータは利用できません。
データ分析情報は、Geo または JSON の列タイプをサポートしていません。
分析情報の実行で、毎回クエリが表示されるとは限りません。関連性のより高いクエリが生成されやすくするには、BigQuery Studio で分析情報を再生成します。

次のステップ

BigQuery で分析情報を生成する方法を学習する。
データプロファイリングスキャンを生成する方法を学習する。
BigQuery で Gemini の支援機能を使用してクエリを作成する方法を学習する。