構造化データのデータ分析情報について

Knowledge Catalog(旧 Dataplex Universal Catalog)のデータ分析情報では、テーブルとデータセットのメタデータから説明、関係グラフ、SQL クエリが自動的に生成されます。この情報により、広範な手動設定を行わずに、データ構造、コンテンツ、関係をすばやく把握できます。詳しく調査するには、データ キャンバスでフォローアップの質問をします。

データ アナリストは、新しい不慣れなテーブルを探索するときに、クエリの作成をどのように開始するかというコールド スタートの問題に直面することがよくあります。この問題には、データ構造やデータ内のキーパターンに関する不確実性が伴うことがあります。 Knowledge Catalog のデータ分析情報機能を使用すると、データを自動的に探索して理解できます。これにより、パターンの検出、データ品質の評価、統計分析を行うことができます。

データ分析情報の仕組み

データ分析情報では、Gemini を使用してメタデータを分析し、次のものを生成します。

  • 説明: データセットの目的、テーブルの構造、特定の列の詳細を説明する AI 生成の要約。

  • サンプルクエリ: データセットまたはテーブルのスキーマとコンテンツに合わせて特別に設計された SQL クエリ。

  • 関係グラフ: データセット内の異なるテーブル間の接続と依存関係を示す可視化。

サポートされているリソース

データ分析情報は、次の構造化データ型で使用できます。

  • BigQuery のデータセット、テーブル、ビュー
  • BigLake テーブル(Apache Iceberg を含む)
  • 外部テーブル
  • Iceberg REST カタログ テーブル

分析情報の実行例

データ分析情報は、テーブルのメタデータに基づいて自然言語クエリとそれに対応する SQL の要素を自動的に生成します。

次のメタデータを持つ telco_churn というテーブルについて考えてみましょう。

フィールド名 タイプ
CustomerID STRING
性別 STRING
Tenure INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
契約 STRING
TechSupport STRING
PaymentMethod STRING
月額料金 FLOAT
チャーン BOOLEAN

データ分析情報によってこのテーブルに対して生成されるクエリのサンプルを次に示します。

  • すべてのプレミアム サービスを定期購入していて、50 か月以上定期購入している顧客を特定します。

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • 解約した顧客が最も多いインターネット サービスを特定します。

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • 価値の高い顧客のセグメント別解約率を特定します。

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

データ分析情報を生成するモード

データ分析情報を生成する場合、Knowledge Catalog には次の 2 つのモードがあります。

モード 説明 用途
生成して公開

生成されたデータ分析情報を Knowledge Catalog にメタデータ アスペクトとして保持します。公開するには、必要な権限が付与されている必要があります。 [生成して公開] を使用すると、次のアクションが行われます。

  • テーブルと列の説明を Knowledge Catalog に保存します。
  • クエリと質問の提案を、再利用可能な アスペクトとしてキャプチャします。
  • 公開された分析情報を、適切な Knowledge Catalog アクセス権を持つすべてのユーザーがアクセスできるようにし、 組織で知識を共有できるようにします。
  • Knowledge Catalog 内で説明を直接編集して保存できます。

このモードは、永続化して再利用する必要がある全社的なデータ ドキュメント や、カタログ主導のガバナンス ワークフローを構築する場合に使用します。

公開せずに生成

説明、自然言語の質問、 SQL クエリなどのデータ分析情報をオンデマンドで作成します。[**公開せずに生成**] では、分析情報は Knowledge Catalog に公開されません。

このモードは、アドホックな探索をすばやく行う場合に使用し、カタログが煩雑になるのを防ぎます。

料金

この機能の料金の詳細については、Gemini in BigQuery の料金の概要をご覧ください。

割り当てと上限

この機能の割り当てと上限については、Gemini in BigQuery の割り当てをご覧ください。

ロケーション

データ分析情報は、すべての BigQuery ロケーションで使用できます。Gemini in BigQuery がデータを処理する場所については、 Gemini in BigQuery がデータを処理する場所をご覧ください。

制限事項

  • マルチクラウドのお客様の場合、他のクラウドのデータは利用できません。
  • データ分析情報は、Geo または JSON の列タイプをサポートしていません。
  • 分析情報の実行で、毎回クエリが表示されるとは限りません。関連性のより高いクエリが生成されやすくするには、BigQuery Studio で分析情報を再生成します。

次のステップ