Knowledge Catalog(旧 Dataplex Universal Catalog)のデータ分析情報では、テーブルとデータセットのメタデータから説明、関係グラフ、SQL クエリが自動的に生成されます。この情報により、広範な手動設定を行わずに、データ構造、コンテンツ、関係をすばやく把握できます。詳しく調査するには、データ キャンバスでフォローアップの質問をします。
データ アナリストは、新しい不慣れなテーブルを探索するときに、クエリの作成をどのように開始するかというコールド スタートの問題に直面することがよくあります。この問題には、データ構造やデータ内のキーパターンに関する不確実性が伴うことがあります。 Knowledge Catalog のデータ分析情報機能を使用すると、データを自動的に探索して理解できます。これにより、パターンの検出、データ品質の評価、統計分析を行うことができます。
データ分析情報の仕組み
データ分析情報では、Gemini を使用してメタデータを分析し、次のものを生成します。
説明: データセットの目的、テーブルの構造、特定の列の詳細を説明する AI 生成の要約。
サンプルクエリ: データセットまたはテーブルのスキーマとコンテンツに合わせて特別に設計された SQL クエリ。
関係グラフ: データセット内の異なるテーブル間の接続と依存関係を示す可視化。
サポートされているリソース
データ分析情報は、次の構造化データ型で使用できます。
- BigQuery のデータセット、テーブル、ビュー
- BigLake テーブル(Apache Iceberg を含む)
- 外部テーブル
- Iceberg REST カタログ テーブル
分析情報の実行例
データ分析情報は、テーブルのメタデータに基づいて自然言語クエリとそれに対応する SQL の要素を自動的に生成します。
次のメタデータを持つ telco_churn というテーブルについて考えてみましょう。
| フィールド名 | タイプ |
|---|---|
| CustomerID | STRING |
| 性別 | STRING |
| Tenure | INT64 |
| InternetService | STRING |
| StreamingTV | STRING |
| OnlineBackup | STRING |
| 契約 | STRING |
| TechSupport | STRING |
| PaymentMethod | STRING |
| 月額料金 | FLOAT |
| チャーン | BOOLEAN |
データ分析情報によってこのテーブルに対して生成されるクエリのサンプルを次に示します。
すべてのプレミアム サービスを定期購入していて、50 か月以上定期購入している顧客を特定します。
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;解約した顧客が最も多いインターネット サービスを特定します。
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;価値の高い顧客のセグメント別解約率を特定します。
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
データ分析情報を生成するモード
データ分析情報を生成する場合、Knowledge Catalog には次の 2 つのモードがあります。
| モード | 説明 | 用途 |
|---|---|---|
| 生成して公開 |
生成されたデータ分析情報を Knowledge Catalog にメタデータ アスペクトとして保持します。公開するには、必要な権限が付与されている必要があります。 [生成して公開] を使用すると、次のアクションが行われます。
|
このモードは、永続化して再利用する必要がある全社的なデータ ドキュメント や、カタログ主導のガバナンス ワークフローを構築する場合に使用します。 |
| 公開せずに生成 |
説明、自然言語の質問、 SQL クエリなどのデータ分析情報をオンデマンドで作成します。[**公開せずに生成**] では、分析情報は Knowledge Catalog に公開されません。 |
このモードは、アドホックな探索をすばやく行う場合に使用し、カタログが煩雑になるのを防ぎます。 |
料金
この機能の料金の詳細については、Gemini in BigQuery の料金の概要をご覧ください。
割り当てと上限
この機能の割り当てと上限については、Gemini in BigQuery の割り当てをご覧ください。
ロケーション
データ分析情報は、すべての BigQuery ロケーションで使用できます。Gemini in BigQuery がデータを処理する場所については、 Gemini in BigQuery がデータを処理する場所をご覧ください。
制限事項
- マルチクラウドのお客様の場合、他のクラウドのデータは利用できません。
- データ分析情報は、
GeoまたはJSONの列タイプをサポートしていません。 - 分析情報の実行で、毎回クエリが表示されるとは限りません。関連性のより高いクエリが生成されやすくするには、BigQuery Studio で分析情報を再生成します。
次のステップ
- BigQuery で分析情報を生成する方法を学習する。
- データ プロファイリング スキャンを生成する方法を学習する。
- BigQuery で Gemini の支援機能を使用してクエリを作成する方法を学習する。