Knowledge Catalog (前身為 Dataplex Universal Catalog) 資料深入分析功能會根據資料表和資料集的中繼資料,自動生成說明、關係圖和 SQL 查詢。這項資訊可協助您快速瞭解資料結構、內容和關係,不必手動進行大量設定。如要進一步調查,可以在資料畫布中提出後續問題。
探索不熟悉的新資料表時,資料分析師經常會遇到不知如何開始編寫查詢的冷啟動問題。問題可能涉及資料結構和資料中的重要模式。 Knowledge Catalog 的資料洞察功能提供自動化方式,可探索及瞭解資料。這有助於發掘模式、評估資料品質,以及執行統計分析。
資料洞察的運作方式
資料洞察功能會使用 Gemini 分析中繼資料,並生成下列內容:
說明:AI 生成的摘要,說明資料集的目的、資料表結構,以及特定資料欄的詳細資料。
範例查詢:專為資料集或資料表的結構定義和內容設計的 SQL 查詢。
關係圖:以視覺化方式呈現資料集中不同資料表之間的連結和依附關係。
支援的資源
資料洞察適用於下列結構化資料類型:
- BigQuery 資料集、資料表和檢視
- BigLake 資料表 (包括 Apache Iceberg)
- 外部資料表
- Iceberg REST 目錄資料表
洞察資料執行範例
資料洞察會根據資料表的中繼資料,自動生成自然語言查詢及其對應的 SQL。
假設有一個名為 telco_churn 的資料表,其中繼資料如下:
| 欄位名稱 | 類型 |
|---|---|
| CustomerID | STRING |
| 性別 | STRING |
| 年資 | INT64 |
| InternetService | STRING |
| StreamingTV | STRING |
| OnlineBackup | STRING |
| 合約 | STRING |
| TechSupport | STRING |
| PaymentMethod | STRING |
| MonthlyCharges | FLOAT |
| 流失 | BOOLEAN |
以下是資料洞察功能為這個資料表產生的一些查詢範例:
找出訂閱所有進階服務,且成為顧客超過 50 個月的訂閱者。
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;找出流失最多顧客的網際網路服務。
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;找出高價值顧客的區隔流失率。
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
產生資料洞察的模式
產生資料洞察時,Knowledge Catalog 提供兩種模式:
| 模式 | 說明 | 用量 |
|---|---|---|
| 生成並發布 |
將產生的資料洞察資訊以中繼資料切面形式,保存至 Knowledge Catalog。您必須具備發布所需的權限。使用「產生並發布」時,系統會執行下列動作:
|
如要建立可重複使用的企業級資料文件,或是建構以目錄為基礎的治理工作流程,請使用這個模式。 |
| 生成但不發布 |
可依需求建立資料洞察,例如說明、自然語言問題和 SQL 查詢。「生成但不發布」不會將洞察資訊發布至 Knowledge Catalog。 |
使用這個模式進行快速的臨時探索,避免目錄雜亂。 |
定價
如要瞭解這項功能的定價詳情,請參閱 Gemini in BigQuery 定價總覽。
配額與限制
如要瞭解這項功能的配額和限制,請參閱「Gemini in BigQuery 的配額」。
位置
您可以在所有 BigQuery 位置使用資料洞察。如要瞭解 Gemini in BigQuery 在何處處理資料,請參閱「Gemini in BigQuery 在何處處理資料」。
限制
- 如果是多雲端客戶,則無法使用其他雲端的資料。
- 資料洞察不支援
Geo或JSON欄類型。 - 洞察資料執行作業不保證每次都會顯示查詢。如要提高生成更吸引人查詢的機率,請在 BigQuery Studio 中重新生成洞察資料。
後續步驟
- 瞭解如何在 BigQuery 中產生洞察。
- 瞭解如何生成資料剖析掃描。
- 瞭解如何在 BigQuery 中透過 Gemini 輔助撰寫查詢。