關於結構化資料的資料洞察

Knowledge Catalog (前身為 Dataplex Universal Catalog) 資料深入分析功能會根據資料表和資料集的中繼資料,自動生成說明、關係圖和 SQL 查詢。這項資訊可協助您快速瞭解資料結構、內容和關係,不必手動進行大量設定。如要進一步調查,可以在資料畫布中提出後續問題。

探索不熟悉的新資料表時,資料分析師經常會遇到不知如何開始編寫查詢的冷啟動問題。問題可能涉及資料結構和資料中的重要模式。 Knowledge Catalog 的資料洞察功能提供自動化方式,可探索及瞭解資料。這有助於發掘模式、評估資料品質,以及執行統計分析。

資料洞察的運作方式

資料洞察功能會使用 Gemini 分析中繼資料,並生成下列內容:

  • 說明:AI 生成的摘要,說明資料集的目的、資料表結構,以及特定資料欄的詳細資料。

  • 範例查詢:專為資料集或資料表的結構定義和內容設計的 SQL 查詢。

  • 關係圖:以視覺化方式呈現資料集中不同資料表之間的連結和依附關係。

支援的資源

資料洞察適用於下列結構化資料類型:

  • BigQuery 資料集、資料表和檢視
  • BigLake 資料表 (包括 Apache Iceberg)
  • 外部資料表
  • Iceberg REST 目錄資料表

洞察資料執行範例

資料洞察會根據資料表的中繼資料,自動生成自然語言查詢及其對應的 SQL。

假設有一個名為 telco_churn 的資料表,其中繼資料如下:

欄位名稱 類型
CustomerID STRING
性別 STRING
年資 INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
合約 STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
流失 BOOLEAN

以下是資料洞察功能為這個資料表產生的一些查詢範例:

  • 找出訂閱所有進階服務,且成為顧客超過 50 個月的訂閱者。

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • 找出流失最多顧客的網際網路服務。

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • 找出高價值顧客的區隔流失率。

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

產生資料洞察的模式

產生資料洞察時,Knowledge Catalog 提供兩種模式:

模式 說明 用量
生成並發布

將產生的資料洞察資訊以中繼資料切面形式,保存至 Knowledge Catalog。您必須具備發布所需的權限。使用「產生並發布」時,系統會執行下列動作:

  • 在知識目錄中儲存表格和資料欄說明。
  • 擷取建議的查詢和問題,做為可重複使用的層面。
  • 讓所有具備適當知識目錄存取權的使用者都能存取已發布的洞察資料,確保機構知識得以共享。
  • 可直接在知識目錄中編輯及儲存說明。

如要建立可重複使用的企業級資料文件,或是建構以目錄為基礎的治理工作流程,請使用這個模式。

生成但不發布

可依需求建立資料洞察,例如說明、自然語言問題和 SQL 查詢。「生成但不發布」不會將洞察資訊發布至 Knowledge Catalog。

使用這個模式進行快速的臨時探索,避免目錄雜亂。

定價

如要瞭解這項功能的定價詳情,請參閱 Gemini in BigQuery 定價總覽

配額與限制

如要瞭解這項功能的配額和限制,請參閱「Gemini in BigQuery 的配額」。

位置

您可以在所有 BigQuery 位置使用資料洞察。如要瞭解 Gemini in BigQuery 在何處處理資料,請參閱「Gemini in BigQuery 在何處處理資料」。

限制

  • 如果是多雲端客戶,則無法使用其他雲端的資料。
  • 資料洞察不支援 GeoJSON 欄類型。
  • 洞察資料執行作業不保證每次都會顯示查詢。如要提高生成更吸引人查詢的機率,請在 BigQuery Studio 中重新生成洞察資料。

後續步驟