在 Dataplex 通用目錄中存取資料洞察資料

探索不熟悉的資料表時,資料分析師經常會遇到不知如何開始編寫查詢的冷啟動問題。問題可能涉及資料結構和資料中的重要模式不確定性。

資料洞察功能會根據資料表的 metadata 自動生成自然語言查詢及其對應的 SQL,解決冷啟動問題。您不必從空白的查詢編輯器開始,而是能透過有意義的查詢快速探索資料,取得有價值的洞察資料。如要進一步調查,可以在資料畫布中提出後續問題。

Dataplex Universal Catalog 的資料洞察功能提供自動化方式,可探索及瞭解資料。這有助於發掘模式、評估資料品質,以及執行統計分析。

事前準備

資料洞察是使用 Gemini in BigQuery 生成,且只能在 BigQuery Studio 中生成。請先設定 Gemini 版 BigQuery,然後在 BigQuery 中產生洞察。Gemini 只會在us-central1區域處理中繼資料,以取得洞察資訊。詳情請參閱「Gemini 服務地點」。產生洞察後,您可以在 Dataplex Universal Catalog 中查看。

必要的角色

如要取得所產生洞察資料的唯讀權限,請要求管理員授予下列 IAM 角色:

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」一文。

您或許還可透過自訂角色或其他預先定義的角色取得必要權限。如要查看產生洞察資料所需的確切權限,請展開「必要權限」部分:

所需權限

  • dataplex.datascans.get
  • dataplex.datascans.getData

啟用 API

如要使用資料洞察功能,請在專案中啟用下列 API:Dataplex API、BigQuery API 和 Gemini for Google Cloud API。

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

如要進一步瞭解如何啟用 Gemini for Google Cloud API,請參閱「在專案中啟用 Gemini for Google Cloud API Google Cloud 」。

關於資料洞察

資料洞察會根據資料表的中繼資料,自動生成自然語言查詢及其對應的 SQL。

洞察資料執行範例

假設有一個名為 telco_churn 的資料表,其中繼資料如下:

欄位名稱 類型
CustomerID STRING
性別 STRING
年資 INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
合約 STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
流失 BOOLEAN

以下是資料洞察功能為這個表格產生的一些查詢範例:

  • 找出訂閱所有進階服務,且成為顧客超過 50 個月的使用者。

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • 找出流失最多顧客的網際網路服務。

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • 找出高價值顧客的區隔流失率。

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

查看深入分析資訊

如要查看 BigQuery 資料表的洞察資料,請使用 Dataplex Universal Catalog 搜尋功能。

  1. 在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「Search」(搜尋) 頁面。

    前往「搜尋」

  2. 搜尋要查看洞察的 BigQuery 資料表。

  3. 在搜尋結果中按一下表格,開啟表格的項目頁面。

  4. 按一下「洞察」分頁標籤,如果分頁空白,表示系統尚未產生這份表格的洞察資料。您可以在 BigQuery Studio 中產生資料洞察

定價

如要瞭解這項功能的定價詳情,請參閱 Gemini in BigQuery 定價總覽

配額與限制

如要瞭解這項功能的配額和限制,請參閱「Gemini in BigQuery 的配額」。

位置

Gemini 在全球各地運作,因此您無法將資料處理作業限制在特定區域。如要進一步瞭解 Gemini in BigQuery 處理資料的位置,請參閱「Gemini 服務位置」。

限制

  • 資料洞察功能適用於 BigQuery 資料表、BigLake 資料表、外部資料表和檢視區塊。
  • 多雲端客戶無法使用其他雲端的資料。
  • 資料洞察不支援 GeoJSON 欄類型。
  • 洞察資料執行作業不保證每次都會顯示查詢。如要提高生成更吸引人查詢的機率,請在 BigQuery Studio 中重新生成洞察資料。

後續步驟