探索不熟悉的資料表時,資料分析師經常會遇到不知如何開始編寫查詢的冷啟動問題。問題可能涉及資料結構和資料中的重要模式不確定性。
資料洞察功能會根據資料表的 metadata 自動生成自然語言查詢及其對應的 SQL,解決冷啟動問題。您不必從空白的查詢編輯器開始,而是能透過有意義的查詢快速探索資料,取得有價值的洞察資料。如要進一步調查,可以在資料畫布中提出後續問題。
Dataplex Universal Catalog 的資料洞察功能提供自動化方式,可探索及瞭解資料。這有助於發掘模式、評估資料品質,以及執行統計分析。
事前準備
資料洞察是使用 Gemini in BigQuery 生成,且只能在 BigQuery Studio 中生成。請先設定 Gemini 版 BigQuery,然後在 BigQuery 中產生洞察。Gemini 只會在us-central1
區域處理中繼資料,以取得洞察資訊。詳情請參閱「Gemini 服務地點」。產生洞察後,您可以在 Dataplex Universal Catalog 中查看。
必要的角色
如要取得所產生洞察資料的唯讀權限,請要求管理員授予下列 IAM 角色:
- Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer
) 在包含要查看洞察資料的 BigQuery 資料表專案中。
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」一文。
您或許還可透過自訂角色或其他預先定義的角色取得必要權限。如要查看產生洞察資料所需的確切權限,請展開「必要權限」部分:
所需權限
dataplex.datascans.get
dataplex.datascans.getData
啟用 API
如要使用資料洞察功能,請在專案中啟用下列 API:Dataplex API、BigQuery API 和 Gemini for Google Cloud API。
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin
), which
contains the serviceusage.services.enable
permission. Learn how to grant
roles.
如要進一步瞭解如何啟用 Gemini for Google Cloud API,請參閱「在專案中啟用 Gemini for Google Cloud API Google Cloud 」。
關於資料洞察
資料洞察會根據資料表的中繼資料,自動生成自然語言查詢及其對應的 SQL。
洞察資料執行範例
假設有一個名為 telco_churn
的資料表,其中繼資料如下:
欄位名稱 | 類型 |
---|---|
CustomerID | STRING |
性別 | STRING |
年資 | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
合約 | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
流失 | BOOLEAN |
以下是資料洞察功能為這個表格產生的一些查詢範例:
找出訂閱所有進階服務,且成為顧客超過 50 個月的使用者。
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
找出流失最多顧客的網際網路服務。
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
找出高價值顧客的區隔流失率。
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
查看深入分析資訊
如要查看 BigQuery 資料表的洞察資料,請使用 Dataplex Universal Catalog 搜尋功能。
在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「Search」(搜尋) 頁面。
搜尋要查看洞察的 BigQuery 資料表。
在搜尋結果中按一下表格,開啟表格的項目頁面。
按一下「洞察」分頁標籤,如果分頁空白,表示系統尚未產生這份表格的洞察資料。您可以在 BigQuery Studio 中產生資料洞察。
定價
如要瞭解這項功能的定價詳情,請參閱 Gemini in BigQuery 定價總覽。
配額與限制
如要瞭解這項功能的配額和限制,請參閱「Gemini in BigQuery 的配額」。
位置
Gemini 在全球各地運作,因此您無法將資料處理作業限制在特定區域。如要進一步瞭解 Gemini in BigQuery 處理資料的位置,請參閱「Gemini 服務位置」。
限制
- 資料洞察功能適用於 BigQuery 資料表、BigLake 資料表、外部資料表和檢視區塊。
- 多雲端客戶無法使用其他雲端的資料。
- 資料洞察不支援
Geo
或JSON
欄類型。 - 洞察資料執行作業不保證每次都會顯示查詢。如要提高生成更吸引人查詢的機率,請在 BigQuery Studio 中重新生成洞察資料。
後續步驟
- 瞭解如何在 BigQuery 中產生洞察。
- 瞭解如何生成資料剖析掃描。
- 瞭解如何在 BigQuery 中透過 Gemini 輔助功能撰寫查詢。