Knowledge Catalog(以前称为 Dataplex Universal Catalog)数据分析洞见可根据表和数据集元数据自动生成说明、关系图和 SQL 查询。借助这些信息,您可以快速了解数据结构、内容和关系,而无需进行大量手动设置。如需进一步调查,您 可以在数据画布中提出后续问题。
在探索不熟悉的新表时,数据分析师通常会面临如何开始编写查询的冷启动问题。该问题可能涉及到数据结构和数据中的关键模式的不确定性。 Knowledge Catalog 数据分析洞见功能提供了一种自动方法来探索和理解您的数据。这有助于您发现模式、评估数据质量以及执行统计分析。
数据分析洞见的工作原理是什么?
数据分析洞见使用 Gemini 分析您的元数据并生成以下内容:
说明:AI 生成的摘要,用于说明数据集的用途、表的结构以及特定列的详细信息。
示例查询:专门针对数据集或表的架构和内容设计的自定义 SQL 查询。
关系图:可视化图表,用于显示数据集内不同表之间的连接和依赖关系。
支持的资源
数据分析洞见适用于以下结构化数据类型:
- BigQuery 数据集、表和视图
- BigLake 表(包括 Apache Iceberg)
- 外部表
- Iceberg REST Catalog 表
数据分析运行示例
数据分析洞见可根据表的元数据自动生成自然语言查询及其 SQL 等效查询。
假设有一个名为 telco_churn 且具有以下元数据的表:
| 字段名称 | 类型 |
|---|---|
| CustomerID | STRING |
| 性别 | STRING |
| 资历 | INT64 |
| InternetService | STRING |
| StreamingTV | STRING |
| OnlineBackup | STRING |
| 合同 | STRING |
| TechSupport | STRING |
| PaymentMethod | STRING |
| MonthlyCharges | FLOAT |
| Churn | BOOLEAN |
以下是数据分析为此表生成的一些示例查询:
识别已订阅所有高级服务且成为客户超过 50 个月的客户。
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;确定哪个互联网服务的流失客户最多。
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;按细分确定高价值客户的流失率。
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
生成数据分析洞见的模式
生成数据分析洞见时,Knowledge Catalog 提供两种模式:
| 模式 | 说明 | 用法 |
|---|---|---|
| 生成并发布 |
将生成的分析洞见作为元数据切面持久保存到 Knowledge Catalog 中。您 必须拥有必要的发布权限。当您使用生成 和发布时,系统会执行以下操作:
|
将此模式用于持久 且可重复使用的企业级数据文档,或用于构建目录驱动的治理 工作流。 |
| 生成但不发布 |
按需创建数据分析洞见,例如说明、自然语言问题和 SQL 查询。生成但不发布 不会将分析洞见发布到 Knowledge Catalog。 |
将此模式用于快速的临时探索,以避免知识目录杂乱无章。 |
价格
如需详细了解此功能的价格,请参阅 Gemini in BigQuery 价格概览。
配额和限制
如需了解此功能的配额和限制,请参阅 Gemini in BigQuery 的配额。
位置
您可以在所有 BigQuery 位置使用数据分析洞见。如需了解 Gemini in BigQuery 在何处处理您的数据,请参阅 Gemini in BigQuery 在何处处理您的数据。
限制
- 对于多云客户,来自其他云的数据不可用。
- 数据分析洞见不支持
Geo或JSON列类型。 - 运行数据分析并不能保证每次都显示查询。为了提高生成更具吸引力的查询的可能性,请在 BigQuery Studio 中重新生成分析洞见。
后续步骤
- 了解如何在 BigQuery 中生成分析洞见。
- 了解如何生成数据分析扫描。
- 了解如何在 BigQuery 中借助 Gemini 编写查询。