结构化数据的数据分析简介

Knowledge Catalog(以前称为 Dataplex Universal Catalog)数据分析洞见可根据表和数据集元数据自动生成说明、关系图和 SQL 查询。借助这些信息,您可以快速了解数据结构、内容和关系,而无需进行大量手动设置。如需进一步调查,您 可以在数据画布中提出后续问题。

在探索不熟悉的新表时,数据分析师通常会面临如何开始编写查询的冷启动问题。该问题可能涉及到数据结构和数据中的关键模式的不确定性。 Knowledge Catalog 数据分析洞见功能提供了一种自动方法来探索和理解您的数据。这有助于您发现模式、评估数据质量以及执行统计分析。

数据分析洞见的工作原理是什么?

数据分析洞见使用 Gemini 分析您的元数据并生成以下内容:

  • 说明:AI 生成的摘要,用于说明数据集的用途、表的结构以及特定列的详细信息。

  • 示例查询:专门针对数据集或表的架构和内容设计的自定义 SQL 查询。

  • 关系图:可视化图表,用于显示数据集内不同表之间的连接和依赖关系。

支持的资源

数据分析洞见适用于以下结构化数据类型:

  • BigQuery 数据集、表和视图
  • BigLake 表(包括 Apache Iceberg)
  • 外部表
  • Iceberg REST Catalog 表

数据分析运行示例

数据分析洞见可根据表的元数据自动生成自然语言查询及其 SQL 等效查询。

假设有一个名为 telco_churn 且具有以下元数据的表:

字段名称 类型
CustomerID STRING
性别 STRING
资历 INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
合同 STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

以下是数据分析为此表生成的一些示例查询:

  • 识别已订阅所有高级服务且成为客户超过 50 个月的客户。

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • 确定哪个互联网服务的流失客户最多。

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • 按细分确定高价值客户的流失率。

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

生成数据分析洞见的模式

生成数据分析洞见时,Knowledge Catalog 提供两种模式:

模式 说明 用法
生成并发布

将生成的分析洞见作为元数据切面持久保存到 Knowledge Catalog 中。您 必须拥有必要的发布权限。当您使用生成 和发布时,系统会执行以下操作:

  • 在 Knowledge Catalog 中存储表和列说明。
  • 将建议的查询和问题捕获为可重复使用的 切面。
  • 使发布的分析洞见可供所有具有 相应的 Knowledge Catalog 访问权限的用户访问, 从而确保组织知识共享。
  • 让您直接在 Knowledge Catalog 中修改和保存说明。

将此模式用于持久 且可重复使用的企业级数据文档,或用于构建目录驱动的治理 工作流。

生成但不发布

按需创建数据分析洞见,例如说明、自然语言问题和 SQL 查询。生成但不发布 不会将分析洞见发布到 Knowledge Catalog。

将此模式用于快速的临时探索,以避免知识目录杂乱无章。

价格

如需详细了解此功能的价格,请参阅 Gemini in BigQuery 价格概览

配额和限制

如需了解此功能的配额和限制,请参阅 Gemini in BigQuery 的配额

位置

您可以在所有 BigQuery 位置使用数据分析洞见。如需了解 Gemini in BigQuery 在何处处理您的数据,请参阅 Gemini in BigQuery 在何处处理您的数据

限制

  • 对于多云客户,来自其他云的数据不可用。
  • 数据分析洞见不支持 GeoJSON 列类型。
  • 运行数据分析并不能保证每次都显示查询。为了提高生成更具吸引力的查询的可能性,请在 BigQuery Studio 中重新生成分析洞见。

后续步骤