结构化数据的数据分析简介

Knowledge Catalog(以前称为 Dataplex Universal Catalog)数据分析洞见功能可根据表和数据集元数据自动生成说明、关系图和 SQL 查询。借助这些信息,您无需进行大量手动设置,即可快速了解数据结构、内容和关系。如需进一步调查,您可以在数据画布中提出后续问题。

在探索不熟悉的新表时,数据分析师通常会面临冷启动问题,即如何开始编写查询。该问题可能涉及到数据结构和数据中的关键模式的不确定性。知识目录数据分析洞见功能提供了一种自动方法来探索和理解您的数据。这有助于您发现模式、评估数据质量以及执行统计分析。

数据分析功能的工作原理

数据分析洞见功能使用 Gemini 分析您的元数据,并生成以下内容:

  • 说明:AI 生成的摘要,用于说明数据集的用途、表的结构以及特定列的详细信息。

  • 示例查询:专门针对数据集或表的架构和内容量身定制的 SQL 查询。

  • 关系图:直观显示数据集内不同表之间的关联和依赖关系。

支持的资源

以下结构化数据类型可提供数据洞见:

  • BigQuery 数据集、表和视图
  • Google Cloud Lakehouse 表(包括 Apache Iceberg)
  • 外部表
  • Iceberg REST Catalog 表

数据分析运行示例

数据分析洞见可根据表的元数据自动生成自然语言查询及其 SQL 等效查询。

假设有一个名为 telco_churn 且具有以下元数据的表:

字段名称 类型
CustomerID STRING
性别 STRING
资历 INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
合同 STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

以下是数据分析为此表生成的一些示例查询:

  • 识别已订阅所有高级服务且成为客户超过 50 个月的客户。

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • 确定哪个互联网服务的流失客户最多。

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • 按细分确定高价值客户的流失率。

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

生成数据分析洞见的模式

在生成数据分析洞见时,Knowledge Catalog 提供两种模式:

模式 说明 用法
生成并发布

将生成的数据分析洞见作为元数据切面持久保存到 Knowledge Catalog 中。您必须拥有发布所需的必要权限。当您使用生成并发布时,系统会执行以下操作:

  • 在 Knowledge Catalog 中存储表和列说明。
  • 将建议的查询和问题捕获为可重用的方面。
  • 使发布的分析洞见可供所有具有相应 Knowledge Catalog 访问权限的用户访问,从而确保组织知识共享。
  • 让您直接在 Knowledge Catalog 中修改和保存说明。

此模式适用于持久且可重复使用的企业级数据文档,或在构建目录驱动型治理工作流时使用。

生成但不发布

按需创建数据洞见,例如说明、自然语言问题和 SQL 查询。生成但不发布不会将分析洞见发布到 Knowledge Catalog。

使用此模式可进行快速的临时探索,避免使目录杂乱无章。

价格

如需详细了解此功能的价格,请参阅 Gemini in BigQuery 价格概览

位置

您可以在所有 BigQuery 位置使用数据洞察。如需了解 Gemini in BigQuery 在何处处理您的数据,请参阅 Gemini in BigQuery 在何处处理您的数据

限制

  • 对于多云客户,来自其他云的数据不可用。
  • 数据分析不支持 GeoJSON 列类型。
  • 运行数据分析并不能保证每次都显示查询。为了提高生成更具吸引力的查询的可能性,请在 BigQuery Studio 中重新生成分析洞见。

后续步骤