生成数据集分析

本文档介绍了如何为 BigQuery 数据集生成数据集洞见。数据集洞见通过生成关系图和跨表查询,帮助您了解数据集内各个表之间的关系。

数据集洞见可自动发现并直观呈现图表中的表关系,识别主键和外键关系,并生成跨表查询示例,从而帮助您加快探索包含多个表的数据集。这有助于在没有文档的情况下了解数据结构,发现表之间由架构定义、基于使用情况或由 AI 推断的关系,以及生成连接多个表的复杂查询。

如需了解表和数据集分析洞见,请参阅数据分析洞见概览

准备工作

数据洞察是使用 Gemini in BigQuery 生成的。如需开始生成数据洞察,您必须先设置 Gemini in BigQuery

启用 API

如需使用数据分析洞见,请在项目中启用以下 API:Dataplex API、BigQuery API 和 Gemini for Google Cloud API。

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

如需详细了解如何启用 Gemini for Google Cloud API,请参阅在 Google Cloud 项目中启用 Gemini for Google Cloud API

完成数据分析扫描

为了提高数据洞见的质量,请为数据集中的表生成数据分析结果

所需的角色

如需获得生成、管理和检索数据集分析所需的权限,请让您的管理员为您授予以下 IAM 角色:

  • 如需生成、管理和检索数据洞见,请执行以下操作:
    • 针对项目的 Dataplex DataScan Editor (roles/dataplex.dataScanEditor) 或 Dataplex DataScan Administrator (roles/dataplex.dataScanAdmin) 角色
    • 针对表的 BigQuery Data Editor (roles/bigquery.dataEditor) 角色
    • 项目的 BigQuery User (roles/bigquery.user) 或 BigQuery Studio User (roles/bigquery.studioUser)。
  • 如需查看数据分析,请执行以下操作:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

如需查看生成数据洞察所需的确切权限,请展开所需权限部分:

所需权限

  • bigquery.datasets.get:读取数据集元数据
  • bigquery.jobs.create:创建作业
  • bigquery.tables.get:获取表元数据
  • bigquery.tables.getData:获取表格数据和元数据
  • dataplex.datascans.create:创建 DataScan 资源
  • dataplex.datascans.get:读取 DataScan 资源元数据
  • dataplex.datascans.getData:读取 DataScan 执行结果
  • dataplex.datascans.run:按需运行 DataScan

生成数据集分析

  1. 在 Google Cloud 控制台中,前往 BigQuery Studio

    进入 BigQuery Studio

  2. 探索器窗格中,选择项目,然后选择要为其生成数据洞见的数据集。

  3. 点击数据分析标签页。

  4. 点击生成

    如果您的数据集位于多区域,系统可能会提示您选择一个区域来生成分析洞见。选择与该多区域位置相对应的区域,在其中创建分析洞见扫描。

    数据洞察需要几分钟才能填充完毕。如果数据集中的表具有数据分析结果,则分析洞见的质量会提高。

生成分析洞见后,BigQuery 会显示数据集说明、关系图、关系表和示例跨表查询。

查看和保存数据集说明

Gemini 会生成数据集的自然语言说明,总结其中包含的表类型以及所代表的业务领域。如需将此说明保存到数据集的元数据中,请点击保存到详细信息

您可以在保存详细信息之前修改说明。

探索关系图

关系图直观地呈现了数据集中的各个表之间的关系。它会以节点的形式显示关联性最强的 10 个表,并以线条表示它们之间的关系。

  • 如需查看关系详情(例如联接两个表的列),请将鼠标悬停在连接表节点的边上。
  • 如需重新排列图表以提高可见性,请拖动表格节点。

使用关系表

关系表以表格格式列出了发现的关系。每一行都表示两个表之间的关系,显示源表和列以及目标表和列。“来源”列 (Source) 指示了关系的确定方式:

  • 由 LLM 推断。Gemini 根据数据集中的表名称、列名称和说明推断出的关系。
  • 基于使用量。根据频繁联接从查询日志中提取的关系。
  • 由架构定义。从表架构中现有的主键和外键映射派生的关系。

您可以过滤特定表的关系,也可以就检测到的关系的质量提供反馈。如需将生成的数据集说明和关系导出到 JSON 文件,请点击导出为 JSON 格式

使用查询建议

Gemini 会根据发现的关系生成示例查询。这些是自然语言问题,附带相应的 SQL 查询,用于联接数据集中的多个表。

  1. 如需查看 SQL 查询,请点击相应问题。

  2. 如需在 BigQuery 查询编辑器中打开查询,请点击复制到查询。然后,您可以运行查询或修改查询。

  3. 如要接着提问,请点击询问后续问题,系统随即会打开一个未命名的数据画布,您可以在其中与 Gemini 对话,探索数据。

后续步骤