生成数据集分析
本文档介绍了如何为 BigQuery 数据集生成数据集洞见。数据集洞见通过生成关系图和跨表查询,帮助您了解数据集内各个表之间的关系。
数据集洞见可自动发现并直观呈现图表中的表关系,识别主键和外键关系,并生成跨表查询示例,从而帮助您加快探索包含多个表的数据集。这有助于在没有文档的情况下了解数据结构,发现表之间由架构定义、基于使用情况或由 AI 推断的关系,以及生成连接多个表的复杂查询。
如需了解表和数据集分析洞见,请参阅数据分析洞见概览。
准备工作
数据洞察是使用 Gemini in BigQuery 生成的。如需开始生成数据洞察,您必须先设置 Gemini in BigQuery。
启用 API
如需使用数据分析洞见,请在项目中启用以下 API:Dataplex API、BigQuery API 和 Gemini for Google Cloud API。
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin), which
contains the serviceusage.services.enable permission. Learn how to grant
roles.
如需详细了解如何启用 Gemini for Google Cloud API,请参阅在 Google Cloud 项目中启用 Gemini for Google Cloud API。
完成数据分析扫描
为了提高数据洞见的质量,请为数据集中的表生成数据分析结果。
所需的角色
如需获得生成、管理和检索数据集分析所需的权限,请让您的管理员为您授予以下 IAM 角色:
-
如需生成、管理和检索数据洞见,请执行以下操作:
-
针对项目的 Dataplex DataScan Editor (
roles/dataplex.dataScanEditor) 或 Dataplex DataScan Administrator (roles/dataplex.dataScanAdmin) 角色 -
针对表的 BigQuery Data Editor (
roles/bigquery.dataEditor) 角色 -
项目的 BigQuery User (
roles/bigquery.user) 或 BigQuery Studio User (roles/bigquery.studioUser)。
-
针对项目的 Dataplex DataScan Editor (
-
如需查看数据分析,请执行以下操作:
-
针对项目的 Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) 角色 -
针对数据集的 BigQuery Data Viewer (
roles/bigquery.dataViewer) 角色
-
针对项目的 Dataplex DataScan DataViewer (
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
如需查看生成数据洞察所需的确切权限,请展开所需权限部分:
所需权限
bigquery.datasets.get:读取数据集元数据bigquery.jobs.create:创建作业bigquery.tables.get:获取表元数据bigquery.tables.getData:获取表格数据和元数据dataplex.datascans.create:创建 DataScan 资源dataplex.datascans.get:读取 DataScan 资源元数据dataplex.datascans.getData:读取 DataScan 执行结果dataplex.datascans.run:按需运行 DataScan
生成数据集分析
在 Google Cloud 控制台中,前往 BigQuery Studio。
在探索器窗格中,选择项目,然后选择要为其生成数据洞见的数据集。
点击数据分析标签页。
点击生成。
如果您的数据集位于多区域,系统可能会提示您选择一个区域来生成分析洞见。选择与该多区域位置相对应的区域,在其中创建分析洞见扫描。
数据洞察需要几分钟才能填充完毕。如果数据集中的表具有数据分析结果,则分析洞见的质量会提高。
生成分析洞见后,BigQuery 会显示数据集说明、关系图、关系表和示例跨表查询。
查看和保存数据集说明
Gemini 会生成数据集的自然语言说明,总结其中包含的表类型以及所代表的业务领域。如需将此说明保存到数据集的元数据中,请点击保存到详细信息。
您可以在保存详细信息之前修改说明。
探索关系图
关系图直观地呈现了数据集中的各个表之间的关系。它会以节点的形式显示关联性最强的 10 个表,并以线条表示它们之间的关系。
- 如需查看关系详情(例如联接两个表的列),请将鼠标悬停在连接表节点的边上。
- 如需重新排列图表以提高可见性,请拖动表格节点。
使用关系表
关系表以表格格式列出了发现的关系。每一行都表示两个表之间的关系,显示源表和列以及目标表和列。“来源”列 (Source) 指示了关系的确定方式:
- 由 LLM 推断。Gemini 根据数据集中的表名称、列名称和说明推断出的关系。
- 基于使用量。根据频繁联接从查询日志中提取的关系。
- 由架构定义。从表架构中现有的主键和外键映射派生的关系。
您可以过滤特定表的关系,也可以就检测到的关系的质量提供反馈。如需将生成的数据集说明和关系导出到 JSON 文件,请点击导出为 JSON 格式。
使用查询建议
Gemini 会根据发现的关系生成示例查询。这些是自然语言问题,附带相应的 SQL 查询,用于联接数据集中的多个表。
如需查看 SQL 查询,请点击相应问题。
如需在 BigQuery 查询编辑器中打开查询,请点击复制到查询。然后,您可以运行查询或修改查询。
如要接着提问,请点击询问后续问题,系统随即会打开一个未命名的数据画布,您可以在其中与 Gemini 对话,探索数据。
后续步骤
- 了解数据洞察概览。
- 了解如何生成表格数据洞见。
- 详细了解 Dataplex Universal Catalog 数据分析。