本文档介绍了如何为结构化数据生成、查看和管理数据分析洞见。借助 AI 驱动的数据分析洞见,您可以根据表和数据集元数据自动生成说明、关系图和 SQL 查询,从而加快数据探索速度。
在 BigQuery Studio 中,您可以为 BigQuery 数据集、表、视图、BigLake 表和 BigQuery 外部表生成数据分析洞见。
在 Knowledge Catalog 中,您可以为 BigLake 和 Iceberg REST Catalog 表生成数据分析洞见。
准备工作
在使用数据分析洞见之前,请确保已完成以下前提条件:
所需角色
如需获得使用数据分析洞见所需的权限,请让您的管理员向您授予以下 IAM 角色:
-
获取对生成的数据分析洞见的只读权限:
Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) 针对包含资源的项目 -
读取 Iceberg REST Catalog 表数据:
BigLake Viewer (
roles/biglake.viewer) 针对资源 -
将说明发布为切面:Dataplex Catalog Editor (
roles/dataplex.catalogEditor) 针对资源 -
将查询发布为切面:
Dataplex Entry and EntryLink Owner (
roles/dataplex.entryOwner) 针对资源
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
这些预定义角色包含 使用数据分析洞见所需的权限。如需查看所需的确切权限,请展开所需权限部分:
所需权限
使用数据分析洞见需要以下权限:
-
dataplex.datascans.create -
dataplex.datascans.get -
dataplex.datascans.getData -
dataplex.datascans.run
启用 API
如需使用数据分析洞见,请在项目中启用以下 API:
- Dataplex API
- BigQuery API
- Gemini for Google Cloud API。
启用 API 所需的角色
如需启用 API,您需要拥有 Service Usage Admin IAM 角色 (roles/serviceusage.serviceUsageAdmin),该角色包含 serviceusage.services.enable 权限。了解如何授予
角色。
如需详细了解如何启用 Gemini for Google Cloud API,请参阅 在项目中启用 Gemini for Google Cloud API Google Cloud 。
准备数据
对于 BigLake 表,请确保您的数据位于 Cloud Storage 中,并且已创建 BigLake 表。
对于 Iceberg REST Catalog 表,请确保您的表已在 BigLake metastore 中注册。
在 BigQuery 中生成数据分析洞见
BigQuery 数据集、表、视图、 BigLake 表和 BigQuery 外部表的数据分析洞见是 使用 Gemini in BigQuery 生成的,并且只能在 BigQuery Studio 中生成。
您必须先 设置 Gemini in BigQuery, 然后才能生成数据分析洞见。生成数据分析洞见后,您可以在 Knowledge Catalog 中查看和修改它们。
如需详细了解如何在 BigQuery 中生成数据分析洞见,请参阅以下文档:
为 Iceberg REST Catalog 表生成数据分析洞见
在 Google Cloud 控制台中,前往 Knowledge Catalog 搜索 页面。
在过滤条件 中,选择 BigLake 。
选择要为其生成数据分析洞见的 Iceberg REST Catalog 表。
点击数据分析 标签页。如果该标签页为空,则表示此表的数据分析洞见尚未生成。
如需生成数据分析洞见并将其永久附加到表中作为切面,请点击生成并发布 。这样,数据分析洞见就可以在 Knowledge Catalog 中被组织内的其他用户编入索引、搜索和查看。
如需生成分析洞见并在当前会话期间临时查看它们,请点击生成但不发布。如果您只需要快速分析数据,而无需将元数据保存到 Knowledge Catalog,请使用此选项。
如需详细了解 生成并发布 模式与 生成但不发布 模式之间的区别,请参阅 生成数据分析洞见的模式。
选择区域以生成数据分析洞见,然后点击生成 。
数据分析洞见需要几分钟才能填充完毕。
点击数据分析 标签页,然后查看以下内容:
- 说明:这些是 AI 生成的摘要,用于说明表的 用途并详细介绍特定列。
- 示例查询:这是专门为您的数据集架构和内容设计的自定义 SQL 查询列表。
如需查看用于回答问题的 SQL 查询,请点击相应问题。
查看为资源生成的数据分析洞见
如需查看为资源生成的数据分析洞见,请完成以下步骤:
在 Google Cloud 控制台中,前往 Knowledge Catalog 搜索 页面。
在搜索结果中,点击该资源以打开其条目详情页面。
查看为所选资源生成的说明 和查询 。
如需查看关系图以了解数据点之间的连接方式,请点击关系(预览版) 标签页。您只能在表级查看关系,而不能在数据集级查看。
管理表数据分析洞见
生成并发布表数据分析洞见后,您可以在 Knowledge Catalog 中以元数据切面的形式查看和管理它们。表级数据分析洞见包括表和列说明以及示例查询。
更新为表生成的说明
您只能使用 Dataplex API 更新表和列说明。 为此,请使用 entries.patch 方法。
更新为表生成的查询
您可以使用 Google Cloud 控制台 和 Dataplex API 更新为表生成的查询。
控制台
在搜索结果中,点击该表以打开其条目详情页面。
在查询 部分,点击 修改。
根据需要更新查询说明。
管理所有权:默认情况下,来源 设置为代理 。如果您 修改查询并将来源更改为用户,则后续的数据分析洞见 生成运行不会覆盖您的更改。如果来源仍为 代理,则查询可能会在重新生成期间被替换。
管理替换:如需防止所有查询在重新运行期间被替换,您可以将用户管理 选项设置为 True 。这适用于该元数据切面的整个查询集,确保不会丢失任何手动更改。
REST
如需更新表的查询,请使用 entries.patch 方法。
更新为表生成的关系
您只能使用 Dataplex API 更新关系。为此,请使用 entries.patch 方法。
管理数据集数据分析洞见
数据集级数据分析洞见侧重于概要说明和数据集范围的查询。
更新为数据集生成的说明
您只能使用 Dataplex API 更新数据集说明。 为此,请使用 entries.patch 方法。
更新为数据集生成的查询
您可以使用 Google Cloud 控制台 和 Dataplex API 更新为数据集生成的查询。
控制台
搜索要为其更新生成的查询的数据集 。
在搜索结果中,点击该数据集以打开其条目详情页面。
在查询 部分,点击 修改。
根据需要更新说明。
管理所有权:默认情况下,来源 设置为代理 。如果您 修改查询并将来源更改为用户,则后续的数据分析洞见 生成运行不会覆盖您的更改。如果来源仍为 代理,则查询可能会在重新生成期间被替换。
管理替换:如需防止所有查询在重新运行期间被替换,您可以将用户管理 选项设置为 True 。这适用于该元数据切面的整个查询集,确保不会丢失任何手动更改。
REST
如需更新数据集的查询,请使用 entries.patch 方法。
后续步骤
详细了解结构化数据的数据分析洞见。
了解如何为非结构化数据生成数据分析洞见。