使用结构化数据的数据洞见

本文档介绍了如何为结构化数据生成、查看和管理数据分析洞见。借助 AI 驱动的数据分析洞见,您可以根据表和数据集元数据自动生成说明、关系图和 SQL 查询,从而加快数据探索速度。

在 BigQuery Studio 中,您可以为 BigQuery 数据集、表、视图、BigLake 表和 BigQuery 外部表生成数据分析洞见。

在 Knowledge Catalog 中,您可以为 BigLake 和 Iceberg REST Catalog 表生成数据分析洞见。

准备工作

在使用数据分析洞见之前,请确保已完成以下前提条件:

所需角色

如需获得使用数据分析洞见所需的权限,请让您的管理员向您授予以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

这些预定义角色包含 使用数据分析洞见所需的权限。如需查看所需的确切权限,请展开所需权限部分:

所需权限

使用数据分析洞见需要以下权限:

  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

您也可以使用自定义角色或其他预定义角色来获取这些权限。

启用 API

如需使用数据分析洞见,请在项目中启用以下 API:

  • Dataplex API
  • BigQuery API
  • Gemini for Google Cloud API。

启用 API 所需的角色

如需启用 API,您需要拥有 Service Usage Admin IAM 角色 (roles/serviceusage.serviceUsageAdmin),该角色包含 serviceusage.services.enable 权限。了解如何授予 角色

启用 API

如需详细了解如何启用 Gemini for Google Cloud API,请参阅 在项目中启用 Gemini for Google Cloud API Google Cloud 。

准备数据

对于 BigLake 表,请确保您的数据位于 Cloud Storage 中,并且已创建 BigLake 表。

对于 Iceberg REST Catalog 表,请确保您的表已在 BigLake metastore 中注册。

在 BigQuery 中生成数据分析洞见

BigQuery 数据集、表、视图、 BigLake 表和 BigQuery 外部表的数据分析洞见是 使用 Gemini in BigQuery 生成的,并且只能在 BigQuery Studio 中生成。

您必须先 设置 Gemini in BigQuery, 然后才能生成数据分析洞见。生成数据分析洞见后,您可以在 Knowledge Catalog 中查看和修改它们。

如需详细了解如何在 BigQuery 中生成数据分析洞见,请参阅以下文档:

为 Iceberg REST Catalog 表生成数据分析洞见

  1. 在 Google Cloud 控制台中,前往 Knowledge Catalog 搜索 页面。

    转到搜索

  2. 过滤条件 中,选择 BigLake

  3. 选择要为其生成数据分析洞见的 Iceberg REST Catalog 表。

  4. 点击数据分析 标签页。如果该标签页为空,则表示此表的数据分析洞见尚未生成。

  5. 如需生成数据分析洞见并将其永久附加到表中作为切面,请点击生成并发布 。这样,数据分析洞见就可以在 Knowledge Catalog 中被组织内的其他用户编入索引、搜索和查看。

    如需生成分析洞见并在当前会话期间临时查看它们,请点击生成但不发布。如果您只需要快速分析数据,而无需将元数据保存到 Knowledge Catalog,请使用此选项。

    如需详细了解 生成并发布 模式与 生成但不发布 模式之间的区别,请参阅 生成数据分析洞见的模式

  6. 选择区域以生成数据分析洞见,然后点击生成

    数据分析洞见需要几分钟才能填充完毕。

  7. 点击数据分析 标签页,然后查看以下内容:

    • 说明:这些是 AI 生成的摘要,用于说明表的 用途并详细介绍特定列。
    • 示例查询:这是专门为您的数据集架构和内容设计的自定义 SQL 查询列表。
  8. 如需查看用于回答问题的 SQL 查询,请点击相应问题。

查看为资源生成的数据分析洞见

如需查看为资源生成的数据分析洞见,请完成以下步骤:

  1. 在 Google Cloud 控制台中,前往 Knowledge Catalog 搜索 页面。

    转到搜索

  2. 搜索要查看其数据分析洞见的资源。

  3. 在搜索结果中,点击该资源以打开其条目详情页面。

  4. 查看为所选资源生成的说明查询

  5. 如需查看关系图以了解数据点之间的连接方式,请点击关系(预览版) 标签页。您只能在表级查看关系,而不能在数据集级查看。

管理表数据分析洞见

生成并发布表数据分析洞见后,您可以在 Knowledge Catalog 中以元数据切面的形式查看和管理它们。表级数据分析洞见包括表和列说明以及示例查询。

更新为表生成的说明

您只能使用 Dataplex API 更新表和列说明。 为此,请使用 entries.patch 方法。

更新为表生成的查询

您可以使用 Google Cloud 控制台 和 Dataplex API 更新为表生成的查询。

控制台

  1. 搜索要为其更新生成的查询的表 。

  2. 在搜索结果中,点击该表以打开其条目详情页面。

  3. 查询 部分,点击 修改

  4. 根据需要更新查询说明。

  5. 管理所有权:默认情况下,来源 设置为代理 。如果您 修改查询并将来源更改为用户,则后续的数据分析洞见 生成运行不会覆盖您的更改。如果来源仍为 代理,则查询可能会在重新生成期间被替换。

  6. 管理替换:如需防止所有查询在重新运行期间被替换,您可以将用户管理 选项设置为 True 。这适用于该元数据切面的整个查询集,确保不会丢失任何手动更改。

REST

如需更新表的查询,请使用 entries.patch 方法。

更新为表生成的关系

您只能使用 Dataplex API 更新关系。为此,请使用 entries.patch 方法。

管理数据集数据分析洞见

数据集级数据分析洞见侧重于概要说明和数据集范围的查询。

更新为数据集生成的说明

您只能使用 Dataplex API 更新数据集说明。 为此,请使用 entries.patch 方法。

更新为数据集生成的查询

您可以使用 Google Cloud 控制台 和 Dataplex API 更新为数据集生成的查询。

控制台

  1. 搜索要为其更新生成的查询的数据集 。

  2. 在搜索结果中,点击该数据集以打开其条目详情页面。

  3. 查询 部分,点击 修改

  4. 根据需要更新说明。

  5. 管理所有权:默认情况下,来源 设置为代理 。如果您 修改查询并将来源更改为用户,则后续的数据分析洞见 生成运行不会覆盖您的更改。如果来源仍为 代理,则查询可能会在重新生成期间被替换。

  6. 管理替换:如需防止所有查询在重新运行期间被替换,您可以将用户管理 选项设置为 True 。这适用于该元数据切面的整个查询集,确保不会丢失任何手动更改。

REST

如需更新数据集的查询,请使用 entries.patch 方法。

后续步骤