非结构化数据的数据分析简介

Knowledge Catalog 中的非结构化数据分析洞见功能可将暗数据或非结构化文件(例如 PDF)转换为可查询的结构化资产。虽然标准发现工具仅限于文件级元数据(例如大小和类型),但非结构化数据分析洞见功能会使用 Vertex AI 分析文件内容。它会自动提取 AI 智能体接地和支持高级分析所需的业务背景信息。

这种自动化功能无需手动解析文档和自定义 ETL 代码,让您可以发现、分类和使用以前无法访问的数据。

自动发现非结构化数据

发现扫描是一个 自动在 Cloud Storage 中查找非结构化文件并 将其编入 BigQuery 中的一个或多个 BigLake 对象表 以进行分析的过程。它是非结构化数据分析洞见功能的入口点。系统会自动将生成的 BigLake 对象表注册为 Knowledge Catalog 中的条目。如果因发现扫描而创建了多个表,则每个条目都有自己的“洞见”标签页。然后,您可以打开此条目以探索生成的数据分析洞见。当您运行发现扫描并启用非结构化数据分析洞见功能时,系统会执行以下操作:

  1. 识别文件并将其分组。自动识别 Cloud Storage 中的非结构化文件,并将其整理到 BigLake 对象表中。这些对象表是只读表,可为非结构化数据提供结构化界面。

  2. 执行非结构化数据分析洞见。使用 Vertex AI 分析文件中的实际内容,以了解其含义和结构。这包括 实体推理,即使用生成式 AI 从文件内容中提取特定属性,例如 CompanyProductSerial Number。它还包括 关系提取, 即识别这些实体之间的关联方式(例如 Component is_part_of Product),以创建语义图。

  3. 生成架构和图谱配置文件。提供 AI 建议的 关系型架构和图谱配置文件 方面。这是 Knowledge Catalog 元数据方面,其中包含实体和关系的推断架构。

  4. 丰富元数据。使用 AI 生成的元数据自动填充 Knowledge Catalog。这样,数据就可以搜索并可供提取。

您无需手动设计数据库架构,而是可以使用一键式 SQL 或流水线编排执行 数据提取 。此过程会将推断出的实体和关系具体化为结构化格式,例如表或视图。

使用场景

您可以将非结构化数据分析洞见功能用于各种用途,包括:

  • 自动生成 ETL 流水线。通过使用自动架构建议和一键式部署将数据具体化为 BigQuery 表、视图或语义图,从而自动从 Cloud Storage 向 BigQuery 提取数据,而无需使用自定义解析器。

    例如,金融服务公司可以自动从数千份 PDF 格式的发票中提取账单详细信息、供应商名称和合同条款,并将其直接具体化到 BigQuery 中,以便立即进行支出分析,而无需编写自定义解析代码。

  • 内容分类和验证。自动将暗数据分组到可搜索的资产中,并使用 AI 生成的元数据丰富这些资产,以便数据管理员大规模执行人机协同 (human-in-the-loop) 验证和监控提取的实体。

    例如,法律或合规部门可以自动对大量历史合同进行分类,并提取关键实体。这样,数据管理员就可以在将元数据用于关键监管报告之前对其进行验证。

  • AI 智能体接地。使用经过验证的图谱为检索增强生成 (RAG) 智能体接地。这提供了一条清晰的“可追溯性链”,将原始文件与结构化业务逻辑相关联,从而减少幻觉,让 AI 智能体能够毫无歧义地浏览多表联接。

    例如,制造公司可以从维护日志中提取设备关系。当技术人员向对话式 AI 智能体询问“哪些区域受到硅胶召回的影响?”时,智能体会使用经过验证的关系图谱提供准确的答案,并提供清晰的可追溯性链,追溯到原始手册。

限制

在使用非结构化数据分析洞见功能之前,请查看以下限制:

  • 支持的格式。虽然发现扫描会自动识别各种非结构化文件类型并将其分组到 BigQuery 对象表中,但非结构化数据分析洞见功能仅针对 PDF 文件进行了优化。

  • 地理位置。非结构化数据分析洞见功能仅在支持 Vertex AI Gemini 2.5 Pro 模型的位置提供。如需查看受支持的区域列表,请参阅 支持的区域 部分,具体请见 Gemini 2.5 Pro

价格

在预览阶段,您可以免费试用和测试非结构化数据分析洞见功能,以体验语义推理功能。不过,您仍需负责在此过程中消耗的基础资源和服务的费用。

预览期

  • 语义推理。在整个预览期内,使用 Vertex AI 提取语义信息和在发现扫描期间推断图谱配置文件不会产生任何费用。

  • 基础资源费用。存储和处理数据所需的资源将按标准费用收取:

    • Knowledge Catalog。

      • 发现扫描的费用将根据 Knowledge Catalog Premium 处理 SKU(DCU 小时)收取,用于扫描和分组非结构化数据。如需了解详情,请参阅 Knowledge Catalog 价格

      • AI 生成的元数据(包括图谱配置文件)将按标准 Knowledge Catalog 存储费用收取。

    • BigQuery。

      • 如果使用流水线提取方法,则 Dataform 执行和 BigQuery 作业将按标准费用收取。

      • 如果使用 SQL 方法,则 BigQuery ML 和 BigQuery 作业将按标准费用收取。

      • 具体化到 BigQuery 中的任何数据(包括对象表、推断的元数据和提取的实体)将按标准 BigQuery 存储和查询费用收取。如需了解详情, 请参阅 BigQuery 价格

正式版 (GA)

非结构化数据分析洞见功能将在正式版 (GA) 发布后开始正式收费。

配额

标准 DataScan 资源和 API 配额 适用于每个单独的发现作业。特定配额控制语义推理量:BigQuery 对象表上的每日语义推理执行总数限制为每个项目每天一次。

由于非结构化数据分析洞见功能依赖于发现扫描,因此发现扫描支持的表数量存在限制。如需了解详情,请参阅 BigQuery 配额和 限制

后续步骤