非结构化数据的数据分析简介

Knowledge Catalog 中的非结构化数据的数据洞见功能可将非结构化文件(例如 PDF)转换为可查询的结构化资产,从而将暗数据转化为有价值的信息。虽然标准发现工具仅限于文件级元数据(例如大小和类型),但非结构化数据的数据洞见功能会使用 Vertex AI 来分析文件内容。它会自动提取为 AI 智能体提供依据并支持高级分析所需的业务背景信息。

这种自动化功能无需手动解析文档和编写自定义 ETL 代码,让您可以发现、分类和使用以前无法访问的数据。

自动发现非结构化数据

发现扫描是一个自动在 Cloud Storage 中查找非结构化文件并将其编入 BigQuery 中的一个或多个对象表以供分析的过程。它充当非结构化数据的数据洞见的入口点。系统会自动将生成的对象表注册为 Knowledge Catalog 中的条目。如果由于发现扫描而创建了多个表,则每个条目都有自己的“数据洞见”标签页。然后,您可以打开此条目,探索生成的数据洞见。当您运行数据发现扫描并启用非结构化数据的数据洞见功能时,系统会执行以下操作:

  1. 识别文件并将其分组。自动识别 Cloud Storage 中的非结构化文件,并将其整理到对象表中。 这些对象表是只读表,可为非结构化数据提供结构化接口。

  2. 针对非结构化数据执行数据分析。使用 Vertex AI 分析文件中的实际内容,以了解其含义和结构。这包括实体推理,该功能使用生成式 AI 从文件内容中提取特定属性,例如 CompanyProductSerial Number。它还包括关系提取,用于识别这些实体之间的关联方式(例如 Component is_part_of Product),以创建语义图。

  3. 生成架构和图表配置文件。提供 AI 建议的关系型架构和图谱配置文件方面。这是包含实体和关系的推断架构的 Knowledge Catalog 元数据方面。

  4. 丰富元数据。使用 AI 生成的元数据自动填充 Knowledge Catalog。这样一来,数据便可供搜索并可随时提取。

您无需手动设计数据库架构,只需点击一下即可使用 SQL 或流水线编排执行数据提取。此过程会将推理出的实体和关系具体化为结构化格式,例如表或视图。

使用场景

您可以将非结构化数据的数据洞见用于各种用途,包括:

  • 流水线设置。通过以下方式,可轻松将数据从 Cloud Storage 提取到 BigQuery:使用自动架构建议替换自定义解析器,并一键部署以将数据具体化为 BigQuery 表、视图或语义图。

    例如,金融服务公司可以更轻松地从数千份 PDF 账单中提取账单详细信息、供应商名称和合同条款,并直接将其具体化到 BigQuery 中,以便立即进行支出分析,而无需编写自定义解析代码。

  • 内容分类和验证。自动将暗数据分组为可搜索的资产,并使用 AI 生成的元数据进行扩充,从而让数据监管人员能够大规模地对提取的实体进行人机协同 (human-in-the-loop) 验证和监控。

    例如,法律或合规部门可以自动对大量历史合同存储库进行分类,并提取关键实体。这样一来,数据管理员就可以在将元数据用于关键的监管报告之前对其进行验证。

  • AI 智能体依据。使用经过验证的图谱为接地检索增强生成 (RAG) 代理提供依据。这提供了一条清晰的“可追溯性链”,将原始文件与结构化业务逻辑相关联,从而减少幻觉,让 AI 智能体能够毫无歧义地处理多表联接。

    例如,制造公司可以从维护日志中提取设备关系。当技术人员向对话式 AI 智能体提出“哪些区域受到硅胶召回的影响?”这一问题时,该智能体使用经过验证的关系图来提供准确的答案,并提供清晰的可追溯链,以便追溯到原始手册。

限制

在使用非结构化数据的数据洞见之前,请查看以下限制:

  • 支持的格式。虽然发现扫描会自动识别各种非结构化文件类型并将其分组到 BigQuery 对象表中,但非结构化数据的数据洞见仅针对 PDF 文件进行了优化。

  • 地理位置。非结构化数据的数据洞见仅在支持 Vertex AI Gemini 2.5 Pro 模型的地区提供。如需查看受支持的区域列表,请参阅 Gemini 2.5 Pro 中的支持的区域部分。

价格

在预览阶段,您可以免费试用非结构化数据的数据洞见功能,并测试语义推理功能。不过,您仍需负责支付此流程期间使用的底层资源和服务的费用。

预览期

  • 语义推理。在整个预览期间,使用 Vertex AI 在发现扫描期间提取语义信息和推断图谱配置文件不会产生任何费用。

  • 底层资源费用。存储和处理数据所需的资源按标准费用计费:

    • Knowledge Catalog

      • 发现扫描的费用根据 Knowledge Catalog Premium 处理 SKU(DCU 小时)计算,用于扫描和分组非结构化数据。如需了解详情,请参阅 Knowledge Catalog 价格

      • AI 生成的元数据(包括图谱个人资料)会产生标准 Knowledge Catalog 存储费用。

    • BigQuery。

      • 如果使用流水线提取方法,则会产生 Dataform 执行和 BigQuery 作业的标准费用。

      • 如果使用 SQL 方法,则需支付标准 BigQuery ML 费用和 BigQuery 作业费用。

      • 任何具体化到 BigQuery 中的数据(包括对象表、推断的元数据和提取的实体)都会产生标准的 BigQuery 存储和查询费用。如需了解详情,请参阅 BigQuery 价格

正式版 (GA)

非结构化数据的数据洞见功能正式发布 (GA) 后,将开始正式结算。

配额

标准 DataScan 资源和 API 配额适用于每个单独的发现作业。有一项特定配额用于控制语义推理量:BigQuery 对象表上的每日语义推理执行总次数限制为每个项目每天一次。

由于非结构化数据的数据洞见依赖于发现扫描,因此发现扫描支持的表数量存在限制。如需了解详情,请参阅 BigQuery 配额和限制

后续步骤