Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

非结构化数据分析简介

Knowledge Catalog 中的非结构化数据的数据分析扫描会将 Cloud Storage 中的暗数据或非结构化文件（例如 PDF）转换为 BigQuery 中的结构化、可查询的资产。虽然标准发现工具仅限于文件级元数据（例如大小和类型），但由 Vertex AI Gemini 模型提供支持的非结构化数据的数据分析扫描会分析文件内容。它会自动提取 AI 智能体所需的业务背景信息，并支持高级分析。

这种自动化功能无需手动解析文档和自定义 ETL 代码，让您可以发现、分类和使用以前无法访问的数据。

非结构化数据的数据分析扫描会分析非结构化文件的内容，以提取信息并推断架构。这与结构化数据的数据分析功能不同，后者会根据现有结构化表的 元数据 生成说明和 SQL 查询；也与标准统计数据分析不同，后者会计算空值计数和值分布等指标。

自动发现和语义分析

您可以根据出发地使用两种不同的工作流执行非结构化数据分析：

在 Cloud Storage 发现扫描期间：发现扫描会自动在 Cloud Storage 中找到非结构化文件，并将其编入 BigQuery 中的一个或多个对象表中以进行分析。对象表是位于 Cloud Storage 中的非结构化数据对象上的只读表。如果您在运行发现扫描时启用了启用语义推理 ，则该扫描将作为非结构化数据分析的自动入口点。
作为非结构化数据的独立数据分析扫描 ：如果您已有 BigQuery 对象表，可以直接对这些表运行非结构化数据的数据分析扫描。在此独立工作流中，您还可以在 DataScan 规范中提供自定义提示，以指导提取。

执行非结构化数据分析（在发现扫描期间自动执行或作为独立扫描执行）时，系统会将对象表注册为条目在 Knowledge Catalog 中。条目表示您要捕获其元数据的数据资产。如果由于发现扫描而创建了多个表，则每个条目都有自己的“分析”标签页。然后，您可以打开此条目以探索生成的数据分析。系统会执行以下操作：

识别文件并将其分组（仅限发现扫描） 。自动识别 Cloud Storage 中的非结构化文件，并将其整理到对象表中。这些对象表是只读表，可为非结构化数据提供结构化界面。
对非结构化数据执行数据分析扫描 。使用 Vertex AI Gemini 模型分析文件中的内容，以了解其含义和结构。这包括 实体推理，即使用生成式 AI 从文件内容中提取特定属性，例如，Company、Product 或 Serial Number，从文件内容中提取。它还包括 关系提取，即识别这些实体之间的关联方式（例如 Component is_part_of Product），以创建语义图。如果您运行的是独立数据分析扫描，则可以在 DataScan 规范中提供自定义提示，以指导提取。
生成架构和图分析 。提供 AI 建议的关系型架构，并将 Graph Profile 切面 (dataplex-types.global.graph-profile) 附加到表示对象表的目录条目。利用切面，您可以捕获条目中的元数据。此元数据切面包含实体 (NodeType) 和关系 (EdgeType) 的推断架构。
丰富元数据 。使用 AI 生成的元数据自动填充 Knowledge Catalog。这样，数据就可以搜索并可供提取。

您可以执行 数据提取 ，而无需手动设计数据库架构，只需点击一下即可使用 SQL 或流水线编排。此过程会将推断出的实体和关系具体化为结构化格式，例如物理 BigQuery 表或视图。

API 方法

您可以使用以下 REST API 方法配置、运行和管理非结构化数据的数据分析扫描及其生成的目录条目：

API 方法	说明
`projects.locations.dataScans.create`	创建发现扫描（使用 `dataDiscoverySpec`）或非结构化数据的独立数据分析扫描（使用 `unstructuredDataProfileSpec`）。
`projects.locations.dataScans.run`	触发按需数据分析扫描或发现扫描作业，以分析非结构化文件并生成语义分析。
`projects.locations.dataScans.get`	检索现有数据分析扫描的配置详细信息和最新作业结果。
`projects.locations.dataScans.jobs.list`	列出特定数据分析扫描或发现扫描的历史扫描作业。
`projects.locations.dataScans.jobs.get`	检索特定数据分析扫描作业的详细执行结果和日志。
`projects.locations.entryGroups.entries.get`	检索表示对象表的目录条目，包括其附加的 AI 生成的元数据切面（例如 `GraphProfile`）。
`projects.locations.entryGroups.entries.patch`	更新目录条目以附加、修改或整理元数据切面（例如 `dataplex-types.global.graph-profile`）。

使用场景

您可以在不同的行业领域中将非结构化数据的数据分析扫描用于各种用途，包括以下用途：

流水线设置和零 ETL 规范化 。通过使用自动架构建议和一键式部署将数据具体化为 BigQuery 表、视图或语义图，从而轻松将数据从 Cloud Storage 提取到 BigQuery，而无需使用自定义解析器。

例如，在电子商务和零售领域，市场可以自动将数百种不同 PDF 布局的供应商发票和采购订单规范化为统一的 BigQuery 架构（将 Unit Pr.、Price/Pkg 和 Item Cost 映射到单个 Unit_Price 列），而无需编写自定义解析代码。在医疗保健领域，生物统计学家可以将多中心临床试验方案和病例报告表 (CRF) 注入到结构化表中，以便快速进行队列分析。
内容分类和验证 。自动将暗数据分组到可搜索的资产中，并使用 AI 生成的元数据丰富这些资产，以便数据管理员大规模执行人工在环验证和监控提取的实体。

例如，在金融服务领域，进行并购尽职调查的投资银行可以自动对大量历史合同和信贷协议进行分类，提取复杂的法律实体（Contracting_Parties、Indemnity_Cap、Governing_Law）。数据管理员可以在分析标签页上探索可视化知识图，以在将数据导出到执行报告之前识别高风险负债。
AI 智能体依据 。使用经过验证的图为检索增强生成 (RAG) 智能体提供依据。这提供了一条清晰的“可追溯性链”，将原始文件连接到结构化业务逻辑，减少幻觉，让 AI 智能体能够毫无歧义地浏览多表联接。

例如，在制造和工业运营领域，一家重型机械公司可以从数十年的非结构化现场维护日志和事件报告中提取设备关系。当现场技术人员向对话式 AI 智能体询问如何解决异常的液压降时，智能体会使用经过验证的关系图 (Error_Code indicates_failure Hydraulic_Valve) 提供准确的分步修复计划，并引用确切的历史事件报告。

限制

在使用非结构化数据的数据分析扫描之前，请查看以下限制：

支持的格式 。虽然发现扫描会自动识别各种非结构化文件类型并将其分组到 BigQuery 对象表中，但非结构化数据的数据分析扫描的语义推理引擎主要针对 PDF 文档进行了优化。
地理位置 。非结构化数据的数据分析扫描仅在支持 Vertex AI Gemini 2.5 Pro 模型的位置（例如 us-central1、europe-west1、asia-southeast1）提供。如需查看支持的区域列表，请参阅 支持的区域 部分，该部分位于 Gemini 2.5 Pro 中。在不支持的区域中创建的扫描会返回验证或执行错误。
资源范围 。非结构化数据的数据分析扫描仅适用于 BigQuery 对象表。它们不支持标准 BigQuery 结构化表、结构化数据的外部表或 BigQuery 视图。

价格

在公开预览版阶段，非结构化数据的数据分析扫描可用于实验和测试，并受专门的促销条款约束：

语义推理 。在整个预览期间，使用 Vertex AI Gemini 模型提取语义信息和推断发现扫描期间的图分析无需付费。
底层资源费用 。存储和处理数据所需的资源将按标准费用收取：
- Knowledge Catalog
  - 发现扫描的费用根据 Knowledge Catalog Premium 处理 SKU（DCU 小时）收取，用于对非结构化文件进行基准扫描和分组。如需了解详情，请参阅 Knowledge Catalog 价格。
  - AI 生成的元数据切面（包括图分析）将按标准 Knowledge Catalog 目录存储费用收取。
- BigQuery 和 Dataform
  - 如果使用流水线提取方法，则 Dataform 执行和 BigQuery 作业将按标准费用收取。
  - 如果使用 SQL 方法，则 BigQuery ML 标准费用 (ML.PROCESS_DOCUMENT) 和 BigQuery 查询处理费用将按标准费用收取。
  - 具体化到 BigQuery 中的任何数据（包括对象表、推断的元数据和提取的实体）将按标准 BigQuery 存储和查询费用收取。如需了解详情，请参阅 BigQuery 价格。

非结构化数据的数据分析扫描和语义推理的正式专用结算结构将在正式版 (GA) 发布后开始使用。

配额

标准 DataScan 资源和 API 配额适用于每个单独的发现扫描或数据分析扫描作业。特定配额控制语义推理量：每天对 BigQuery 对象表执行的非结构化数据的数据分析扫描总次数限制为每个项目每天 140 次 。

如果在发现扫描期间执行非结构化数据分析，则发现扫描支持的表数量限制也适用。如需了解详情，请参阅 BigQuery 配额和限制。

后续步骤

了解如何使用非结构化数据的发现扫描。
了解如何使用非结构化数据的数据分析。
详细了解如何发现数据。
阅读数据分析简介。