使用 Gemini 布局解析器处理文档

Document AI 布局解析器是一项先进的文本解析和文档理解服务,可将复杂文件中的非结构化内容转换为高度结构化、精确且机器可读的信息。它将 Google 的专用对象字符识别 (OCR) 模型与 Gemini 的生成式 AI 功能相结合。它能理解完整的文档结构,识别表格、图形、列表和标题等元素,同时保留它们之间的上下文关系,例如哪些段落属于哪个标题。

它旨在解决搜索和检索增强生成 (RAG) 的一个关键问题:标准 OCR 会使文档扁平化,从而破坏添加有价值意义的上下文和结构,例如标题、表格和列表。

主要使用场景

  • 文档 OCR:它可以解析 PDF 文档中的文本和布局元素,例如标题、页眉、页脚、表格结构和图表。
  • 高保真搜索和 RAG:其主要用途是为搜索和 RAG 流水线准备文档。通过创建上下文感知型块,它可以显著提高检索质量和生成答案的准确性。
  • 结构化数据提取:它可以解析复杂文档(例如 10-K 申报文件或报告),并将结构化内容(例如解析后的表格或图片说明)编入数据库索引,如 BigQuery 所示。

具体用法

Gemini 布局解析器通过多阶段流水线处理文档,旨在保留语义:

  • 解析和结构化:系统会提取文档内容。所有元素都会被识别并整理成树状结构。此 DocumentLayout proto 字段可保留文档的固有层次结构。
  • 注释和口述预览版 使用 Gemini 的生成功能来口述复杂的视觉元素。使用丰富的文本说明对图、图表和表格进行注释。
  • 分块和扩充:使用已解析的文档及其注释来创建语义连贯的块。这些块会添加上下文信息(例如其祖先标题),以确保即使单独检索块,其含义也不会丢失。

处理器版本

布局解析器可使用以下模型。如需更改模型版本,请参阅管理处理器版本

如需为默认处理器配额发出配额增加请求 (QIR),请按照管理配额中的步骤操作。

模型版本 说明 发布渠道 发布日期
pretrained-layout-parser-v1.0-2024-06-03 文档布局分析的正式版。这是默认的预训练处理器版本。 稳定 2024 年 6 月 3 日
pretrained-layout-parser-v1.5-2025-08-25 预览版由 Gemini 2.5 Flash LLM 提供支持,可更好地分析 PDF 文件中的布局。建议想要试用新版本的用户选择此选项。 候选版 2025 年 8 月 25 日
pretrained-layout-parser-v1.5-pro-2025-08-25 由 Gemini 2.5 Pro LLM 提供支持的预览版,可更好地分析 PDF 文件布局。v1.5-pro 的延迟时间比 v1.5 更长。 候选版 2025 年 8 月 25 日

主要功能

在本文档中,Gemini 布局解析器是指基于 Gemini 的预训练布局解析器处理器版本,例如 pretrained-layout-parser-v1.5-2025-08-25pretrained-layout-parser-v1.5-pro-2025-08-25。Gemini 布局解析器支持以下主要功能。

高级表解析

财务报告或技术手册中的表格是 RAG 的常见失败点。Gemini 布局解析器擅长从包含合并单元格和复杂标题的复杂表格中提取数据。

示例:在 Alphabet 的这份 10-K 申报文件中,竞争对手的解析器未能正确对齐标题和单元格,从而错误解读了财务数据。Gemini 布局解析器可准确解析整个表格结构,从而保持数据的完整性。

layout-parse-gemini-1

图 1. 此输入文档的来源为“Alphabet 2024 年 SEC 10-K 表单”,第 72 页。

竞争对手解析器无法正确检测单元格和列对齐方式,并会产生幻觉值。

layout-parse-gemini-2

Gemini 布局解析器可正确对齐列,并提供准确的值。

layout-parse-gemini-3

减少幻觉

与尝试读取不存在的文本的纯粹基于 LLM 的解析器不同,Gemini 布局解析器基于先进的 OCR 技术,因此能够准确识别文档的实际内容。这可显著减少模型幻觉。

示例:在此 10-K 摘录中,竞争对手模型出现了幻觉,并插入了不正确的文本。Gemini 布局解析器可清晰准确地提取页面上的文本。

layout-parse-gemini-5

图 2. 输入文档(Alphabet 2024 年 10k 报告第 75 页)

竞争对手模型会产生幻觉值。

layout-parse-gemini-6

Gemini 布局解析器可正确识别图片和表格中的值。

layout-parse-gemini-7

布局感知型分块

标准解析器通常会创建从原始上下文中移除的块,从而将段落与其标题分开。Gemini 布局解析器可理解文档的层次结构。它会创建包含来自祖先标题和表格标题的内容的上下文感知型块。检索到的块不仅包含文本,还包含 LLM 准确回答所需的结构化上下文。

layout-parse-gemini-8

图 3. 此图片的来源为 Shangbang Long、Siyang Qin、Yasuhisa Fujii、Alessandro Bissacco 和 Michalis Raptis 撰写的“Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis”。

布局注释

布局解析器注释处于预览版阶段。它可以识别已解析的文档中是否有图片或表格。如果找到,系统会将其注释为描述性文本块,其中包含图片和表格中显示的信息。

例如,在处理银行报告时,解析器不会只看到图片。它会生成详细说明,并从所有三个饼图中提取数据点,从而使这些数据可供检索。

layout-parse-gemini-4

图 4. 此输入的来源是 Google Cloud 网站上“用于 ARIMA_PLUS_XREG 模型的 CREATE MODEL 语句”的已保存 PDF。

This diagram illustrates a two-phase machine learning pipeline for time series
forecasting: "CREATE MODEL" and "ML.FORECAST".

**CREATE MODEL Phase:**

* **Input Data:** The process begins with multivariate time series (target +
covariates).
* **Covariates Preprocess:** The covariates from the multivariate time series
undergo covariates preprocess.
* **Linear Regression:** The preprocessed covariates are fed into a linear
regression model. The output of this step is non-covariates time series.
* **ARIMA_PLUS pipeline:** The "Non-covariates time series" then enters an
"ARIMA_PLUS pipeline". 
* **Outputs of CREATE MODEL:** The results from the ARIMA_PLUS pipeline, along
with data from the linear regression step, generate three outputs: covariates
weights, evaluation metrics and model coefficients and forecasted time series
(non-covariates).

**ML.FORECAST Phase:**

* **Input Data:** This phase starts with "Multivariate time series (covariates)".
* **Covariates Preprocess:** 
* **Linear Prediction:** The preprocessed covariates are fed into a linear
prediction step.
* **Aggregation:** The covariates (predicted contribution from covariates)
are then combined with the forecasted time series (non-covariates) obtained
from the CREATE MODEL phase.
* **Final Output:** The result of the aggregation is the forecasted time
series, which is the final prediction of the target variable.

**Overall Flow:**

The diagram shows a two-stage forecasting approach. In the CREATE MODEL stage,
a model is built to separate the target time series into components influenced
by covariates and components that are not. The non-covariate component is then
processed and forecasted using an ARIMA_PLUS pipeline. The covariate component's
relationship with the target is captured by linear regression weights. In the
ML.FORECAST stage, these learned components are combined with future covariate
data to produce a final forecast.

限制

存在以下限制:

  • 在线处理:
    • 输入文件大小上限(所有文件类型均为 20 MB)
    • 每个 PDF 文件的页数上限为 15
  • 批处理:
    • PDF 文件的单个文件大小上限为 1 GB
    • 每个 PDF 文件的页数上限为 500

按文件类型进行布局检测

下表列出了布局解析器可以检测到的每种文档文件类型的元素。

文件类型 MIME 类型 检测到的元素 限制
HTML text/html 段落、表格、列表、标题、标头、页面页眉、页面页脚 请注意,解析很大程度上依赖于 HTML 标记,因此可能无法捕获基于 CSS 的格式。
PDF application/pdf 图、段落、表格、标题、标头、页眉、页脚 跨多个页面的表格可能会拆分为两个表格。
DOCX application/vnd.openxmlformats-officedocument.wordprocessingml.document 段落、跨多个页面的表格、列表、标题、标头元素 不支持嵌套表。
PPTX application/vnd.openxmlformats-officedocument.presentationml.presentation 段落、表格、列表、标题、标头元素 为了准确识别标题,应在 PowerPoint 文件中将标题标记为标题。不支持嵌套表格和隐藏幻灯片。
XLSX application/vnd.openxmlformats-officedocument.spreadsheetml.sheet Excel 电子表格中的表格,支持 INTFLOATSTRING 不支持检测多个表格。隐藏的工作表、行或列也可能会影响检测。系统可以处理最多包含 500 万个单元格的文件。
XLSM application/vnd.ms-excel.sheet.macroenabled.12 启用了宏的电子表格,支持 INTFLOATSTRING 不支持检测多个表格。隐藏的工作表、行或列也可能会影响检测。

后续步骤