对 HTML、PDF、DOCX、PPTX、XLSX 和 XLSM 文件类型的支持已正式发布，但需付费。

Google 会使用 AI 技术将内容翻译成您偏好的语言。AI 翻译可能包含错误。

使用 Gemini 布局解析器处理文档

Document AI 布局解析器是一种高级文本解析和文档理解服务，可将复杂文件中的非结构化内容转换为高度结构化、精确且机器可读的信息。它将 Google 的专用对象字符识别 (OCR) 模型与 Gemini 的生成式 AI 功能相结合。它可以理解完整的文档结构，识别表格、图表、列表和标头等元素，同时保留它们之间的上下文关系，例如哪些段落属于哪个标题。

它旨在解决搜索和检索增强生成 (RAG) 的一个关键问题：标准 OCR 会将文档扁平化，破坏添加有价值含义的上下文和结构，例如标题、表格和列表。

主要用途

文档 OCR：它可以解析 PDF 文档中的文本和布局元素，例如标题、页眉、页脚、表格结构和图表。
高保真搜索和 RAG：它的主要用途是为搜索和 RAG 管道准备文档。通过创建上下文感知型块，它可以显著提高检索质量和生成答案的准确性。
结构化数据提取：它可以解析复杂文档（例如 10-K 备案或报告），并将结构化内容（例如解析后的表格或图片说明）编入数据库索引，如 BigQuery 所示。

运作方式

Gemini 布局解析器在一个多阶段管道中处理文档，该管道旨在保留语义含义：

解析和结构化：系统会提取文档。所有元素都会被识别并整理为树形格式。此 DocumentLayout proto 字段会保留文档的固有层次结构。
批注和口头化：预览 Gemini 的生成功能用于口头化复杂的视觉元素。图表和表格会附有丰富的文本说明。
分块和扩充：解析后的文档及其注解用于创建语义连贯的块。这些块会扩充有上下文信息（例如其祖先标题），以确保即使单独检索块，也能保留块的含义。

处理器版本

以下模型可用于布局解析器。如需更改模型版本，请参阅管理处理器版本。

如需针对默认处理器配额提出配额增加申请 (QIR)，请按照管理配额中的步骤操作。

模型版本	说明	发布渠道	发布日期
`pretrained-layout-parser-v1.0-2024-06-03`	用于文档布局分析的正式版。这是默认的预训练处理器版本。	稳定版	2024 年 6 月 3 日
`pretrained-layout-parser-v1.5-2025-08-25`	由 Gemini 2.5 Flash LLM 提供支持的预览版，可更好地分析 PDF 文件的布局。建议想要试用新版本的用户使用。注意：如果用于非 PDF 文件，其行为与稳定版 `pretrained-layout-parser-v1.0-2024-06-03` 相同。	候选版本	2025 年 8 月 25 日
`pretrained-layout-parser-v1.5-pro-2025-08-25`	由 Gemini 2.5 Pro LLM 提供支持的预览版，可更好地分析 PDF 文件的布局。v1.5-pro 的延迟时间比 v1.5 更长。注意：如果用于非 PDF 文件，其行为与稳定版 `pretrained-layout-parser-v1.0-2024-06-03` 相同。	候选版本	2025 年 8 月 25 日
`pretrained-layout-parser-v1.6-pro-2025-12-01`	由 Gemini 3.0 Pro LLM 提供支持的预览版。注意：此处理器版本使用 Vertex AI Gemini 全球端点，不符合数据驻留 (DMZ) 标准。例如，美国和欧盟端点中的请求可能会路由到全球任何位置。	候选版本	2025 年 12 月 1 日
`pretrained-layout-parser-v1.6-2026-01-13`	由 Gemini 3.0 Flash LLM 提供支持的预览版。注意：此处理器版本使用 Vertex AI Gemini 全球端点，不符合数据驻留 (DMZ) 标准。例如，美国和欧盟端点中的请求可能会路由到全球任何位置。	候选版本	2026 年 1 月 13 日

主要功能

在本文档的后续内容中，Gemini 布局解析器是指基于 Gemini 的预训练布局解析器处理器版本，例如 pretrained-layout-parser-v1.5-2025-08-25 和 pretrained-layout-parser-v1.5-pro-2025-08-25。Gemini 布局解析器支持以下主要功能。

高级表解析

财务报告或技术手册中的表格是 RAG 的常见故障点。Gemini 布局解析器擅长从包含合并单元格和复杂标头的复杂表格中提取数据。

示例：在此 Alphabet 10-K 备案中，竞争对手的解析器无法正确对齐标头和单元格，从而错误解读了财务数据。Gemini 布局解析器可以准确解析整个表格结构，从而保留数据的完整性。

layout-parse-gemini-1

图 1. 此输入文档的来源是“Alphabet 2024 SEC Form 10-K” 第 72 页。

竞争对手的解析器无法正确检测单元格和列对齐方式，并会产生幻觉值。

layout-parse-gemini-2

Gemini 布局解析器可以正确对齐列，并提供准确的值。

layout-parse-gemini-3

减少幻觉

与尝试读取不存在的文本的纯 LLM 解析器不同，Gemini 布局解析器基于高级 OCR，因此可以根据文档的实际内容进行解析。这可以显著减少幻觉。

示例：在此 10-K 摘录中，竞争对手的模型会产生幻觉并插入不正确的文本。Gemini 布局解析器可以清晰准确地提取页面上显示的文本。

layout-parse-gemini-5

图 2. 输入文档 (Alphabet 2024 10k p75)

竞争对手的模型会产生幻觉值。

layout-parse-gemini-6

Gemini 布局解析器可以正确识别图片和表格中的值。

layout-parse-gemini-7

布局感知型分块

标准解析器通常会创建脱离原始上下文的块，将段落与其标题分开。Gemini 布局解析器可以理解文档的层次结构。它可以创建上下文感知型块，其中包含来自祖先标题和表格标头的内容。检索到的块不仅包含文本，还包含准确 LLM 回答所需的结构上下文。

layout-parse-gemini-8

图 3. 此图片的来源是 "Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis"，作者是 Shangbang Long、Siyang Qin、Yasuhisa Fujii、Alessandro Bissacco 和 Michalis Raptis。

布局注解

布局解析器注解可以识别解析后的文档中是否存在图片或表格。如果存在，它们会以描述性文本块的形式进行注解，其中包含图片和表格中显示的信息。

例如，在处理银行报告时，解析器不仅会看到图片，还会生成详细说明，并从所有三个饼图中提取数据点，从而使这些数据可供检索。

layout-parse-gemini-4

图 4. 此输入的来源是 Google Cloud 网站上“The CREATE MODEL statement for ARIMA_PLUS_XREG models”的已保存 PDF。

This diagram illustrates a two-phase machine learning pipeline for time series
forecasting: "CREATE MODEL" and "ML.FORECAST".

**CREATE MODEL Phase:**

* **Input Data:** The process begins with multivariate time series (target +
covariates).
* **Covariates Preprocess:** The covariates from the multivariate time series
undergo covariates preprocess.
* **Linear Regression:** The preprocessed covariates are fed into a linear
regression model. The output of this step is non-covariates time series.
* **ARIMA_PLUS pipeline:** The "Non-covariates time series" then enters an
"ARIMA_PLUS pipeline". 
* **Outputs of CREATE MODEL:** The results from the ARIMA_PLUS pipeline, along
with data from the linear regression step, generate three outputs: covariates
weights, evaluation metrics and model coefficients and forecasted time series
(non-covariates).

**ML.FORECAST Phase:**

* **Input Data:** This phase starts with "Multivariate time series (covariates)".
* **Covariates Preprocess:** 
* **Linear Prediction:** The preprocessed covariates are fed into a linear
prediction step.
* **Aggregation:** The covariates (predicted contribution from covariates)
are then combined with the forecasted time series (non-covariates) obtained
from the CREATE MODEL phase.
* **Final Output:** The result of the aggregation is the forecasted time
series, which is the final prediction of the target variable.

**Overall Flow:**

The diagram shows a two-stage forecasting approach. In the CREATE MODEL stage,
a model is built to separate the target time series into components influenced
by covariates and components that are not. The non-covariate component is then
processed and forecasted using an ARIMA_PLUS pipeline. The covariate component's
relationship with the target is captured by linear regression weights. In the
ML.FORECAST stage, these learned components are combined with future covariate
data to produce a final forecast.

限制

存在以下限制：

在线处理：
- 输入文件大小上限（所有文件类型均为 20 MB）
- 每个 PDF 文件的页数上限为 15
批处理：
- PDF 文件的单个文件大小上限为 1 GB
- 每个 PDF 文件的页数上限为 500

按文件类型进行布局检测

下表列出了布局解析器可以按文档文件类型检测到的元素。

文件类型	MIME 类型	检测到的元素	限制
HTML	`text/html`	段落、表格、列表、标题、标头、页眉、页脚	请注意，解析在很大程度上依赖于 HTML 标记，因此可能无法捕获基于 CSS 的格式可能无法捕获。
PDF	`application/pdf`	图、段落、表格、标题、标题、页眉、页脚	跨多个页面的表格可能会拆分为两个表格。
DOCX	`application/vnd.openxmlformats-officedocument.wordprocessingml.document`	段落、跨多个页面的表格、列表、标题、标头元素	不支持嵌套表格。
PPTX	`application/vnd.openxmlformats-officedocument.presentationml.presentation`	段落、表格、列表、标题、标头元素	如需准确识别标头，应在 PowerPoint 文件中将其标记为标头。不支持嵌套表格和隐藏幻灯片。
XLSX	`application/vnd.openxmlformats-officedocument.spreadsheetml.sheet`	Excel 电子表格中的表格，支持 `INT`、 `FLOAT` 和 `STRING` 值	不支持检测多个表格。隐藏的工作表、行或列也可能会影响检测。可以处理最多包含 500 万个单元格的文件。
XLSM	`application/vnd.ms-excel.sheet.macroenabled.12`	已启用宏的电子表格，支持 `INT`、 `FLOAT` 和 `STRING` 值	不支持检测多个表格。隐藏的工作表、行或列也可能会影响检测。

后续步骤

查看处理器列表。
创建自定义敏感类别。
使用 Enterprise Document OCR 检测和提取文本。
查看发送批处理文档请求了解如何处理响应。

快速入门