Procesa documentos con el analizador de diseño de Gemini
El analizador de diseño de Document AI es un servicio avanzado de análisis de texto y comprensión de documentos que convierte el contenido no estructurado de archivos complejos en información altamente estructurada, precisa y legible por máquinas. Combina los modelos especializados de reconocimiento óptico de caracteres (OCR) de Google con las capacidades de IA generativa de Gemini. Comprende la estructura completa del documento, identifica elementos como tablas, figuras, listas y encabezados, y conserva las relaciones contextuales entre ellos, por ejemplo, qué párrafos pertenecen a qué encabezado.
Está diseñado para resolver un problema crítico de la búsqueda y la generación aumentada por recuperación (RAG): el OCR estándar aplana los documentos, lo que destruye el contexto y la estructura que agregan significado valioso, como encabezados, tablas y listas.
Casos de uso principales
- OCR de documentos: Puede analizar texto y elementos de diseño, como encabezados, pies de página, estructuras de tablas y figuras de documentos PDF.
- Búsqueda y RAG de alta fidelidad: Su uso principal es preparar documentos para las canalizaciones de búsqueda y RAG. Al crear fragmentos que tienen en cuenta el contexto, mejora significativamente la calidad de la recuperación y la precisión de las respuestas generadas.
- Transferencia de datos estructurados: Puede analizar documentos complejos (como informes o presentaciones 10-K) y, luego, indexar contenido estructurado (como tablas analizadas o descripciones de imágenes) en bases de datos, como se demostró con BigQuery.
Cómo funciona
El analizador de diseño de Gemini procesa documentos en una canalización de varias etapas diseñada para conservar el significado semántico:
- Análisis y estructuración: Se ingiere el documento. Todos los elementos se identifican y organizan en un formato de árbol. Este campo
DocumentLayoutde .proto conserva la jerarquía inherente del documento. - Anotar y verbalizar: Vista previa Las capacidades generativas de Gemini se usan para verbalizar elementos visuales complejos. Las figuras, los gráficos y las tablas se anotan con descripciones textuales enriquecidas.
- Fragmentación y aumento: El documento analizado y sus anotaciones se usan para crear fragmentos semánticamente coherentes. Estos fragmentos se complementan con información contextual, como sus encabezados principales, para garantizar que se conserve el significado del fragmento incluso cuando se recupera de forma aislada.
Versiones del procesador
Los siguientes modelos están disponibles para el analizador de diseño. Para cambiar las versiones del modelo, consulta Administra versiones de procesadores.
Para realizar una solicitud de aumento de cuota (QIR) para la cuota predeterminada de procesadores, sigue los pasos que se indican en Administra tu cuota.
| Versión del modelo | Descripción | Canal de versiones | Fecha de lanzamiento |
|---|---|---|---|
pretrained-layout-parser-v1.0-2024-06-03 |
Versión de disponibilidad general para el análisis de diseño de documentos. Esta es la versión predeterminada del procesador previamente entrenado. | Estable | 3 de junio de 2024 |
pretrained-layout-parser-v1.5-2025-08-25 |
Es una versión preliminar potenciada por el LLM de Gemini 2.5 Flash para un mejor análisis de diseño en archivos PDF. Se recomienda para quienes desean experimentar con versiones nuevas. | Versión potencial | 25 de agosto de 2025 |
pretrained-layout-parser-v1.5-pro-2025-08-25 |
Versión preliminar potenciada por el LLM de Gemini 2.5 Pro para un mejor análisis de diseño en archivos PDF. La versión 1.5-pro tiene una latencia más alta que la versión 1.5. | Versión potencial | 25 de agosto de 2025 |
Funciones clave
En esta documentación, el analizador de diseño de Gemini se refiere a las versiones del procesador del analizador de diseño entrenado previamente basado en Gemini, como pretrained-layout-parser-v1.5-2025-08-25 y pretrained-layout-parser-v1.5-pro-2025-08-25. El analizador de diseño de Gemini admite las siguientes capacidades clave.
Análisis avanzado de tablas
Las tablas en informes financieros o manuales técnicos son un punto de falla común para la RAG. El analizador de diseño de Gemini se destaca en la extracción de datos de tablas complejas con celdas combinadas y encabezados intrincados.
Ejemplo: En esta presentación del Formulario 10-K de Alphabet, el analizador de un competidor no alinea correctamente los encabezados y las celdas, lo que genera una interpretación errónea de los datos financieros. El analizador de diseño de Gemini analiza con precisión toda la estructura de la tabla y preserva la integridad de los datos.

Figura 1: La fuente de este documento de entrada es "Alphabet 2024 SEC Form 10-K", página 72.
El analizador de la competencia no detecta correctamente la alineación de celdas y columnas, y alucina valores.

El analizador de diseño de Gemini alinea las columnas correctamente y proporciona valores precisos.

Alucinaciones reducidas
A diferencia de los analizadores basados en LLMs puros que intentan leer texto que no existe, la base del analizador de diseño de Gemini en el OCR avanzado lo fundamenta en el contenido real del documento. Esto genera muchas menos alucinaciones.
Ejemplo: En este fragmento del formulario 10-K, un modelo de la competencia alucina e inserta texto incorrecto. El analizador de diseño de Gemini proporciona una extracción limpia y precisa solo del texto presente en la página.

Figura 2: Documento de entrada (Alphabet 2024 10k p75)
Los modelos de la competencia alucinarán valores.

El analizador de diseño de Gemini identifica correctamente los valores en imágenes y tablas.

Fragmentación con reconocimiento del diseño
Los analizadores estándar suelen crear fragmentos que se quitan de su contexto original, lo que separa un párrafo de su encabezado. El analizador de diseño de Gemini comprende la jerarquía del documento. Crea fragmentos que tienen en cuenta el contexto y que incluyen contenido de encabezados y encabezados de tablas anteriores. Un fragmento recuperado contiene no solo el texto, sino también el contexto estructural necesario para una respuesta precisa del LLM.

Figura 3: La fuente de esta imagen es "Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis", de Shangbang Long, Siyang Qin, Yasuhisa Fujii, Alessandro Bissacco y Michalis Raptis.
Anotación de diseño
La anotación del analizador de diseño está en Vista previa. Puede identificar si hay imágenes o tablas en los documentos analizados. Cuando se encuentran, se anotan como un bloque descriptivo de texto con la información que se muestra en la imagen y la tabla.
Por ejemplo, cuando se procesa un informe bancario, el analizador no solo ve una imagen. Genera una descripción detallada y extrae los puntos de datos de los tres gráficos circulares, lo que hace que esos datos estén disponibles para su recuperación.

Figura 4: La fuente de esta entrada es un PDF guardado de "La sentencia CREATE MODEL para los modelos ARIMA_PLUS_XREG" en el sitio de Google Cloud.
This diagram illustrates a two-phase machine learning pipeline for time series
forecasting: "CREATE MODEL" and "ML.FORECAST".
**CREATE MODEL Phase:**
* **Input Data:** The process begins with multivariate time series (target +
covariates).
* **Covariates Preprocess:** The covariates from the multivariate time series
undergo covariates preprocess.
* **Linear Regression:** The preprocessed covariates are fed into a linear
regression model. The output of this step is non-covariates time series.
* **ARIMA_PLUS pipeline:** The "Non-covariates time series" then enters an
"ARIMA_PLUS pipeline".
* **Outputs of CREATE MODEL:** The results from the ARIMA_PLUS pipeline, along
with data from the linear regression step, generate three outputs: covariates
weights, evaluation metrics and model coefficients and forecasted time series
(non-covariates).
**ML.FORECAST Phase:**
* **Input Data:** This phase starts with "Multivariate time series (covariates)".
* **Covariates Preprocess:**
* **Linear Prediction:** The preprocessed covariates are fed into a linear
prediction step.
* **Aggregation:** The covariates (predicted contribution from covariates)
are then combined with the forecasted time series (non-covariates) obtained
from the CREATE MODEL phase.
* **Final Output:** The result of the aggregation is the forecasted time
series, which is the final prediction of the target variable.
**Overall Flow:**
The diagram shows a two-stage forecasting approach. In the CREATE MODEL stage,
a model is built to separate the target time series into components influenced
by covariates and components that are not. The non-covariate component is then
processed and forecasted using an ARIMA_PLUS pipeline. The covariate component's
relationship with the target is captured by linear regression weights. In the
ML.FORECAST stage, these learned components are combined with future covariate
data to produce a final forecast.
Limitaciones
Se aplica la siguiente limitación:
- Procesamiento en línea:
- El tamaño máximo del archivo de entrada es de 20 MB para todos los tipos de archivos.
- Un máximo de 15 páginas por archivo PDF
- Procesamiento por lotes:
- El tamaño máximo de un solo archivo es de 1 GB para los archivos PDF.
- Un máximo de 500 páginas por archivo PDF
Detección de diseño por tipo de archivo
En la siguiente tabla, se enumeran los elementos que el analizador de diseño puede detectar por tipo de archivo de documento.
| Tipo de archivo | Tipo de MIME | Elementos detectados | Limitaciones |
|---|---|---|---|
| HTML | text/html |
párrafo, tabla, lista, título, encabezado, encabezado de página, pie de página | Ten en cuenta que el análisis depende en gran medida de las etiquetas HTML, por lo que es posible que no se capture el formato basado en CSS. |
application/pdf |
figura, párrafo, tabla, título, encabezado, encabezado de página, pie de página | Las tablas que abarcan varias páginas pueden dividirse en dos tablas. | |
| DOCX | application/vnd.openxmlformats-officedocument.wordprocessingml.document |
párrafos, tablas en varias páginas, listas, títulos y elementos de encabezado | No se admiten las tablas anidadas. |
| PPTX | application/vnd.openxmlformats-officedocument.presentationml.presentation |
párrafos, tablas, listas, títulos y elementos de encabezado | Para que los encabezados se identifiquen con precisión, deben marcarse como tales en el archivo de PowerPoint. No se admiten tablas anidadas ni diapositivas ocultas. |
| XLSX | application/vnd.openxmlformats-officedocument.spreadsheetml.sheet |
Tablas dentro de hojas de cálculo de Excel, que admiten valores de INT, FLOAT y STRING |
No se admite la detección de varias tablas. Las hojas, las filas o las columnas ocultas también pueden afectar la detección. Se pueden procesar archivos con hasta 5 millones de celdas. |
| XLSM | application/vnd.ms-excel.sheet.macroenabled.12 |
Hoja de cálculo con macro habilitada que admite valores de INT, FLOAT y STRING |
No se admite la detección de varias tablas. Las hojas, las filas o las columnas ocultas también pueden afectar la detección. |
¿Qué sigue?
- Revisa la lista de procesadores.
- Crea un clasificador personalizado.
- Usa el Enterprise Document OCR para detectar y extraer texto.
- Consulta Envía una solicitud de procesamiento por lotes de documentos para obtener información sobre cómo controlar las respuestas.