Traiter des documents avec l'analyseur de mise en page Gemini
Le parseur de mise en page Document AI est un service avancé d'analyse de texte et de compréhension de documents qui convertit le contenu non structuré de fichiers complexes en informations très structurées, précises et lisibles par machine. Il combine les modèles de reconnaissance optique de caractères (OCR) spécialisés de Google avec les capacités d'IA générative de Gemini. Il comprend la structure complète du document et identifie les éléments tels que les tableaux, les figures, les listes et les en-têtes, tout en préservant les relations contextuelles entre eux, par exemple en indiquant quels paragraphes appartiennent à quel titre.
Il est conçu pour résoudre un problème critique pour la génération augmentée par récupération (RAG) et la recherche : l'OCR standard aplatit les documents, détruisant ainsi le contexte et la structure qui ajoutent du sens, comme les titres, les tableaux et les listes.
Cas d'utilisation principaux
- OCR pour les documents : il peut analyser le texte et les éléments de mise en page tels que les titres, les en-têtes, les pieds de page, la structure des tableaux et les figures des documents PDF.
- Recherche et RAG haute fidélité : son utilisation principale consiste à préparer des documents pour les pipelines de recherche et de RAG. En créant des blocs tenant compte du contexte, il améliore considérablement la qualité de la récupération et la précision des réponses générées.
- Ingestion de données structurées : il peut analyser des documents complexes (comme des rapports ou des dépôts 10-K) et indexer du contenu structuré (comme des tableaux analysés ou des descriptions d'images) dans des bases de données, comme illustré avec BigQuery.
Fonctionnement
Le parseur de mise en page Gemini traite les documents dans un pipeline à plusieurs étapes conçu pour préserver la signification sémantique :
- Analyse et structuration : le document est ingéré. Tous les éléments sont identifiés et organisés sous forme d'arborescence. Ce champ proto
DocumentLayoutpréserve la hiérarchie inhérente du document. - Annoter et verbaliser : Aperçu Les capacités génératives de Gemini sont utilisées pour verbaliser des éléments visuels complexes. Les figures, les graphiques et les tableaux sont annotés avec des descriptions textuelles riches.
- Segmentation et augmentation : le document analysé et ses annotations sont utilisés pour créer des blocs sémantiquement cohérents. Ces blocs sont enrichis d'informations contextuelles, telles que leurs titres ancestraux, pour s'assurer que leur signification est préservée même lorsqu'ils sont récupérés de manière isolée.
Versions du processeur
Les modèles suivants sont disponibles pour l'analyseur de mise en page. Pour modifier les versions de modèle, consultez Gérer les versions de l'outil de traitement.
Pour demander une augmentation de quota (DAQ) pour le quota de processeur par défaut, suivez les étapes décrites dans Gérer votre quota.
| Version de modèle | Description | Version disponible | Date de sortie |
|---|---|---|---|
pretrained-layout-parser-v1.0-2024-06-03 |
Version en disponibilité générale pour l'analyse de la mise en page des documents. Il s'agit de la version par défaut du processeur pré-entraîné. | Stable | 3 juin 2024 |
pretrained-layout-parser-v1.5-2025-08-25 |
Version Preview optimisée par le LLM Gemini 2.5 Flash pour une meilleure analyse de la mise en page des fichiers PDF. Recommandé pour ceux qui souhaitent tester de nouvelles versions. | Version finale | 25 août 2025 |
pretrained-layout-parser-v1.5-pro-2025-08-25 |
Version Preview optimisée par le LLM Gemini 2.5 Pro pour une meilleure analyse de la mise en page des fichiers PDF. La latence de la version 1.5-pro est plus élevée que celle de la version 1.5. | Version finale | 25 août 2025 |
Capacités clés
Dans la suite de cette documentation, le terme "analyseur de mise en page Gemini" fait référence aux versions de processeur d'analyseur de mise en page pré-entraîné basé sur Gemini, telles que pretrained-layout-parser-v1.5-2025-08-25 et pretrained-layout-parser-v1.5-pro-2025-08-25. Le parseur de mise en page Gemini est compatible avec les principales fonctionnalités suivantes.
Analyse avancée de la table
Les tableaux des rapports financiers ou des manuels techniques sont un point de défaillance courant pour la RAG. L'analyseur de mise en page Gemini excelle dans l'extraction de données à partir de tableaux complexes avec des cellules fusionnées et des en-têtes complexes.
Exemple : Dans ce document 10-K d'Alphabet, l'analyseur d'un concurrent ne parvient pas à aligner correctement les en-têtes et les cellules, ce qui entraîne une mauvaise interprétation des données financières. L'analyseur de mise en page Gemini analyse avec précision l'intégralité de la structure du tableau, en préservant l'intégrité des données.

Figure 1. La source de ce document d'entrée est "Alphabet 2024 Formulaire 10-K de la SEC", page 72.
L'analyseur de concurrents ne détecte pas correctement l'alignement des cellules et des colonnes, et hallucine des valeurs.

Le parseur de mise en page Gemini aligne correctement les colonnes et fournit des valeurs précises.

Minimisation des hallucinations
Contrairement aux analyseurs basés uniquement sur les LLM qui tentent de lire du texte qui n'existe pas, l'analyseur de mise en page Gemini repose sur une technologie OCR avancée qui l'ancre dans le contenu réel du document. Cela permet de réduire considérablement le nombre d'hallucinations.
Exemple : Dans cet extrait du formulaire 10-K, un modèle concurrent hallucine et insère du texte incorrect. L'analyseur de mise en page Gemini extrait de manière claire et précise uniquement le texte présent sur la page.

Figure 2. Document d'entrée (Alphabet 2024 10k p75)
Les modèles concurrents hallucinent des valeurs.

L'analyseur de mise en page Gemini identifie correctement les valeurs dans les images et les tableaux.

Segmentation tenant compte de la mise en page
Les analyseurs standards créent souvent des blocs supprimés de leur contexte d'origine, en séparant un paragraphe de son titre. L'analyseur de mise en page Gemini comprend la hiérarchie du document. Il crée des segments contextuels qui incluent le contenu des en-têtes et des en-têtes de tableau parents. Un bloc récupéré contient non seulement le texte, mais aussi le contexte structurel nécessaire pour une réponse précise du LLM.

Figure 3. La source de cette image est "Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis", par Shangbang Long, Siyang Qin, Yasuhisa Fujii, Alessandro Bissacco et Michalis Raptis.
Annotation de mise en page
L'annotation de l'analyseur de mise en page est en version bêta. Il peut identifier la présence d'images ou de tableaux dans les documents analysés. Lorsqu'ils sont trouvés, ils sont annotés sous la forme d'un bloc de texte descriptif contenant les informations représentées dans l'image et le tableau.
Par exemple, lors du traitement d'un relevé bancaire, l'analyseur ne voit pas seulement une image. Il génère une description détaillée et extrait les points de données des trois graphiques à secteurs, ce qui permet de récupérer ces données.

Figure 4. La source de cette entrée est un PDF enregistré de l'article Instruction CREATE MODEL pour les modèles ARIMA_PLUS_XREG sur le site Google Cloud.
This diagram illustrates a two-phase machine learning pipeline for time series
forecasting: "CREATE MODEL" and "ML.FORECAST".
**CREATE MODEL Phase:**
* **Input Data:** The process begins with multivariate time series (target +
covariates).
* **Covariates Preprocess:** The covariates from the multivariate time series
undergo covariates preprocess.
* **Linear Regression:** The preprocessed covariates are fed into a linear
regression model. The output of this step is non-covariates time series.
* **ARIMA_PLUS pipeline:** The "Non-covariates time series" then enters an
"ARIMA_PLUS pipeline".
* **Outputs of CREATE MODEL:** The results from the ARIMA_PLUS pipeline, along
with data from the linear regression step, generate three outputs: covariates
weights, evaluation metrics and model coefficients and forecasted time series
(non-covariates).
**ML.FORECAST Phase:**
* **Input Data:** This phase starts with "Multivariate time series (covariates)".
* **Covariates Preprocess:**
* **Linear Prediction:** The preprocessed covariates are fed into a linear
prediction step.
* **Aggregation:** The covariates (predicted contribution from covariates)
are then combined with the forecasted time series (non-covariates) obtained
from the CREATE MODEL phase.
* **Final Output:** The result of the aggregation is the forecasted time
series, which is the final prediction of the target variable.
**Overall Flow:**
The diagram shows a two-stage forecasting approach. In the CREATE MODEL stage,
a model is built to separate the target time series into components influenced
by covariates and components that are not. The non-covariate component is then
processed and forecasted using an ARIMA_PLUS pipeline. The covariate component's
relationship with the target is captured by linear regression weights. In the
ML.FORECAST stage, these learned components are combined with future covariate
data to produce a final forecast.
Limites
Les limites suivantes s'appliquent :
- Traitement en ligne :
- La taille du fichier d'entrée ne doit pas dépasser 20 Mo, quel que soit le type de fichier.
- 15 pages maximum par fichier PDF
- Traitement par lot :
- Taille maximale de 1 Go par fichier PDF
- 500 pages maximum par fichier PDF
Détection de la mise en page par type de fichier
Le tableau suivant liste les éléments que l'analyseur de mise en page peut détecter par type de fichier de document.
| Type de fichier | Type MIME | Éléments détectés | Limites |
|---|---|---|---|
| HTML | text/html |
paragraphe, tableau, liste, titre, en-tête, en-tête de page, pied de page | Sachez que l'analyse repose fortement sur les balises HTML. Il est donc possible que la mise en forme basée sur CSS ne soit pas prise en compte. |
application/pdf |
figure, paragraphe, tableau, titre, en-tête, en-tête de page, pied de page | Les tableaux qui s'étendent sur plusieurs pages peuvent être divisés en deux. | |
| DOCX | application/vnd.openxmlformats-officedocument.wordprocessingml.document |
paragraphes, tableaux sur plusieurs pages, listes, titres, éléments d'en-tête | Les tableaux imbriqués ne sont pas acceptés. |
| PPTX | application/vnd.openxmlformats-officedocument.presentationml.presentation |
éléments de paragraphe, de tableau, de liste, de titre et d'en-tête | Pour que les titres soient identifiés avec précision, ils doivent être marqués comme tels dans le fichier PowerPoint. Les tableaux imbriqués et les diapositives masquées ne sont pas acceptés. |
| XLSX | application/vnd.openxmlformats-officedocument.spreadsheetml.sheet |
tables dans les feuilles de calcul Excel, compatibles avec les valeurs INT, FLOAT et STRING |
La détection de plusieurs tableaux n'est pas prise en charge. Les feuilles, lignes ou colonnes masquées peuvent également avoir une incidence sur la détection. Les fichiers contenant jusqu'à 5 millions de cellules peuvent être traités. |
| XLSM | application/vnd.ms-excel.sheet.macroenabled.12 |
une feuille de calcul avec macro activée, acceptant les valeurs INT, FLOAT et STRING. |
La détection de plusieurs tableaux n'est pas prise en charge. Les feuilles, lignes ou colonnes masquées peuvent également avoir une incidence sur la détection. |
Étape suivante
- Consultez la liste des outils de traitement.
- Créez un classificateur personnalisé.
- Utilisez Enterprise Document OCR pour détecter et extraire du texte.
- Consultez Envoyer une requête de traitement par lot de documents pour découvrir comment gérer les réponses.