La compatibilité avec les types de fichiers HTML, PDF, DOCX, PPTX, XLSX et XLSM est disponible de manière générale et est payante.

Traiter des documents avec l'analyseur de mise en page Gemini

Le parseur de mise en page Document AI est un service avancé d'analyse de texte et de compréhension de documents qui convertit le contenu non structuré de fichiers complexes en informations très structurées, précises et lisibles par machine. Il combine les modèles de reconnaissance optique de caractères (OCR) spécialisés de Google avec les capacités d'IA générative de Gemini. Il comprend la structure complète du document et identifie les éléments tels que les tableaux, les figures, les listes et les en-têtes, tout en préservant les relations contextuelles entre eux, par exemple les paragraphes qui appartiennent à un titre.

Il est conçu pour résoudre un problème critique pour la génération augmentée par récupération (RAG) et la recherche : l'OCR standard aplatit les documents, détruisant ainsi le contexte et la structure qui ajoutent du sens, comme les titres, les tableaux et les listes.

Cas d'utilisation principaux

OCR pour les documents : il peut analyser le texte et les éléments de mise en page tels que les titres, les en-têtes, les pieds de page, la structure des tableaux et les figures des documents PDF.
Recherche et RAG haute fidélité : son utilisation principale consiste à préparer des documents pour les pipelines de recherche et de RAG. En créant des blocs tenant compte du contexte, il améliore considérablement la qualité de la récupération et la précision des réponses générées.
Ingestion de données structurées : il peut analyser des documents complexes (comme les formulaires 10-K ou les rapports) et indexer le contenu structuré (comme les tableaux analysés ou les descriptions d'images) dans des bases de données, comme illustré avec BigQuery.

Fonctionnement

Le parseur de mise en page Gemini traite les documents dans un pipeline à plusieurs étapes conçu pour préserver la signification sémantique :

Analyse et structuration : le document est ingéré. Tous les éléments sont identifiés et organisés sous forme d'arborescence. Ce champ proto DocumentLayout préserve la hiérarchie inhérente du document.
Annoter et verbaliser : Aperçu Les capacités génératives de Gemini sont utilisées pour verbaliser des éléments visuels complexes. Les figures, les graphiques et les tableaux sont annotés avec des descriptions textuelles riches.
Segmentation et augmentation : le document analysé et ses annotations sont utilisés pour créer des blocs sémantiquement cohérents. Ces blocs sont enrichis d'informations contextuelles, telles que leurs titres ancestraux, pour s'assurer que leur signification est préservée même lorsqu'ils sont récupérés de manière isolée.

Versions du processeur

Les modèles suivants sont disponibles pour l'analyseur de mise en page. Pour modifier les versions des modèles, consultez Gérer les versions de l'outil de traitement.

Pour envoyer une demande d'augmentation de quota (DAQ) pour le quota de l'outil de traitement par défaut, suivez la procédure décrite dans Gérer votre quota.

Version de modèle	Description	Version disponible	Date de disponibilité
`pretrained-layout-parser-v1.0-2024-06-03`	Version en disponibilité générale pour l'analyse de la mise en page des documents. Il s'agit de la version par défaut du processeur pré-entraîné.	Stable	3 juin 2024
`pretrained-layout-parser-v1.5-2025-08-25`	Version Preview optimisée par le LLM Gemini 2.5 Flash pour une meilleure analyse de la mise en page des fichiers PDF. Recommandé pour ceux qui souhaitent tester de nouvelles versions. Remarque : S'il est utilisé pour des fichiers non PDF, il se comportera de la même manière que la version stable de `pretrained-layout-parser-v1.0-2024-06-03`.	Version candidate	25 août 2025
`pretrained-layout-parser-v1.5-pro-2025-08-25`	Version Preview optimisée par le LLM Gemini 2.5 Pro pour une meilleure analyse de la mise en page des fichiers PDF. La latence de la version 1.5-pro est plus élevée que celle de la version 1.5. Remarque : S'il est utilisé pour des fichiers non PDF, il se comportera de la même manière que la version stable de `pretrained-layout-parser-v1.0-2024-06-03`.	Version candidate	25 août 2025
`pretrained-layout-parser-v1.6-pro-2025-12-01`	Version preview optimisée par le LLM Gemini 3.0 Pro. Remarque : Cette version du processeur utilise le point de terminaison mondial Vertex AI Gemini et n'est pas conforme aux normes de résidence des données (DMZ). Par exemple, les requêtes envoyées aux points de terminaison aux États-Unis et dans l'UE peuvent être acheminées n'importe où dans le monde.	Version candidate	1er décembre 2025
`pretrained-layout-parser-v1.6-2026-01-13`	Version preview optimisée par le LLM Gemini 3.0 Flash. Remarque : Cette version du processeur utilise le point de terminaison mondial Vertex AI Gemini et n'est pas conforme aux normes de résidence des données (DMZ). Par exemple, les requêtes envoyées aux points de terminaison aux États-Unis et dans l'UE peuvent être acheminées n'importe où dans le monde.	Version candidate	13 janvier 2026

Capacités clés

Dans la suite de cette documentation, l'expression "analyseur de mise en page Gemini" fait référence aux versions de processeur d'analyseur de mise en page pré-entraîné basées sur Gemini, telles que pretrained-layout-parser-v1.5-2025-08-25 et pretrained-layout-parser-v1.5-pro-2025-08-25. Le parseur de mise en page Gemini est compatible avec les principales fonctionnalités suivantes.

Analyse avancée de la table

Les tableaux des rapports financiers ou des manuels techniques sont un point de défaillance courant pour la RAG. L'analyseur de mise en page Gemini excelle dans l'extraction de données à partir de tableaux complexes avec des cellules fusionnées et des en-têtes complexes.

Exemple : Dans ce document 10-K d'Alphabet, l'analyseur d'un concurrent ne parvient pas à aligner correctement les en-têtes et les cellules, ce qui entraîne une mauvaise interprétation des données financières. Le parseur de mise en page Gemini analyse avec précision l'intégralité de la structure du tableau, en préservant l'intégrité des données.

layout-parse-gemini-1

Figure 1 : La source de ce document d'entrée est Alphabet 2024, formulaire 10-K de la SEC, page 72.

L'analyseur de concurrents ne détecte pas correctement l'alignement des cellules et des colonnes, et hallucine des valeurs.

layout-parse-gemini-2

Le parseur de mise en page Gemini aligne correctement les colonnes et fournit des valeurs précises.

layout-parse-gemini-3

Minimisation des hallucinations

Contrairement aux analyseurs basés uniquement sur les LLM qui tentent de lire du texte qui n'existe pas, l'analyseur de mise en page Gemini repose sur une technologie OCR avancée qui l'ancre dans le contenu réel du document. Cela permet de réduire considérablement le nombre d'hallucinations.

Exemple : Dans cet extrait du formulaire 10-K, un modèle concurrent hallucine et insère du texte incorrect. Le parseur de mise en page Gemini permet d'extraire de manière claire et précise uniquement le texte présent sur la page.

layout-parse-gemini-5

Figure 2. Document d'entrée (Alphabet 2024 10k p75)

Les modèles concurrents hallucinent des valeurs.

layout-parse-gemini-6

Le parseur de mise en page Gemini identifie correctement les valeurs dans les images et les tableaux.

layout-parse-gemini-7

Segmentation tenant compte de la mise en page

Les analyseurs standards créent souvent des blocs supprimés de leur contexte d'origine, séparant un paragraphe de son titre. L'analyseur de mise en page Gemini comprend la hiérarchie du document. Il crée des segments contextuels qui incluent le contenu des titres et des en-têtes de tableaux parents. Un fragment récupéré contient non seulement le texte, mais aussi le contexte structurel nécessaire pour une réponse précise du LLM.

layout-parse-gemini-8

Figure 3. La source de cette image est Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis, par Shangbang Long, Siyang Qin, Yasuhisa Fujii, Alessandro Bissacco et Michalis Raptis.

Annotation de mise en page

L'annotation de l'analyseur de mise en page est en version bêta. Il peut identifier la présence d'images ou de tableaux dans les documents analysés. Lorsqu'ils sont trouvés, ils sont annotés sous la forme d'un bloc de texte descriptif contenant les informations représentées dans l'image et le tableau.

Par exemple, lors du traitement d'un relevé bancaire, l'analyseur ne voit pas seulement une image. Il génère une description détaillée et extrait les points de données des trois graphiques à secteurs, ce qui permet de récupérer ces données.

layout-parse-gemini-4

Figure 4. La source de cette entrée est un fichier PDF enregistré de l'article Instruction CREATE MODEL pour les modèles ARIMA_PLUS_XREG sur le site Google Cloud.

This diagram illustrates a two-phase machine learning pipeline for time series
forecasting: "CREATE MODEL" and "ML.FORECAST".

**CREATE MODEL Phase:**

* **Input Data:** The process begins with multivariate time series (target +
covariates).
* **Covariates Preprocess:** The covariates from the multivariate time series
undergo covariates preprocess.
* **Linear Regression:** The preprocessed covariates are fed into a linear
regression model. The output of this step is non-covariates time series.
* **ARIMA_PLUS pipeline:** The "Non-covariates time series" then enters an
"ARIMA_PLUS pipeline". 
* **Outputs of CREATE MODEL:** The results from the ARIMA_PLUS pipeline, along
with data from the linear regression step, generate three outputs: covariates
weights, evaluation metrics and model coefficients and forecasted time series
(non-covariates).

**ML.FORECAST Phase:**

* **Input Data:** This phase starts with "Multivariate time series (covariates)".
* **Covariates Preprocess:** 
* **Linear Prediction:** The preprocessed covariates are fed into a linear
prediction step.
* **Aggregation:** The covariates (predicted contribution from covariates)
are then combined with the forecasted time series (non-covariates) obtained
from the CREATE MODEL phase.
* **Final Output:** The result of the aggregation is the forecasted time
series, which is the final prediction of the target variable.

**Overall Flow:**

The diagram shows a two-stage forecasting approach. In the CREATE MODEL stage,
a model is built to separate the target time series into components influenced
by covariates and components that are not. The non-covariate component is then
processed and forecasted using an ARIMA_PLUS pipeline. The covariate component's
relationship with the target is captured by linear regression weights. In the
ML.FORECAST stage, these learned components are combined with future covariate
data to produce a final forecast.

Limites

Les limites suivantes s'appliquent :

Traitement en ligne :
- La taille du fichier d'entrée ne doit pas dépasser 20 Mo, quel que soit le type de fichier.
- 15 pages maximum par fichier PDF
Traitement par lot :
- Taille maximale de 1 Go par fichier PDF
- 500 pages maximum par fichier PDF

Détection de la mise en page par type de fichier

Le tableau suivant liste les éléments que l'analyseur de mise en page peut détecter par type de fichier de document.

Type de fichier	Type MIME	Éléments détectés	Limites
HTML	`text/html`	paragraphe, tableau, liste, titre, en-tête, en-tête de page, pied de page	Sachez que l'analyse repose fortement sur les balises HTML. Il est donc possible que la mise en forme basée sur CSS ne soit pas prise en compte.
PDF	`application/pdf`	figure, paragraphe, tableau, titre, en-tête, en-tête de page, pied de page	Les tableaux qui s'étendent sur plusieurs pages peuvent être divisés en deux.
DOCX	`application/vnd.openxmlformats-officedocument.wordprocessingml.document`	paragraphes, tableaux sur plusieurs pages, listes, titres, éléments d'en-tête	Les tableaux imbriqués ne sont pas acceptés.
PPTX	`application/vnd.openxmlformats-officedocument.presentationml.presentation`	éléments de paragraphe, de tableau, de liste, de titre et d'en-tête	Pour que les titres soient identifiés avec précision, ils doivent être marqués comme tels dans le fichier PowerPoint. Les tableaux imbriqués et les diapositives masquées ne sont pas acceptés.
XLSX	`application/vnd.openxmlformats-officedocument.spreadsheetml.sheet`	tables dans les feuilles de calcul Excel, avec les valeurs `INT`, `FLOAT` et `STRING`	La détection de plusieurs tableaux n'est pas prise en charge. Les feuilles, lignes ou colonnes masquées peuvent également avoir une incidence sur la détection. Les fichiers contenant jusqu'à 5 millions de cellules peuvent être traités.
XLSM	`application/vnd.ms-excel.sheet.macroenabled.12`	une feuille de calcul avec des macros activées, acceptant les valeurs `INT`, `FLOAT` et `STRING`.	La détection de plusieurs tableaux n'est pas prise en charge. Les feuilles, lignes ou colonnes masquées peuvent également avoir une incidence sur la détection.

Étapes suivantes

Consultez la liste des outils de traitement.
Créez un classificateur personnalisé.
Utilisez Enterprise Document OCR pour détecter et extraire du texte.
Consultez Envoyer une requête de traitement par lot de documents pour découvrir comment gérer les réponses.

Guide de démarrage rapide