Elabora i documenti con il parser di layout
Il parser del layout estrae elementi dei contenuti dei documenti come testo, tabelle ed elenchi e crea blocchi sensibili al contesto che facilitano il recupero di informazioni nell'AI generativa e nelle applicazioni di rilevamento.
Funzionalità del parser del layout
Analizza i layout dei documenti. Puoi inserire file HTML o PDF nel parser di layout per identificare elementi dei contenuti come blocchi di testo, tabelle, elenchi ed elementi strutturali come titoli e intestazioni. Questi elementi aiutano a definire l'organizzazione e la gerarchia di un documento con contenuti avanzati ed elementi strutturali che possono creare più contesto per il recupero e l'individuazione delle informazioni.
Dividi i documenti in blocchi. Il parser del layout può dividere i documenti in blocchi che conservano le informazioni contestuali sulla gerarchia del layout del documento originale. I modelli LLM che generano risposte possono utilizzare i chunk per migliorare la pertinenza e ridurre il carico computazionale.
Tenere conto del layout di un documento durante la suddivisione in blocchi migliora la coerenza semantica e riduce il rumore nei contenuti quando vengono utilizzati per il recupero e la generazione di LLM. Tutto il testo di un blocco proviene dalla stessa entità di layout, ad esempio un titolo, un sottotitolo o un elenco.
Parser del layout di Gemini. Anteprima. Il parser del layout di Gemini offre una migliore qualità del layout per il riconoscimento delle tabelle, l'ordine di lettura e il riconoscimento del testo dei file PDF. Puoi attivare la funzionalità per impostazione predefinita selezionando la versione del processore del parser del layout
pretrained-layout-parser-v1.4-2025-08-25,pretrained-layout-parser-v1.5-2025-08-25opretrained-layout-parser-v1.5-pro-2025-08-25per il tuo processore.Analizza immagini e tabelle come annotazioni. Anteprima. Il parser del layout può identificare la presenza di immagini o tabelle nei documenti analizzati. Quando vengono trovati, vengono annotati come un blocco di testo descrittivo con le informazioni rappresentate nell'immagine e nella tabella.
Limitazioni
Si applicano le seguenti limitazioni:
- Elaborazione online:
- Dimensione massima del file di input di 20 MB per tutti i tipi di file
- Massimo 15 pagine per file PDF
- Elaborazione batch:
- Dimensione massima di un singolo file di 1 GB per i file PDF
- Massimo 500 pagine per file PDF
Rilevamento del layout per tipo di file
La tabella seguente elenca gli elementi che il parser del layout può rilevare per tipo di file di documento.
| Tipo di file | Tipo MIME | Elementi rilevati | Limitazioni |
|---|---|---|---|
| HTML | text/html |
paragrafo, tabella, elenco, titolo, intestazione, intestazione di pagina, piè di pagina | Tieni presente che l'analisi si basa in gran parte sui tag HTML, pertanto la formattazione basata su CSS potrebbe non essere acquisita. |
application/pdf |
paragrafo, tabella, titolo, intestazione, intestazione pagina, piè di pagina | Le tabelle che si estendono su più pagine potrebbero essere divise in due tabelle. | |
| DOCX | application/vnd.openxmlformats-officedocument.wordprocessingml.document |
paragrafo, tabelle su più pagine, elenco, titolo, elementi di intestazione | Le tabelle nidificate non sono supportate. |
| PPTX | application/vnd.openxmlformats-officedocument.presentationml.presentation |
elementi paragrafo, tabella, elenco, titolo e intestazione | Affinché i titoli vengano identificati con precisione, devono essere contrassegnati come tali all'interno del file PowerPoint. Le tabelle nidificate e le slide nascoste non sono supportate. |
| XLSX | application/vnd.openxmlformats-officedocument.spreadsheetml.sheet |
tabelle all'interno dei fogli di lavoro Excel, che supportano i valori INT,
FLOAT e STRING |
Il rilevamento di più tabelle non è supportato. Anche i fogli, le righe o le colonne nascosti potrebbero influire sul rilevamento. È possibile elaborare file con un massimo di 5 milioni di celle. |
| XLSM | application/vnd.ms-excel.sheet.macroenabled.12 |
foglio di lavoro con macro abilitata, che supporta i valori INT,
FLOAT e STRING |
Il rilevamento di più tabelle non è supportato. Anche i fogli, le righe o le colonne nascosti potrebbero influire sul rilevamento. |
Versioni del processore
Per l'analizzatore del layout sono disponibili i seguenti modelli. Per modificare le versioni del modello, consulta Gestione delle versioni del processore.
Per inviare una richiesta di aumento della quota (QIR, Quota Increase Request) per la quota predefinita del processore, segui i passaggi descritti in Gestire la quota.
| Versione del modello | Descrizione | Canale di rilascio | Data di uscita |
|---|---|---|---|
pretrained-layout-parser-v1.0-2024-06-03 |
Versione in disponibilità generale per l'analisi del layout dei documenti. Questa è la versione preaddestrata predefinita del processore. | Stabile | 3 giugno 2024 |
pretrained-layout-parser-v1.5-2025-08-25 |
Versione di anteprima basata sul modello LLM Gemini 2.5 Flash per una migliore analisi del layout dei file PDF. Consigliato per chi vuole sperimentare nuove versioni. Se viene utilizzato per file non PDF, avrà lo stesso comportamento della versione stabile pretrained-layout-parser-v1.0-2024-06-03. |
Candidato per la release | 25 agosto 2025 |
pretrained-layout-parser-v1.5-pro-2025-08-25 |
Versione di anteprima basata sul modello LLM Gemini 2.5 Pro per una migliore analisi del layout dei file PDF. La versione 1.5-pro ha una latenza superiore rispetto alla versione 1.5. Se viene utilizzato per file non PDF, avrà lo stesso comportamento della versione stabile 1.0. | Candidato per la release | 25 agosto 2025 |
Prima di iniziare
Per attivare l'analizzatore del layout:
Crea un parser di layout seguendo le istruzioni riportate in Creazione e gestione dei processori.
Il nome del tipo di processore è
LAYOUT_PARSER_PROCESSOR.Attiva l'analizzatore del layout seguendo le istruzioni riportate in Attivare un processore.
Inviare una richiesta di elaborazione online con l'analizzatore di layout
Inserisci i documenti nel parser del layout per analizzarli e suddividerli in blocchi.
Segui le istruzioni per le richieste di elaborazione batch in Invia una richiesta di elaborazione.
Configura i campi in
ProcessOptions.layoutConfiginProcessDocumentRequest.REST
Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:
- LOCATION: la posizione del tuo processore, ad esempio:
us- Stati Unitieu- Unione Europea
- PROJECT_ID: l'ID progetto Google Cloud .
- PROCESSOR_ID: l'ID del processore personalizzato.
- MIME_TYPE: il parser del layout supporta
application/pdfetext/html. - DOCUMENT: i contenuti da dividere in blocchi. Il parser del layout accetta documenti PDF o HTML non elaborati oppure documenti analizzati che sono stati generati dal parser del layout.
- CHUNK_SIZE: (Facoltativo) La dimensione del blocco, in token, da utilizzare per dividere i documenti.
- INCLUDE_ANCESTOR_HEADINGS: (Facoltativo) Valore booleano. Indica se includere o meno le intestazioni predecessore durante la suddivisione dei documenti.
Metodo HTTP e URL:
POST https://LOCATION-documentai.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID:process
Corpo JSON della richiesta:
// Sample for inputting raw documents such as PDF or HTML { "rawDocument": { "mimeType": "MIME_TYPE", "content": "DOCUMENT" }, "processOptions": { "layoutConfig": { "chunkingConfig": { "chunkSize": "CHUNK_SIZE", "includeAncestorHeadings": "INCLUDE_ANCESTOR_HEADINGS", } } } }Per inviare la richiesta, scegli una di queste opzioni:
La risposta include il documento elaborato con le informazioni sul layout e sul chunking comecurl
Salva il corpo della richiesta in un file denominato
request.json, quindi esegui il comando seguente:curl -X POST \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-documentai.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID:process"PowerShell
Salva il corpo della richiesta in un file denominato
request.json, quindi esegui il comando seguente:$headers = @{ }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-documentai.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID:process" | Select-Object -Expand ContentDocument.documentLayouteDocument.chunkedDocument.Python
Per saperne di più, consulta la documentazione di riferimento dell'API Document AI Python.
Per eseguire l'autenticazione in Document AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
- LOCATION: la posizione del tuo processore, ad esempio:
Elabora in batch i documenti con il parser di layout
Utilizza la seguente procedura per analizzare e dividere più documenti in una singola richiesta.
Inserisci i documenti nel parser del layout per analizzarli e suddividerli in blocchi.
Segui le istruzioni per le richieste di elaborazione batch in Invia una richiesta di elaborazione.
Configura i campi in
ProcessOptions.layoutConfigquando effettui una richiestabatchProcess.Input
Il seguente esempio di JSON configura
ProcessOptions.layoutConfig."processOptions": { "layoutConfig": { "chunkingConfig": { "chunkSize": "CHUNK_SIZE", "includeAncestorHeadings": "INCLUDE_ANCESTOR_HEADINGS_BOOLEAN" } } }Sostituisci quanto segue:
CHUNK_SIZE: la dimensione massima del chunk, in numero di token, da utilizzare per dividere i documenti.INCLUDE_ANCESTOR_HEADINGS_BOOLEAN: Indica se includere le intestazioni predecessore durante la suddivisione dei documenti. Le intestazioni predecessore sono i genitori dei sottotitoli nel documento originale. Possono fornire un blocco con un contesto aggiuntivo sulla sua posizione nel documento originale. Un chunk può includere fino a due livelli di intestazioni.
Passaggi successivi
- Esamina l'elenco dei processori.
- Crea un classificatore personalizzato.
- Utilizza la funzionalità di Enterprise Document OCR per rilevare ed estrarre il testo.
- Consulta la sezione Inviare una richiesta di elaborazione batch dei documenti per scoprire come gestire le risposte.