Document AI ti consente di addestrare nuove versioni del processore utilizzando i tuoi dati di addestramento e valutare la qualità della versione del processore rispetto ai tuoi dati di test.
Questa opzione è utile quando vuoi utilizzare un processore personalizzato. Esiste un processore Document AI per il tuo tipo di documento, ma puoi eseguire l'upgrade di una versione personalizzata per soddisfare le tue esigenze.
L'addestramento e la valutazione vengono in genere eseguiti in tandem per eseguire l'iterazione verso una versione del processore utilizzabile e di alta qualità.
Document AI
Document AI ti consente di creare un estrattore personalizzato, che estrae entità da documenti di un particolare tipo, ad esempio gli elementi di un menu o il nome e i dati di contatto da un curriculum.
A differenza di altri processori, i processori personalizzati non vengono forniti con versioni del processore preaddestrate e pertanto non possono elaborare documenti finché non addestri una versione da zero.
Per iniziare a utilizzare Document AI, consulta Crea il tuo processore personalizzato.
Ottimizzare l'addestramento di un processore
Puoi ottimizzare l'addestramento di nuove versioni del processore per migliorare l'accuratezza dei tuoi dati, estrarre campi personalizzati aggiuntivi dai tuoi documenti e aggiungere il supporto per nuove lingue.
L'addestramento up funziona applicando il transfer learning alle versioni preaddestrate del processore Google e in genere richiede meno dati rispetto all'addestramento da zero.
Per iniziare, vedi Addestrare un processore preaddestrato.
Processori supportati
Non tutti i processori specializzati supportano l'upscaling. Questi sono i processori che supportano l'addestramento.
Considerazioni e consigli sui dati
La qualità e la quantità dei dati determinano la qualità dell'addestramento, dell'addestramento aggiuntivo e della valutazione.
Ottenere un insieme di documenti rappresentativi e reali e fornire un numero sufficiente di etichette di alta qualità è spesso la parte più dispendiosa in termini di tempo e risorse del processo.
Numero di documenti
Se i tuoi documenti hanno tutti un formato simile (ad esempio, un modulo fisso con una variazione molto bassa), sono necessari meno documenti per ottenere l'accuratezza. Maggiore è la variazione, più documenti sono necessari.
I seguenti grafici forniscono una stima approssimativa del numero di documenti necessari affinché un estrattore di documenti personalizzato raggiunga un determinato punteggio di qualità.
| Variazione minima | Variazione elevata |
|---|---|
![]() |
![]() |
Etichettatura dati
Valuta le opzioni per l'etichettatura dei documenti e assicurati di disporre di risorse sufficienti per annotare i documenti nel tuo set di dati.
Addestramento dei modelli
I processori di estrazione personalizzati possono utilizzare diversi tipi di modelli a seconda del caso d'uso specifico e dei dati di addestramento disponibili.
- Modello personalizzato: modello che utilizza dati di addestramento etichettati.
- Basati su template: documenti con un layout fisso.
- Basato su modello: documenti con alcune variazioni di layout.
- Modello di AI generativa: basato su foundation model preaddestrati che richiedono un addestramento aggiuntivo minimo.
La tabella seguente illustra quali casi d'uso corrispondono a ciascun tipo di modello.
| Modello personalizzato | Generative AI | ||
|---|---|---|---|
| Basato su modelli | Basato su modelli | ||
| Variazione del layout | Nessuno | Da basso a medio | Alta |
| Quantità di testo in formato libero (ad esempio, paragrafi in un contratto) | Bassa | Bassa | Alta |
| Quantità di dati di addestramento richiesti | Bassa | Alta | Bassa |
| Accuratezza con dati di addestramento limitati | Maggiore | Meno | Maggiore |
Scopri come ottimizzare un processore con le descrizioni delle proprietà.
Quando utilizzare un altro processore
Ecco alcuni casi in cui potresti prendere in considerazione opzioni diverse da Document AI Workbench o adattare il tuo flusso di lavoro.
- Alcuni formati di input basati su testo (.txt, .html, .docx, .md e così via) non sono supportati da Document AI Workbench. Valuta altre offerte di elaborazione del linguaggio predefinite o personalizzate in Google Cloud, come l'API Cloud Natural Language.
- Lo schema dell'estrattore personalizzato di documenti supporta fino a 150 etichette di entità. Se la tua logica di business richiede più di 150 entità nella definizione dello schema, valuta la possibilità di addestrare più processori, ognuno dei quali ha come target un sottoinsieme di entità.
Come addestrare un processore
Supponendo che tu abbia già creato un processore che supporta l'addestramento o l'uptraining e etichettato il set di dati, puoi addestrare una nuova versione del processore da zero. In alternativa, puoi eseguire l'uptraining di una nuova versione del processore in base a una esistente.
Addestra la versione del processore
UI web
Nella console Google Cloud , vai alla scheda Addestra del tuo processore.
Fai clic su Modifica schema per aprire la pagina Gestisci etichette. Verifica le etichette del processore.
Le etichette attivate al momento dell'addestramento determinano le entità che la nuova versione del processore estrae. Se un'etichetta è inattiva nello schema, la versione del processore non la estrae, anche se i documenti sono etichettati.
Nella scheda Addestra, fai clic su Visualizza statistiche etichette e verifica il set di test e addestramento. I documenti etichettati automaticamente, senza etichetta o non assegnati vengono esclusi dall'addestramento e dalla valutazione.
Fai clic su Addestra nuova versione.
Il Nome versione definisce il campo
namediprocessorVersion.
Fai clic su Inizia addestramento e attendi che la nuova versione del processore venga addestrata e valutata.
Puoi monitorare l'avanzamento dell'addestramento nella scheda Gestisci versioni:

Fai clic sulla scheda Valuta e verifica per vedere il rendimento della nuova versione del processore nel test set. Per saperne di più, vedi Valuta la versione del processore.
Python
Per saperne di più, consulta la documentazione di riferimento dell'API Document AI Python.
Per eseguire l'autenticazione in Document AI, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Esegui il deployment e utilizza la versione del processore
Puoi eseguire il deployment e gestire le versioni del processore come qualsiasi altra versione del processore. Per saperne di più, consulta Gestione delle versioni del processore.
Dopo il deployment, puoi inviare una richiesta di elaborazione al processore personalizzato.
Disattivare o eliminare un processore
Se non vuoi più utilizzare un responsabile del trattamento, puoi disattivarlo o eliminarlo. Se disattivi un processore, puoi riattivarlo. Se elimini un processore, non puoi recuperarlo.
Nel riquadro Document AI a sinistra, fai clic su I miei processori.
Fai clic sui tre puntini verticali a destra del nome del processore. Fai clic su Disattiva processore o Elimina processore.
Per saperne di più, consulta Gestione delle versioni del processore.
Eseguire l'upgrade di una versione del processore ottimizzata
Puoi eseguire l'upgrade delle versioni del processore estrattore personalizzato ottimizzato a una versione di base più recente. Le configurazioni della versione di base più recente si baseranno su quella precedente. Utilizzerà i dati di addestramento del processore presenti nelle versioni originali.
Nella console Google Google Cloud , vai alla scheda Deploy e utilizzo del processore e seleziona una casella di controllo per una versione del processore supportata per l'upgrade. Questa sarà la base della configurazione della nuova versione del processore.

Seleziona l'upgrade attivato. Inserisci il nome e la versione di base per la nuova versione del processore.

Fai clic su Esegui l'upgrade e attendi l'addestramento della nuova versione del processore.
Utilizzare l'API per eseguire l'upgrade
Puoi anche utilizzare le chiamate API per eseguire l'upgrade delle versioni del processore estrattore personalizzato ottimizzato a una versione di base più recente.
curl
Questo esempio mostra come eseguire la migrazione di un modello processor ottimizzato esistente utilizzando il campo FoundationModelTuningOptions
in TrainingMethod.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni con le informazioni nella scheda Google Cloud Panoramica della console Document AI per il tuo processore.
- LOCATION: la posizione del processore.
- PROJECT_ID: il tuo ID progetto.
- PROCESSOR_ID: il tuo ID processore.
- DISPLAY_NAME: il nuovo nome visualizzato del processore.
- BASE_PROCESSOR_VERSION: Il nome della versione del processore del modello attuale
PROCESSOR_VERSION: l'ID del processore attuale da aggiornare
curl -X POST -v -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://LOCATION-documentai.googleapis.com/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID/processorVersions:train" \ -d '{ "processor_version": { "display_name": "DISPLAY_NAME" }, "base_processor_version": "projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID/processorVersions/BASE_PROCESSOR_VERSION", "foundation_model_tuning_options": { "train_steps": 10, "learning_rate_multiplier": 1, "previous_fine_tuned_processor_version_name": "projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID/processorVersions/PROCESSOR_VERSION", } }'
Crittografia dei dati di addestramento
I dati di addestramento di Document AI vengono salvati in Cloud Storage e possono essere criptati con chiavi di crittografia gestite dal cliente se necessario.
Eliminazione dei dati di addestramento
Una volta completato un job di addestramento di Document AI, tutti i dati di addestramento salvati in Cloud Storage scadono dopo un periodo di conservazione di due giorni. Le successive attività di eliminazione dei dati rispettano la procedura descritta in Eliminazione dei dati su Google Cloud.
Prezzi
L'addestramento o il riaddestramento non prevedono costi. Paghi l'hosting e la previsione. Per saperne di più, consulta la pagina Prezzi di Document AI.

