Document AI ti consente di addestrare nuove versioni del processore utilizzando i tuoi dati di addestramento e di valutare la qualità della versione del processore rispetto ai tuoi dati di test.
Questa funzionalità è utile quando vuoi utilizzare un processore personalizzato. Esiste un processore Document AI per il tuo tipo di documento, ma puoi addestrare una versione personalizzata per soddisfare le tue esigenze.
L'addestramento e la valutazione vengono in genere eseguiti in tandem per eseguire l'iterazione verso una versione del processore utilizzabile e di alta qualità.
Document AI
Document AI ti consente di creare il tuo estrattore personalizzato, che estrae le entità dai documenti di un tipo specifico, ad esempio gli elementi di un menu o il nome e i dati di contatto da un curriculum.
A differenza di altri processori, i processori personalizzati non includono versioni del processore preaddestrate e, pertanto, non possono elaborare alcun documento finché non addestri una versione da zero.
Per iniziare a utilizzare Document AI, consulta Creare un processore personalizzato.
Eseguire l'uptraining di un processore
Puoi personalizzare l'addestramento di nuove versioni del processore per migliorare l'accuratezza dei dati, estrarre campi personalizzati aggiuntivi dai documenti e aggiungere il supporto per nuove lingue.
L'uptraining funziona applicando il transfer learning alle versioni del processore preaddestrate di Google e in genere richiede meno dati rispetto all'addestramento da zero.
Per iniziare, consulta Eseguire l'uptraining di un processore preaddestrato.
Processori supportati
Non tutti i processori specializzati supportano l'uptraining. Questi sono i processori che supportano l'uptraining.
Considerazioni e suggerimenti sui dati
La qualità e la quantità dei dati determinano la qualità dell'addestramento, dell'uptraining e della valutazione.
Ottenere un insieme di documenti rappresentativi e reali e fornire etichette di alta qualità sufficienti è spesso la parte più dispendiosa in termini di tempo e risorse della procedura.
Numero di documenti
Se tutti i documenti hanno un formato simile (ad esempio, un modulo fisso con variazioni molto basse), sono necessari meno documenti per ottenere la precisione. Maggiore è la variazione, più documenti sono necessari.
I seguenti grafici forniscono una stima approssimativa del numero di documenti necessari per un estrattore di documenti personalizzato per ottenere un punteggio di qualità specifico.
| Variazione minima | Variazione elevata |
|---|---|
![]() |
![]() |
Etichettatura dati
Valuta le opzioni per l'etichettatura dei documenti e assicurati di avere risorse sufficienti per annotare i documenti nel set di dati.
Addestramento dei modelli
I processori estrattori personalizzati possono utilizzare diversi tipi di modelli a seconda del caso d'uso specifico e dei dati di addestramento disponibili.
- Modello personalizzato: modello che utilizza dati di addestramento etichettati.
- Basato su modelli: documenti con un layout fisso.
- Basato su modelli: documenti con alcune variazioni di layout.
- Modello di AI generativa: basato su modelli di base preaddestrati che richiedono un addestramento aggiuntivo minimo.
La seguente tabella illustra i casi d'uso corrispondenti a ogni tipo di modello.
| Modello personalizzato | AI generativa | ||
|---|---|---|---|
| Basato su modelli | Basato su modelli | ||
| Variazione del layout | Nessuna | Da bassa a media | Alta |
| Quantità di testo in formato libero (ad esempio, paragrafi in un contratto) | Bassa | Bassa | Alta |
| Quantità di dati di addestramento richiesti | Bassa | Alta | Bassa |
| Accuratezza con dati di addestramento limitati | Maggiore | Minore | Maggiore |
Scopri come ottimizzare un processore con le descrizioni delle proprietà.
Quando utilizzare un altro processore
Ecco alcuni casi in cui potresti prendere in considerazione opzioni diverse da Document AI Document AI Workbench o adattare il flusso di lavoro.
- Alcuni formati di input basati su testo (.txt, .html, .docx, .md e così via) non sono supportati da Document AI Document AI Workbench. Valuta altre offerte di elaborazione del linguaggio predefinite o personalizzate, ad esempio l' API Cloud Natural Language. Google Cloud
- Lo schema dell'estrattore di documenti personalizzato supporta fino a 150 etichette di entità. Se la logica di business richiede più di 150 entità nella definizione dello schema, valuta la possibilità di addestrare più processori, ognuno dei quali indirizzato a un sottoinsieme di entità.
Come addestrare un processore
Supponendo che tu abbia già creato un processore che supporta l'addestramento o l'uptraining e etichettato il set di dati, puoi addestrare una nuova versione del processore da zero. In alternativa, puoi eseguire l'uptraining di una nuova versione del processore in base a una esistente.
Addestrare la versione del processore
UI web
Nellaconsole, vai alla scheda Addestra del tuo processore. Google Cloud
Fai clic su Modifica schema per aprire la pagina Gestisci etichette. Verifica le etichette del processore.
Le etichette attivate al momento dell'addestramento determinano le entità estratte dalla nuova versione del processore. Se un'etichetta è inattiva nello schema, la versione del processore non estrae l'etichetta, anche se i documenti sono etichettati.
Nella scheda Addestra, fai clic su Visualizza statistiche etichette e verifica il set di test e il set di addestramento. I documenti con etichetta automatica, senza etichetta o non assegnati vengono esclusi dall'addestramento e dalla valutazione.
Fai clic su Addestra nuova versione.
Il nome della versione definisce il
namecampo diprocessorVersion.
Fai clic su Inizia addestramento e attendi che la nuova versione del processore venga addestrata e valutata.
Puoi monitorare l'avanzamento dell'addestramento nella scheda Gestisci versioni:

Fai clic sulla scheda Valuta e verifica per vedere il rendimento della nuova versione del processore nel test set. Per saperne di più, consulta Valutare la versione del processore.
Python
Per saperne di più, consulta la documentazione di riferimento dell' API Python di Document AI.
Per eseguire l'autenticazione in Document AI, configura le credenziali predefinite dell'applicazione. Per saperne di più, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Eseguire il deployment e utilizzare la versione del processore
Puoi eseguire il deployment e gestire le versioni del processore come qualsiasi altra versione del processore. Per saperne di più, consulta Gestire le versioni del processore.
Dopo il deployment, puoi inviare una richiesta di elaborazione al processore personalizzato.
Disabilitare o eliminare un processore
Se non vuoi più utilizzare un processore, puoi disabilitarlo o eliminarlo. Se disabiliti un processore, puoi riattivarlo. Se elimini un processore, non puoi recuperarlo.
Nel riquadro Document AI a sinistra, fai clic su I miei processori.
Fai clic sui puntini verticali a destra del nome del processore. Fai clic su Disabilita processore o Elimina processore.
Per saperne di più, consulta Gestire le versioni del processore.
Eseguire l'upgrade di una versione del processore ottimizzata
Puoi eseguire l'upgrade delle versioni del processore estrattore personalizzato ottimizzate a una versione di base più recente. Verrà creata una versione del processore con una versione di base più recente con configurazioni basate su quella precedente, utilizzando i dati di addestramento originali nel processore.
Nella console Google Google Cloud , vai alla scheda Esegui il deployment e utilizza del tuo processore, e seleziona una casella di controllo per una versione del processore supportata per l'upgrade. Questa sarà la base della configurazione della nuova versione del processore.

Seleziona Esegui l'upgrade abilitato. Inserisci il nome e la versione di base della nuova versione del processore.

Fai clic su Esegui l'upgrade e attendi che la nuova versione del processore venga addestrata.
Crittografia dei dati di addestramento
I dati di addestramento di Document AI vengono salvati in Cloud Storage e, se necessario, possono essere criptati con chiavi di crittografia gestite dal cliente.
Eliminazione dei dati di addestramento
Al termine di un job di addestramento di Document AI, tutti i dati di addestramento salvati in Cloud Storage scadono dopo un periodo di conservazione di due giorni. Le successive attività di eliminazione dei dati rispettano la procedura descritta in Eliminazione dei dati su Google Cloud.
Prezzi
L'addestramento o l'uptraining non comportano costi. Paghi per l'hosting e la previsione. Per saperne di più, consulta i prezzi di Document AI.

