Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Addestra e valuta

Document AI ti consente di addestrare nuove versioni del processore utilizzando i tuoi dati di addestramento e valutare la qualità della versione del processore rispetto ai tuoi dati di test.

Questa opzione è utile quando vuoi utilizzare un processore personalizzato. Esiste un processore Document AI per il tuo tipo di documento, ma puoi eseguire l'upgrade di una versione personalizzata per soddisfare le tue esigenze.

L'addestramento e la valutazione vengono in genere eseguiti in tandem per eseguire l'iterazione verso una versione del processore utilizzabile e di alta qualità.

Document AI

Document AI ti consente di creare un estrattore personalizzato, che estrae entità da documenti di un particolare tipo, ad esempio gli elementi di un menu o il nome e i dati di contatto da un curriculum.

A differenza di altri processori, i processori personalizzati non vengono forniti con versioni del processore preaddestrate e pertanto non possono elaborare documenti finché non addestri una versione da zero.

Per iniziare a utilizzare Document AI, consulta Crea il tuo processore personalizzato.

Ottimizzare l'addestramento di un processore

Puoi ottimizzare l'addestramento di nuove versioni del processore per migliorare l'accuratezza dei tuoi dati, estrarre campi personalizzati aggiuntivi dai tuoi documenti e aggiungere il supporto per nuove lingue.

L'addestramento up funziona applicando il transfer learning alle versioni preaddestrate del processore Google e in genere richiede meno dati rispetto all'addestramento da zero.

Per iniziare, vedi Addestrare un processore preaddestrato.

Processori supportati

Non tutti i processori specializzati supportano l'upscaling. Questi sono i processori che supportano l'addestramento.

Considerazioni e consigli sui dati

La qualità e la quantità dei dati determinano la qualità dell'addestramento, dell'addestramento aggiuntivo e della valutazione.

Ottenere un insieme di documenti rappresentativi e reali e fornire un numero sufficiente di etichette di alta qualità è spesso la parte più dispendiosa in termini di tempo e risorse del processo.

Numero di documenti

Se i tuoi documenti hanno tutti un formato simile (ad esempio, un modulo fisso con una variazione molto bassa), sono necessari meno documenti per ottenere l'accuratezza. Maggiore è la variazione, più documenti sono necessari.

I seguenti grafici forniscono una stima approssimativa del numero di documenti necessari affinché un estrattore di documenti personalizzato raggiunga un determinato punteggio di qualità.

Variazione minima	Variazione elevata

Etichettatura dati

Valuta le opzioni per l'etichettatura dei documenti e assicurati di disporre di risorse sufficienti per annotare i documenti nel tuo set di dati.

Addestramento dei modelli

I processori di estrazione personalizzati possono utilizzare diversi tipi di modelli a seconda del caso d'uso specifico e dei dati di addestramento disponibili.

Modello personalizzato: modello che utilizza dati di addestramento etichettati.
- Basati su template: documenti con un layout fisso.
- Basato su modello: documenti con alcune variazioni di layout.
Modello di AI generativa: basato su foundation model preaddestrati che richiedono un addestramento aggiuntivo minimo.

La tabella seguente illustra quali casi d'uso corrispondono a ciascun tipo di modello.

	Modello personalizzato		Generative AI
	Basato su modelli	Basato su modelli	Generative AI
Variazione del layout	Nessuno	Da basso a medio	Alta
Quantità di testo in formato libero (ad esempio, paragrafi in un contratto)	Bassa	Bassa	Alta
Quantità di dati di addestramento richiesti	Bassa	Alta	Bassa
Accuratezza con dati di addestramento limitati	Maggiore	Meno	Maggiore

Scopri come ottimizzare un processore con le descrizioni delle proprietà.

Quando utilizzare un altro processore

Ecco alcuni casi in cui potresti prendere in considerazione opzioni diverse da Document AI Workbench o adattare il tuo flusso di lavoro.

Alcuni formati di input basati su testo (.txt, .html, .docx, .md e così via) non sono supportati da Document AI Workbench. Valuta altre offerte di elaborazione del linguaggio predefinite o personalizzate in Google Cloud, come l'API Cloud Natural Language.
Lo schema dell'estrattore personalizzato di documenti supporta fino a 150 etichette di entità. Se la tua logica di business richiede più di 150 entità nella definizione dello schema, valuta la possibilità di addestrare più processori, ognuno dei quali ha come target un sottoinsieme di entità.

Come addestrare un processore

Supponendo che tu abbia già creato un processore che supporta l'addestramento o l'uptraining e etichettato il set di dati, puoi addestrare una nuova versione del processore da zero. In alternativa, puoi eseguire l'uptraining di una nuova versione del processore in base a una esistente.

Addestra la versione del processore

UI web

Nella console Google Cloud , vai alla scheda Addestra del tuo processore.

Vai alla Galleria dei processori
Fai clic su Modifica schema per aprire la pagina Gestisci etichette. Verifica le etichette del processore.

Le etichette attivate al momento dell'addestramento determinano le entità che la nuova versione del processore estrae. Se un'etichetta è inattiva nello schema, la versione del processore non la estrae, anche se i documenti sono etichettati.
Nella scheda Addestra, fai clic su Visualizza statistiche etichette e verifica il set di test e addestramento. I documenti etichettati automaticamente, senza etichetta o non assegnati vengono esclusi dall'addestramento e dalla valutazione.
Fai clic su Addestra nuova versione.

Il Nome versione definisce il campo name di processorVersion.
Fai clic su Inizia addestramento e attendi che la nuova versione del processore venga addestrata e valutata.

Puoi monitorare l'avanzamento dell'addestramento nella scheda Gestisci versioni:
Fai clic sulla scheda Valuta e verifica per vedere il rendimento della nuova versione del processore nel test set. Per saperne di più, vedi Valuta la versione del processore.

Python

Per saperne di più, consulta la documentazione di riferimento dell'API Document AI Python.

Per eseguire l'autenticazione in Document AI, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configura l'autenticazione per un ambiente di sviluppo locale.


from typing import Optional

from google.api_core.client_options import ClientOptions
from google.cloud import documentai  # type: ignore

# TODO(developer): Uncomment these variables before running the sample.
# project_id = 'YOUR_PROJECT_ID'
# location = 'YOUR_PROCESSOR_LOCATION' # Format is 'us' or 'eu'
# processor_id = 'YOUR_PROCESSOR_ID'
# processor_version_display_name = 'new-processor-version'
# train_data_uri = 'gs://bucket/directory/' # (Optional)
# test_data_uri = 'gs://bucket/directory/' # (Optional)


def train_processor_version_sample(
    project_id: str,
    location: str,
    processor_id: str,
    processor_version_display_name: str,
    train_data_uri: Optional[str] = None,
    test_data_uri: Optional[str] = None,
) -> None:
    # You must set the api_endpoint if you use a location other than 'us', e.g.:
    opts = ClientOptions(api_endpoint=f"{location}-documentai.googleapis.com")

    client = documentai.DocumentProcessorServiceClient(client_options=opts)

    # The full resource name of the processor
    # e.g. `projects/{project_id}/locations/{location}/processors/{processor_id}
    parent = client.processor_path(project_id, location, processor_id)

    processor_version = documentai.ProcessorVersion(
        display_name=processor_version_display_name
    )

    # If train/test data is not supplied, the default sets in the Cloud Console will be used
    input_data = documentai.TrainProcessorVersionRequest.InputData(
        training_documents=documentai.BatchDocumentsInputConfig(
            gcs_prefix=documentai.GcsPrefix(gcs_uri_prefix=train_data_uri)
        ),
        test_documents=documentai.BatchDocumentsInputConfig(
            gcs_prefix=documentai.GcsPrefix(gcs_uri_prefix=test_data_uri)
        ),
    )

    request = documentai.TrainProcessorVersionRequest(
        parent=parent, processor_version=processor_version, input_data=input_data
    )

    operation = client.train_processor_version(request=request)
    # Print operation details
    print(operation.operation.name)
    # Wait for operation to complete
    response = documentai.TrainProcessorVersionResponse(operation.result())

    metadata = documentai.TrainProcessorVersionMetadata(operation.metadata)

    print(f"New Processor Version:{response.processor_version}")
    print(f"Training Set Validation: {metadata.training_dataset_validation}")
    print(f"Test Set Validation: {metadata.test_dataset_validation}")

Esegui il deployment e utilizza la versione del processore

Puoi eseguire il deployment e gestire le versioni del processore come qualsiasi altra versione del processore. Per saperne di più, consulta Gestione delle versioni del processore.

Dopo il deployment, puoi inviare una richiesta di elaborazione al processore personalizzato.

Disattivare o eliminare un processore

Se non vuoi più utilizzare un responsabile del trattamento, puoi disattivarlo o eliminarlo. Se disattivi un processore, puoi riattivarlo. Se elimini un processore, non puoi recuperarlo.

Nel riquadro Document AI a sinistra, fai clic su I miei processori.
Fai clic sui tre puntini verticali a destra del nome del processore. Fai clic su Disattiva processore o Elimina processore.

Per saperne di più, consulta Gestione delle versioni del processore.

Eseguire l'upgrade di una versione del processore ottimizzata

Puoi eseguire l'upgrade delle versioni del processore estrattore personalizzato ottimizzato a una versione di base più recente. Le configurazioni della versione di base più recente si baseranno su quella precedente. Utilizzerà i dati di addestramento del processore presenti nelle versioni originali.

Nella console Google Google Cloud , vai alla scheda Deploy e utilizzo del processore e seleziona una casella di controllo per una versione del processore supportata per l'upgrade. Questa sarà la base della configurazione della nuova versione del processore.
Seleziona l'upgrade attivato. Inserisci il nome e la versione di base per la nuova versione del processore.
Fai clic su Esegui l'upgrade e attendi l'addestramento della nuova versione del processore.

Utilizzare l'API per eseguire l'upgrade

Puoi anche utilizzare le chiamate API per eseguire l'upgrade delle versioni del processore estrattore personalizzato ottimizzato a una versione di base più recente.

curl

Questo esempio mostra come eseguire la migrazione di un modello processor ottimizzato esistente utilizzando il campo FoundationModelTuningOptions in TrainingMethod.

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni con le informazioni nella scheda Google Cloud Panoramica della console Document AI per il tuo processore.

LOCATION: la posizione del processore.
PROJECT_ID: il tuo ID progetto.
PROCESSOR_ID: il tuo ID processore.
DISPLAY_NAME: il nuovo nome visualizzato del processore.
BASE_PROCESSOR_VERSION: Il nome della versione del processore del modello attuale

PROCESSOR_VERSION: l'ID del processore attuale da aggiornare

curl -X POST -v -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://LOCATION-documentai.googleapis.com/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID/processorVersions:train" \
  -d '{
  "processor_version": {
    "display_name": "DISPLAY_NAME"
  },
  "base_processor_version": "projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID/processorVersions/BASE_PROCESSOR_VERSION",
  "foundation_model_tuning_options": {
  "train_steps": 10,
  "learning_rate_multiplier": 1,
  "previous_fine_tuned_processor_version_name": "projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID/processorVersions/PROCESSOR_VERSION",
  }
}'

Crittografia dei dati di addestramento

I dati di addestramento di Document AI vengono salvati in Cloud Storage e possono essere criptati con chiavi di crittografia gestite dal cliente se necessario.

Eliminazione dei dati di addestramento

Una volta completato un job di addestramento di Document AI, tutti i dati di addestramento salvati in Cloud Storage scadono dopo un periodo di conservazione di due giorni. Le successive attività di eliminazione dei dati rispettano la procedura descritta in Eliminazione dei dati su Google Cloud.

Prezzi

L'addestramento o il riaddestramento non prevedono costi. Paghi l'hosting e la previsione. Per saperne di più, consulta la pagina Prezzi di Document AI.

Indietro

Procedura di etichettatura

Avanti

Ottimizzare l'addestramento di un processore preaddestrato