Prepara i dati di addestramento

Cloud Translation addestra modelli personalizzati utilizzando coppie di segmenti corrispondenti nelle lingue di origine e di destinazione. Considera ogni coppia di segmenti come un elemento di addestramento indipendente, senza presupporre alcuna correlazione tra coppie separate.

Le coppie di segmenti utilizzate per addestrare il modello personalizzato devono essere in formato valori delimitati da tabulazione (.tsv) o Translation Memory eXchange (.tmx). Per saperne di più, consulta Prepara traduzioni di esempio.

Le coppie di segmenti vengono sempre deduplicate in tutte le coppie importate. Una coppia di segmenti è un duplicato di un'altra coppia quando il segmento di origine corrisponde a un altro segmento di origine. Cloud Translation non consente di importare file con lo stesso contenuto.

Suddivisione dei dati

AutoML Translation utilizza le coppie di segmenti che fornisci per scopi diversi durante la creazione del modello personalizzato:

  • Addestramento: coppie di segmenti utilizzate per addestrare il modello. Dedica la maggior parte dei tuoi dati a questo scopo.
  • Convalida: coppie di segmenti utilizzate per convalidare i risultati restituiti dal modello durante l'addestramento.
  • Test: coppie di segmenti utilizzate per generare le metriche di valutazione finali del modello. Indica il possibile rendimento del modello in produzione.

Puoi controllare quali coppie di segmenti vengono utilizzate da AutoML Translation per ogni operazione caricando file separati per i set di addestramento, convalida e test. Se non specifichi esplicitamente quali file utilizzare per questi tre scopi, AutoML Translation suddivide automaticamente le coppie di segmenti in tre set. AutoML Translation utilizza circa l'80% dei dati per l'addestramento, il 10% per la convalida e il 10% per il test. AutoML Translation assegna in modo casuale le coppie di segmenti ai tre set. Puoi avere un massimo di 10.000 coppie di segmenti ciascuno per i set di convalida e di test. Superate le 10.000 coppie, le coppie di segmenti vengono inserite nel set di addestramento.

Se esegui più importazioni di dati nello stesso set di dati, puoi specificare manualmente la suddivisione dei dati per un'importazione e utilizzare la suddivisione automatica per un'altra. I dati vengono sempre ribilanciati rispetto alla divisione manuale dopo ogni importazione ed eliminazione dei file.

Requisiti dei dati

I dati di addestramento devono soddisfare i seguenti requisiti:

  • Se consenti ad AutoML Translation di suddividere automaticamente i dati, devi caricare almeno 1000 coppie di segmenti per addestrare un modello personalizzato.
  • Se suddividi manualmente i dati, devi fornire almeno tre coppie di segmenti per il set TRAIN e almeno 100 coppie di segmenti ciascuno per i set VALIDATION e TEST.
  • Devi fornire almeno tre coppie di segmenti per il set TRAIN e almeno 100 coppie di segmenti ciascuno per i set VALIDATION e TEST.
  • Non puoi fornire più di 10.000 coppie di segmenti ciascuno per i set VALIDATION e TEST.
  • Il set di dati non può superare il massimo di 15 milioni di coppie di segmenti.

Suggerimenti sui dati

I seguenti suggerimenti possono aiutarti a migliorare la qualità del modello:

  • Utilizza almeno 5000 coppie di segmenti per TRAIN, 500 coppie di segmenti per VALIDATION e 500 coppie di segmenti per TEST. Detto questo, se possibile utilizza più dati. Disporre di più dati per il set TRAIN aiuta il modello a imparare i pattern, mentre disporre di più dati per i set VALIDATION e TEST aiuta a verificare che il modello possa essere generalizzato a una gamma più ampia di scenari nel tuo dominio.
  • I segmenti devono contenere circa 200 parole o meno. AutoML Translation potrebbe eliminare coppie di segmenti più grandi. Per saperne di più, consulta Problemi di importazione.
  • Risolvi i problemi comuni relativi ai dati di origine, come descritto nella sezione "Pulisci i dati disorganizzati" nella sezione sulla preparazione dei dati della panoramica.

Passaggi successivi