Guida per nuovi utenti di AutoML Translation
AutoML Translation ti consente di creare modelli personalizzati (senza scrivere codice) personalizzati per i specifici del tuo dominio rispetto al modello di traduzione automatica neurale (NMT) di Google predefinito.
Supponiamo che tu gestisca un servizio di report finanziari che ha l'opportunità di espandersi in nuovi paesi. Questi mercati richiedono che i tuoi documenti finanziari urgenti vengano tradotti in tempo reale. Anziché assumere personale finanziario bilingue o stipulare un contratto con un traduttore specializzato, opzioni che presentano un costo elevato dovuto a esperienza nel settore e necessità di tempi di risposta rapidi, un modello personalizzato può aiutarti ad automatizzare i job di traduzione in modo scalabile.

Provalo
Se non conosci Google Cloud, crea un account per valutare le prestazioni di Cloud Translation in scenari reali. I nuovi clienti ricevono anche 300 $ di crediti gratuiti per l'esecuzione, il test e il deployment dei workload.
Prova Cloud Translation gratuitamentePerché il machine learning (ML) è lo strumento giusto per questo problema?
La programmazione classica richiede al programmatore di specificare istruzioni passo passo che il computer deve seguire.
Tuttavia, questo approccio basato su regole diventa rapidamente impraticabile per la traduzione. Il linguaggio naturale è complesso, così come la sua traduzione. La traduzione automatica viene eseguita quasi interamente con un approccio statistico, con enormi corpora paralleli che sostituiscono gli esperti linguistici che mettono a punto manualmente set specifici di regole.
Hai bisogno di un sistema in grado di generalizzare un'ampia gamma di scenari di traduzione, ma che sia focalizzato sul tuo caso d'uso e sul dominio linguistico specifico della tua attività nelle coppie di lingue che ti interessano. In uno scenario in cui una sequenza di regole specifiche è destinata a espandersi in modo esponenziale, è necessario un sistema in grado di apprendere dagli esempi. Fortunatamente, i sistemi di machine learning sono ben posizionati per risolvere questo problema.
Lo strumento giusto per me è il modello NMT predefinito o un modello personalizzato?
Il modello di traduzione automatica neurale (NMT) copre un numero elevato di coppie linguistiche e funziona bene con testi di carattere generico. Un modello personalizzato eccelle davvero nell'"ultimo miglio" tra le attività di traduzione generiche e i vocabolari specifici e di nicchia. AutoML Translation parte dal modello NMT generico e poi lo ottimizza in base ai tuoi dati di addestramento per ottenere la traduzione corretta per i contenuti specifici del dominio che ti interessa.
Cosa comporta il machine learning?
Il machine learning prevede l'utilizzo di dati per addestrare algoritmi al fine di ottenere un risultato desiderato. I dettagli dell'algoritmo e dei metodi di addestramento cambiano in base all'ambito del problema. Esistono molte sottocategorie diverse di machine learning, ognuna delle quali risolve problemi diversi e opera entro vincoli diversi. AutoML Translation consente di eseguire l'apprendimento supervisionato, che prevede l'addestramento di un computer affinché riconosca i pattern delle coppie di segmenti tradotte. Utilizzando l'apprendimento supervisionato, possiamo addestrare un modello personalizzato per tradurre i contenuti specifici del dominio che ti interessa.
Preparazione dei dati
Per addestrare un modello personalizzato, devi fornirgli coppie corrispondenti di segmenti nelle lingue di origine e di destinazione, ovvero coppie di segmenti con lo stesso significato nella lingua da cui vuoi tradurre e in quella in cui vuoi tradurre. Più i significati delle coppie di segmenti sono simili, meglio funzionerà il modello.
Valuta il tuo caso d'uso
Quando crei il set di dati, inizia sempre dal caso d'uso. Puoi iniziare ponendoti le seguenti domande:
- Qual è il risultato che stai cercando di ottenere?
- Quali tipi di segmenti devi tradurre per raggiungere questo risultato? È un'attività che il modello NMT può svolgere immediatamente?
- Degli esseri umani possono tradurre questi segmenti in modo soddisfacente? Se l'attività di traduzione è intrinsecamente ambigua, al punto che una persona che parla correntemente entrambe le lingue avrebbe difficoltà a svolgere un lavoro soddisfacente, potresti scoprire che il modello NMT e il tuo modello personalizzato hanno rendimenti simili.
- Quali tipi di esempi riflettono meglio il tipo e la varietà di dati che il tuo sistema dovrà tradurre?
Un principio fondamentale alla base dei prodotti di ML di Google è il machine learning incentrato sull'uomo, un approccio che mette in primo piano le pratiche di AI responsabile, inclusa l'equità. L'obiettivo dell'equità nel machine learning è comprendere e prevenire trattamenti ingiusti o pregiudiziali nei confronti di persone in base a gruppo etnico, reddito, orientamento sessuale, religione, genere e altre caratteristiche storicamente associate a discriminazione ed emarginazione, quando e dove si manifestano in sistemi algoritmici o nel processo decisionale assistito da algoritmi. Per saperne di più, consulta la nostra guida e trova le note sull'attenzione all'equità ✽ nelle linee guida riportate di seguito. Man mano che esamini le linee guida per la creazione del set di dati, ti invitiamo a considerare l'equità nel machine learning nei casi in cui è pertinente al tuo caso d'uso.
Ottieni i dati da un'origine
Dopo aver stabilito quali dati ti servono, devi trovare un modo per reperirli. Puoi iniziare prendendo in considerazione tutti i dati raccolti dalla tua organizzazione. Potresti scoprire che stai già raccogliendo i dati necessari per addestrare un modello di traduzione. Se non disponi dei dati necessari, puoi ottenerli manualmente o esternalizzarli a un fornitore di terze parti.
Abbina i dati al dominio del tuo problema
Stai addestrando un modello di traduzione personalizzato perché hai bisogno di un modello adatto a un particolare dominio linguistico. Assicurati che le coppie di segmenti coprano al meglio il vocabolario, l'utilizzo e le peculiarità grammaticali del tuo settore o area di interesse. Trova documenti che contengano utilizzi tipici che troveresti nelle attività di traduzione che vuoi portare a termine e assicurati che le frasi parallele corrispondano il più possibile nel significato. Ovviamente, a volte le lingue non corrispondono perfettamente nel vocabolario o nella sintassi, ma cerca di cogliere tutta la diversità semantica che ti aspetti di incontrare nell'uso, se possibile.
Ti stai basando su un modello che esegue già un ottimo lavoro con la traduzione generica. I tuoi esempi sono l'ultimo passaggio che consente ai modelli personalizzati di funzionare per il tuo caso d'uso particolare, quindi assicurati che siano pertinenti e rappresentativi dell'utilizzo che prevedi.
Cattura la diversità del tuo spazio linguistico
È allettante presumere che il modo in cui le persone scrivono di un dominio specifico sia abbastanza uniforme da far sì che un piccolo numero di campioni di testo tradotti da pochi traduttori sia sufficiente per addestrare un modello che funzioni bene per chiunque altro si occupi di scrivere di quel dominio. Tuttavia, siamo tutti diversi tra noi, e ognuno porta la propria personalità nelle parole che scrive. Un set di dati di addestramento con coppie di segmenti di un'ampia selezione di autori e traduttori ha maggiori probabilità di fornire un modello utile per tradurre testi di un'organizzazione diversificata.
Inoltre, considera la varietà di lunghezze e strutture dei segmenti; un set di dati in cui tutti i segmenti hanno le stesse dimensioni o condividono una struttura grammaticale simile non fornirà a Cloud Translation informazioni sufficienti per creare un buon modello che tenga conto di tutte le possibilità.
Mantieni l'approccio human-in-the-loop
Se è possibile, assicurati che una persona che conosce bene entrambe le lingue abbia verificato che le coppie di segmenti corrispondano in modo corretto e rappresentino traduzioni comprensibili e accurate. Un errore semplice come il disallineamento delle righe del foglio di lavoro dei dati di addestramento può produrre traduzioni che sembrano non avere senso. I dati di alta qualità sono la cosa più importante da fornire ad AutoML Translation per ottenere un modello utilizzabile per la tua attività.
Pulisci i dati disorganizzati
È facile commettere errori durante la pre-elaborazione dei dati, e alcuni di questi errori possono confondere un modello personalizzato. In particolare, cerca i seguenti problemi relativi ai dati che puoi risolvere:
- Rimuovi i segmenti di origine duplicati, soprattutto se hanno traduzioni di destinazione diverse. AutoML Translation utilizza solo il primo esempio visualizzato ed elimina tutte le altre coppie al momento dell'importazione. Se rimuovi i duplicati, ti assicuri che AutoML Translation utilizzi la traduzione che preferisci.
- Allinea i segmenti di origine ai segmenti di destinazione corretti.
- Fai corrispondere i segmenti alla lingua specificata; ad esempio, includi solo i segmenti in cinese in un set di dati in cinese.
- Per i segmenti di pubblico di destinazione che includono lingue miste, verifica che eventuali parole non tradotte siano intenzionali, ad esempio i nomi di prodotti o organizzazioni. I segmenti di destinazione che includono erroneamente parole non tradotte aggiungono rumore ai dati di addestramento, il che può comportare un modello di qualità inferiore.
- Correggi i segmenti con errori tipografici o grammaticali in modo che il modello non li apprenda.
- Rimuovi i contenuti non traducibili, come i tag segnaposto e i tag HTML. I contenuti non traducibili possono causare errori di punteggiatura.
- Non includere traduzioni che sostituiscono entità generiche con nomi specifici. Ad esempio, potresti avere un esempio in cui "presidente" è sostituito dal nome di un presidente specifico, come "JFK" o "John F. Kennedy". Il modello potrebbe imparare che tutte le istanze di "presidente" vanno modificate in "JFK". Rimuovi queste traduzioni o modifica i nomi specifici con un nome comune.
- Rimuovi i segmenti duplicati nei set di addestramento e test. (Scopri di più sui set di addestramento e di test)
- Dividi i segmenti in più coppie di segmenti. L'addestramento su un set di dati in cui molti elementi contengono più di circa 50 token (parole) produce modelli di qualità inferiore. Suddividi questi elementi in singole frasi, se possibile.
- Utilizza una formattazione coerente. La distinzione tra maiuscole e minuscole influisce ad esempio sul modo in cui un modello apprende come distinguere un titolo dal corpo del testo.
- Rimuovi i tag TMX quando importi i dati da un file TSV. In alcuni casi, potresti esportare la memoria di traduzione esistente in un file TSV, che potrebbe includere tag TMX. Tuttavia, AutoML Translation pulisce i tag delle unità di traduzione solo quando importi da un file TMX (non dai file TSV).
Pre-elaborazione dei dati di AutoML Translation
AutoML Translation interrompe l'analisi del file di input dei dati quando:
- La formattazione non è valida
- È presente una coppia di segmenti irragionevolmente lunga (10 MB)
- Il file utilizza una codifica diversa da UTF-8
AutoML Translation ignora gli errori per i problemi che non riesce a rilevare, ad esempio:
- Un elemento <tu> in un file TMX non ha la lingua di origine o di destinazione.
- Una delle coppie di segmenti di input è vuota.
Per la suddivisione automatica dei dati, AutoML Translation esegue un'elaborazione aggiuntiva:
- Una volta caricato il set di dati, vengono rimosse le coppie di segmenti con segmenti di origine identici.
- I dati vengono suddivisi casualmente in tre set con un rapporto di 8:1:1 (addestramento:convalida:test) prima dell'addestramento.
Considera il modo in cui AutoML Translation utilizza il tuo set di dati per creare un modello personalizzato
Il set di dati contiene set di addestramento, convalida e test. Se non specifichi le suddivisioni (vedi Preparazione dei dati di addestramento) e il set di dati contiene meno di 100.000 coppie di segmenti, AutoML Translation utilizza automaticamente l'80% dei documenti per l'addestramento, il 10% per la convalida e il 10% per il test. Se i dati sono di più, dovrai eseguire la suddivisione dei dati autonomamente.
Set di addestramento
La maggior parte dei dati dovrebbe trovarsi nel set di addestramento. Questi sono i dati che il modello "vede" durante l'addestramento: vengono utilizzati per apprendere i parametri del modello, ossia i pesi delle connessioni tra i nodi della rete neurale.
Set di validazione
Anche il set di validazione, talvolta chiamato set "dev", viene utilizzato durante il processo di addestramento. Durante l'apprendimento del modello, il framework utilizza il set di addestramento per addestrare una suite di modelli candidati, quindi utilizza le prestazioni del modello sul set di validazione per scegliere il modello migliore generato. Utilizza le prestazioni del modello sul set di validazione per ottimizzarne gli iperparametri, che sono variabili che specificano la struttura del modello. Se utilizzassi il set di addestramento per ottimizzare gli iperparametri, il modello finirebbe per concentrarsi eccessivamente sui dati di addestramento. L'utilizzo di un set di dati nuovo per ottimizzare la struttura del modello consente una migliore generalizzazione da parte del modello.
Test set
Il test set non è coinvolto in alcun modo nel processo di addestramento. Al termine dell'addestramento del modello, utilizziamo il test set come risorsa di verifica completamente nuova per il modello. Le prestazioni del modello in base al test set hanno lo scopo di dare un'idea abbastanza precisa di come il modello si comporterà utilizzando dati reali.
Suddivisione manuale
AutoML Translation può suddividere i dati in set di addestramento, validazione e test per te; tuttavia, se lo desideri puoi occupartene personalmente, in caso preferissi esercitare un maggiore controllo sul processo, impostare una suddivisione percentuale diversa o includere esempi specifici in una determinata parte del ciclo di vita dell'addestramento del modello.
Prepara i dati per l'importazione
Dopo aver deciso se utilizzare la suddivisione manuale o automatica dei dati, ci sono due modi in cui puoi aggiungere i dati:
- Puoi importare i dati come file con valori delimitati da tabulazioni (TSV) contenente i segmenti di origine e di destinazione, una coppia di segmenti per riga.
- Puoi importare i dati come file TMX, un formato standard per fornire coppie di segmenti agli strumenti del modello di traduzione automatica (scopri di più sul formato TMX supportato). Se il file TMX contiene tag XML non validi, AutoML li ignora. Se il file TMX non è conforme al corretto formato XML e TMX, ad esempio se manca un tag finale o un elemento
<tmx>, AutoML non lo elaborerà. Cloud Translation interromperà l'elaborazione e restituirà un errore se salta più di 1024 elementi<tu>non validi.
Valuta
Una volta addestrato il modello, riceverai un riepilogo delle sue prestazioni. Fai clic sulla scheda Addestra per visualizzare un'analisi dettagliata.
Elementi da tenere presenti prima della valutazione del modello
Il debug di un modello riguarda più il debug dei dati che del modello stesso. Se il modello inizia a comportarsi in modo inaspettato durante la valutazione delle prestazioni prima e dopo la messa in produzione, devi tornare indietro e controllare i dati per vedere dove possono essere migliorati.
Punteggio BLEU
Il punteggio BLEU è un modo standard per misurare la qualità di un sistema di traduzione automatica. AutoML Translation utilizza un punteggio BLEU calcolato sui dati di test che hai fornito come metrica di valutazione principale. (Scopri di più sui punteggi BLEU.)
Il modello NMT di Google, su cui si basa l'API Cloud Translation, è progettato per un utilizzo generico. Potrebbe non essere la soluzione migliore se cerchi una traduzione specializzata per i tuoi campi. Il modello personalizzato addestrato di solito funziona meglio del modello NMT nei campi relativi al set di addestramento.
Dopo aver addestrato il modello personalizzato con il tuo set di dati, il punteggio BLEU del modello personalizzato e del modello NMT di Google viene visualizzato nella scheda Addestra. Nella scheda Addestra è presente anche il miglioramento delle prestazioni del punteggio BLEU del modello personalizzato. Più alto è il punteggio BLEU, migliori sono le traduzioni che il modello può fornire per i segmenti simili ai dati di addestramento. Se il punteggio BLEU rientra nell'intervallo 30-40, il modello è considerato in grado di fornire buone traduzioni.
Tieni presente che i punteggi BLEU non sono consigliati per il confronto tra corpus e lingue diversi. Ad esempio, un punteggio BLEU di 50 per la traduzione dall'inglese al tedesco non è paragonabile a un punteggio BLEU di 50 per la traduzione dal giapponese all'inglese. Molti esperti di traduzione sono passati ad approcci con metriche basate su modelli, che hanno una correlazione più elevata con le valutazioni umane e sono più granulari nell'identificazione degli scenari di errore.
AutoML Translation supporta solo i punteggi BLEU. Per valutare il modello di traduzione utilizzando metriche basate su modelli, consulta Gen AI evaluation service in Vertex AI.
Test del modello
Anche se il punteggio BLEU sembra buono, è consigliabile controllare personalmente il modello per assicurarsi che le sue prestazioni corrispondano alle tue aspettative. Se i dati di addestramento e di test provengono dallo stesso set errato di esempi, i punteggi potrebbero essere eccellenti anche se la traduzione non ha senso. Aggiungi alcuni esempi come input nella scheda Prevedi e confronta i risultati del modello personalizzato con il modello NMT di base di Google. Potresti notare che il tuo modello produce le stesse previsioni del modello di base, soprattutto su segmenti brevi o se il set di addestramento è di piccole dimensioni. Non è una sorpresa: il modello di base è già piuttosto buono per un'ampia varietà di casi d'uso. Prova con segmenti più lunghi o complessi. Tuttavia, se tutti i segmenti restituiscono risultati identici alle previsioni del modello di base, potrebbe esserci un problema con i dati.
Se c'è un errore che ti preoccupa particolarmente che il tuo modello possa commettere (ad esempio, una caratteristica complicata della tua coppia linguistica che spesso trae in errore i traduttori umani o un errore di traduzione che potrebbe essere particolarmente costoso in termini di denaro o reputazione), assicurati che il test set o la procedura copra adeguatamente questo caso per poter utilizzare il modello nelle attività quotidiane con tranquillità.
Passaggi successivi
- Per creare il tuo set di dati e il tuo modello personalizzato, consulta la sezione Prepara i dati di addestramento per istruzioni su come preparare i dati.