Valuta i modelli
Dopo l'addestramento di un modello, AutoML Translation utilizza il set TEST per valutare la qualità e l'accuratezza del nuovo modello. AutoML Translation esprime la qualità del modello utilizzando il punteggio BLEU (Bilingual Evaluation Understudy), che indica il grado di somiglianza tra il testo candidato e il testo di riferimento. Più il valore del punteggio BLEU è vicino a 1, più la traduzione è simile al testo di riferimento.
Usa questi dati per valutare l'idoneità del modello. Per migliorare la qualità del modello, valuta la possibilità di aggiungere altre coppie (più varie) di segmenti di addestramento. Dopo aver modificato il set di dati, addestra un nuovo modello utilizzando il set di dati migliorato.
Tieni presente che i punteggi BLEU non sono consigliati per il confronto tra corpus e lingue diversi. Ad esempio, un punteggio BLEU di 50 per la traduzione dall'inglese al tedesco non è paragonabile a un punteggio BLEU di 50 per la traduzione dal giapponese all'inglese. Molti esperti di traduzione sono passati ad approcci con metriche basate su modelli, che hanno una correlazione più elevata con le valutazioni umane e sono più granulari nell'identificazione degli scenari di errore.
AutoML Translation supporta solo i punteggi BLEU. Per valutare il modello di traduzione utilizzando metriche basate su modelli, consulta Gen AI evaluation service in Vertex AI.
Ottieni la valutazione del modello
Vai alla console AutoML Translation.
Nel menu di navigazione, fai clic su Modelli per visualizzare un elenco dei tuoi modelli.
Fai clic sul modello da valutare.
Fai clic sulla scheda Addestra per visualizzare le metriche di valutazione del modello, ad esempio il punteggio BLEU.
Testa le previsioni del modello
Con la console Google Cloud , puoi confrontare i risultati di traduzione del tuo modello personalizzato con quelli del modello NMT predefinito.
Vai alla console AutoML Translation.
Nel menu di navigazione, fai clic su Modelli per visualizzare un elenco dei tuoi modelli.
Fai clic sul modello da testare.
Fai clic sulla scheda Prevedi.
Aggiungi il testo di input nella casella di testo della lingua di origine.
Fai clic su Traduci.
AutoML Translation mostra i risultati della traduzione per il modello personalizzato e per il modello NMT.
Valuta e confronta i modelli utilizzando un nuovo set di test
Dalla console Google Cloud , puoi rivalutare i modelli esistenti utilizzando un nuovo set di dati di test. Puoi includere fino a 5 modelli diversi in una singola valutazione e confrontare i risultati.
Carica i dati di test in Cloud Storage come valori delimitati da tabulazioni (TSV) o come file Translation Memory eXchange (TMX).
AutoML Translation valuta i modelli in base al set di test e poi produce i punteggi di valutazione. Se vuoi, puoi salvare i risultati per ogni modello come file TSV in un bucket Cloud Storage, dove ogni riga ha il formato seguente:
Source segment tab Model candidate translation tab Reference translation
Vai alla console AutoML Translation.
Nel menu di navigazione, fai clic su Modelli per visualizzare un elenco dei tuoi modelli.
Fai clic sul modello da valutare.
Fai clic sulla scheda Valuta.
Nella scheda Valuta, fai clic su Nuova valutazione.
Seleziona i modelli che vuoi valutare e confrontare, poi fai clic su Avanti.
Il modello attuale deve essere selezionato, mentre Google NMT è selezionato per impostazione predefinita, ma puoi deselezionarlo.
Specifica il Nome set di test per distinguerlo da altre valutazioni, poi seleziona il nuovo set di test da Cloud Storage.
Fai clic su Avanti.
Per esportare le previsioni, specifica una cartella Cloud Storage di destinazione.
Fai clic su Inizia valutazione.
Al termine della valutazione, AutoML Translation presenta i punteggi di valutazione in formato tabellare nella console. Puoi eseguire una sola valutazione alla volta. Se hai specificato una cartella in cui archiviare i risultati della previsione, AutoML Translation scrive in questa posizione file TSV denominati con l'ID modello associato, a cui viene aggiunto il nome del set di test.
Informazioni sul punteggio BLEU
BLEU (BiLingual Evaluation Understudy) è una metrica per valutare automaticamente una traduzione automatica. Il punteggio BLEU è un numero compreso tra 0 e 1 che misura la somiglianza tra una traduzione automatica e un set di traduzioni di riferimento di alta qualità. Un valore pari a 0 indica che l'output della traduzione automatica non presenta sovrapposizioni con la traduzione di riferimento (il che indica una qualità inferiore), mentre un valore pari a 1 indica una sovrapposizione perfetta con le traduzioni di riferimento (il che indica una qualità superiore).
AutoML Translation esprime i punteggi BLEU come percentuale anziché come numero decimale compreso tra 0 e 1.
Interpretazione
Come linea guida approssimativa, l'interpretazione seguente dei punteggi BLEU (espressi in percentuale anziché in cifre decimali) potrebbe essere utile.
| Punteggio BLEU | Interpretazione |
|---|---|
| <10 | Quasi inutile |
| 10-19 | Difficile capire le informazioni essenziali |
| 20-29 | Le informazioni essenziali sono chiare, ma la traduzione contiene errori grammaticali significativi |
| 30-40 | Traduzioni comprensibili e di buona qualità |
| 40-50 | Traduzioni di alta qualità |
| 50-60 | Traduzioni di qualità molto alta, adeguate e fluenti |
| >60 | Qualità spesso migliore di quella umana |
La mappa a gradiente di colore di seguito può essere utilizzata come scala generale di interpretazione del punteggio BLEU:

Dettagli matematici
Da punto di vista matematico, il punteggio BLEU è definito come:
con
\[ precision_i = \dfrac{\sum_{\text{snt}\in\text{Cand-Corpus}}\sum_{i\in\text{snt}}\min(m^i_{cand}, m^i_{ref})} {w_t^i = \sum_{\text{snt'}\in\text{Cand-Corpus}}\sum_{i'\in\text{snt'}} m^{i'}_{cand}} \]
dove
- \(m_{cand}^i\hphantom{xi}\) è il numero di i-grammi nella traduzione candidata che corrispondono alla traduzione di riferimento
- \(m_{ref}^i\hphantom{xxx}\) è il numero di i-grammi nella traduzione di riferimento
- \(w_t^i\hphantom{m_{max}}\) è il numero totale di i-grammi nella traduzione candidata
La formula è composta da due parti: la penalità per brevità e la sovrapposizione di n-grammi.
Penalità per brevità
La penalità per brevità penalizza le traduzioni generate troppo brevi rispetto alla lunghezza di riferimento più vicina con un decadimento esponenziale. La penalità per brevità compensa il fatto che il punteggio BLEU non ha un termine di richiamo.Sovrapposizione di n-grammi
La sovrapposizione di n-grammi conta quanti unigrammi, bigrammi, trigrammi e quadrigrammi (i=1,...,4) corrispondono all'n-gramma omologo nelle traduzioni di riferimento. Questo termine funge da metrica di precisione. Gli unigrammi rappresentano l'adeguatezza, mentre gli n-grammi più lunghi rappresentano la fluidità della traduzione. Per evitare conteggi eccessivi, il numero di n-grammi viene troncato al numero massimo di n-grammi che si verifica nel riferimento (\(m_{ref}^n\)).
Esempi
Calcolo di \(precision_1\)
Considera questa frase di riferimento e la traduzione candidata:
Riferimento: the cat is on the mat
Candidato: the the the cat mat
Il primo passaggio consiste nel contare le occorrenze di ogni unigramma nel riferimento e nel candidato. Tieni presente che la metrica BLEU è sensibile alle maiuscole.
| Unigramma | \(m_{cand}^i\hphantom{xi}\) | \(m_{ref}^i\hphantom{xxx}\) | \(\min(m^i_{cand}, m^i_{ref})\) |
|---|---|---|---|
the |
3 | 2 | 2 |
cat |
1 | 1 | 1 |
is |
0 | 1 | 0 |
on |
0 | 1 | 0 |
mat |
1 | 1 | 1 |
Il numero totale di unigrammi nel candidato (\(w_t^1\)) è 5, quindi \(precision_1\) = (2 + 1 + 1)/5 = 0,8.
Calcolo del punteggio BLEU
Riferimento:
The NASA Opportunity rover is battling a massive dust storm on Mars .
Candidato 1:
The Opportunity rover is combating a big sandstorm on Mars .
Candidato 2:
A NASA rover is fighting a massive storm on Mars .
L'esempio precedente è costituito da un unico riferimento e due traduzioni candidate. Le frasi vengono suddivise in token prima del calcolo del punteggio BLEU, come illustrato sopra; ad esempio, il punto finale viene conteggiato come token separato.
Per calcolare il punteggio BLEU per ciascuna traduzione, calcoliamo le statistiche seguenti.
- Precisioni di n-grammi
La tabella seguente contiene le precisioni di n-grammi per entrambi i candidati. - Penalità per brevità
La penalità per brevità è la stessa per il candidato 1 e il candidato 2, poiché entrambe le frasi sono composte da 11 token. - Punteggio BLEU
Tieni presente che è necessario almeno un 4-gramma corrispondente per ottenere un punteggio BLEU >0. Poiché la traduzione candidata 1 non ha 4-grammi corrispondenti, il suo punteggio BLEU è 0.
| Metrica | Candidato 1 | Candidato 2 |
|---|---|---|
| \(precision_1\) (1gramma) | 8/11 | 9/11 |
| \(precision_2\) (2gramma) | 4/10 | 5/10 |
| \(precision_3\) (3gramma) | 2/9 | 2/9 |
| \(precision_4\) (4gramma) | 0/8 | 1/8 |
| Penalità per brevità | 0,83 | 0,83 |
| Punteggio BLEU | 0,0 | 0,27 |
Proprietà
BLEU è una metrica basata su corpus
La metrica BLEU ha un rendimento inadeguato se utilizzata per valutare singole frasi. Ad esempio, entrambe le frasi di esempio ottengono punteggi BLEU molto bassi anche se trasmettono la maggior parte del significato. Poiché le statistiche sugli n-grammi per le singole frasi sono meno significative, BLEU è, per sua natura, una metrica basata su corpus, ovvero le statistiche vengono accumulate su un intero corpus al momento del calcolo del punteggio. Tieni presente che la metrica BLEU definita sopra non può essere fattorizzata per le singole frasi.Nessuna distinzione tra parole di contenuto e funzionali
La metrica BLEU non distingue tra parole di contenuto e funzionali, ovvero l'omissione di una parola funzionale come "un" riceve la stessa penalità come se il nome "NASA" fosse erroneamente sostituito con "ESA".Non è in grado di cogliere il significato e la correttezza grammaticale di una frase
L'omissione di una singola parola come "non" può cambiare la polarità di una frase. Inoltre, prendendo in considerazione solo gli n-grammi con n≤4, le dipendenze a lungo raggio vengono ignorate, quindi BLEU spesso impone solo una piccola penalità per le frasi non grammaticali.Normalizzazione e tokenizzazione
Prima di calcolare il punteggio BLEU, le traduzioni di riferimento e candidate vengono normalizzate e tokenizzate. La scelta dei passaggi di normalizzazione e tokenizzazione influisce in modo significativo sul punteggio BLEU finale.