Il Gen AI evaluation service offre le seguenti metriche di valutazione per le attività di traduzione:
MetricX e COMET sono metriche puntuali basate su modelli addestrate per le attività di traduzione. Puoi valutare la qualità e l'accuratezza dei risultati del modello di traduzione per i tuoi contenuti, indipendentemente dal fatto che siano output di modelli NMT, TranslationLLM o Gemini.
Puoi anche utilizzare Gemini come modello di valutazione per valutare il tuo modello in termini di fluidità, coerenza, prolissità e qualità del testo in combinazione con MetricX, COMET o BLEU.
MetricX è una metrica basata sugli errori sviluppata da Google che prevede un punteggio con rappresentazione in virgola mobile compreso tra 0 e 25 che rappresenta la qualità di una traduzione. MetricX è disponibile sia come metodo basato su riferimenti che senza riferimenti (QE). Quando utilizzi questa metrica, un punteggio più basso è migliore perché significa che ci sono meno errori.
COMET utilizza un approccio di regressione basato su riferimenti che fornisce punteggi compresi tra 0 e 1, dove 1 indica una traduzione perfetta.
BLEU (Bilingual Evaluation Understudy) è una metrica basata su calcolo. Il punteggio BLEU indica il grado di somiglianza tra il testo candidato e il testo di riferimento. Più il valore del punteggio BLEU è vicino a uno, più la traduzione è simile al testo di riferimento.
Tieni presente che i punteggi BLEU non sono consigliati per il confronto tra corpus e lingue diversi. Ad esempio, un punteggio BLEU di 50 per la traduzione dall'inglese al tedesco non è paragonabile a un punteggio BLEU di 50 per la traduzione dal giapponese all'inglese. Molti esperti di traduzione sono passati ad approcci con metriche basate su modelli, che hanno una correlazione più elevata con le valutazioni umane e sono più granulari nell'identificazione degli scenari di errore.
Per scoprire come eseguire le valutazioni per i modelli di traduzione, consulta Valuta un modello di traduzione.