La métrica de calidad de la traducción BLEU

BLEU (Bilingual Evaluation Understudy) es una métrica para evaluar el texto traducido automáticamente. La puntuación BLEU es un número entre cero y uno que mide la similitud del texto traducido de manera automática con un conjunto de traducciones de referencia de alta calidad:

Una puntuación de 0 significa que la traducción automática de salida no se superpone con la traducción de referencia, lo que indica una calidad baja de la traducción.
Una puntuación de 1 significa que hay una superposición perfecta con las traducciones de referencia, lo que indica una alta calidad de traducción.

Limitaciones de BLEU

BLEU es una métrica basada en el corpus. La métrica BLEU tiene un rendimiento bajo cuando se usa para evaluar oraciones individuales. Las oraciones individuales pueden obtener puntuaciones BLEU muy bajas, incluso cuando capturan la mayor parte del significado. Debido a que las estadísticas del n-grama para oraciones individuales son menos significativas, BLEU es por diseño una métrica basada en el corpus, en la que las estadísticas se acumulan sobre todo el corpus cuando se calcula la puntuación. La métrica BLEU no se puede factorizar para oraciones individuales.
BLEU no distingue entre palabras de contenido y de función. La métrica BLEU no distingue entre palabras de contenido y función. Una palabra de función omitida, como un, recibe la misma penalización que si el nombre NASA se reemplazara erróneamente por ESA.
BLEU no es buena para captar el significado y la gramaticalidad de las oraciones. La eliminación de una sola palabra, como no, puede cambiar la polaridad de una oración. Además, si solo se tienen en cuenta los n-gramas con n≤4, se ignoran las dependencias de largo alcance, por lo que BLEU suele imponer solo una pequeña penalización para las oraciones no gramaticales.
BLEU se basa en la normalización y la asignación de tokens. Antes de calcular la puntuación BLEU, las traducciones de referencia y candidatas se normalizan y se les asigna un token. La elección de los pasos en esos procesos afecta de manera significativa la puntuación BLEU final.

Cómo interpretar las puntuaciones BLEU

A continuación, se incluye una guía aproximada que sugiere cómo interpretar las puntuaciones BLEU expresadas como porcentajes, no como decimales:

Puntuación BLEU (%)	Interpretación
< 10	Casi inútil
10 - 19	Difícil de capar la esencia
20 - 29	La esencia es clara, pero tiene errores gramaticales significativos
30 - 40	Comprensible por buenas traducciones
40 - 50	Traducciones de alta calidad
50 - 60	Traducciones de calidad muy alta, adecuadas y fluidas
> 60	Calidad generalmente mejor que la humana

El siguiente gradiente de color se puede usar como una interpretación de la puntuación BLEU de escala general:

Interpretabilidad general de la escala

Detalles matemáticos

Matemáticamente, la puntuación BLEU se define como:

$$ \text{BLEU} = \underbrace{\vphantom{\prod_i^4}\min\Big(1, \exp\big(1-\frac{\text{reference-length}} {\text{output-length}}\big)\Big)}_{\text{brevity penalty}} \underbrace{\Big(\prod_{i=1}^{4} precision_i\Big)^{1/4}}_{\text{n-gram overlap}} $$

con

\[ precision_i = \dfrac{\sum_{\text{snt}\in\text{Cand-Corpus}}\sum_{i\in\text{snt}}\min(m^i_{cand}, m^i_{ref})} {w_t^i = \sum_{\text{snt'}\in\text{Cand-Corpus}}\sum_{i'\in\text{snt'}} m^{i'}_{cand}} \]

En el ejemplo anterior, se ilustra lo siguiente:

$m_{cand}^i\hphantom{xi}$ es el recuento de i-grama en el candidato que coincide con la traducción de referencia.
$m_{ref}^i\hphantom{xxx}$ es el recuento de i-grama en la traducción de referencia.
$w_t^i\hphantom{m_{max}}$ es la cantidad total de i-gramas en la traducción candidata.

La fórmula consta dos partes: la penalización por brevedad y la superposición de n-grama.

Penalización por brevedad: La penalización por brevedad penaliza las traducciones generadas que son demasiado cortas en comparación con la longitud de referencia más cercana con un decaimiento exponencial. La penalización por brevedad compensa el hecho de que la puntuación BLEU no tiene un término de recuperación.
Superposición de n-gramas: La superposición de n-grama cuenta cuántos unigramas, bigramas, trigramas y cuatro-gramas (i=1,…,4) coinciden con su equivalente de n-grama en las traducciones de referencia. Este término actúa como una métrica de precisión. Los unigramas explican la adecuación, mientras que los n-gramas más largos explican la fluidez de la traducción. Para evitar el recuento excesivo, los recuentos del n-grama se acortan al recuento máximo del n-grama que aparece en la referencia ($m_{ref}^n$).

Ejemplo: Cálculo de $precision_1$

Considera esta oración de referencia y traducción candidata:

Referencia: the cat is on the mat
Candidato: the the the cat mat

El primer paso es contar las ocurrencias de cada unigrama en la referencia y en el candidato. Ten en cuenta que la métrica BLEU distingue mayúsculas de minúsculas.

Unigrama	$m_{cand}^i\hphantom{xi}$	$m_{ref}^i\hphantom{xxx}$	$\min(m^i_{cand}, m^i_{ref})$
`the`	3	2	2
`cat`	1	1	1
`is`	0	1	0
`on`	0	1	0
`mat`	1	1	1

El número total de unigramas en el candidato ($w_t^1$) es 5, por lo que $precision_1$ = (2 + 1 + 1)/5 = 0.8.

Ejemplo: Cómo calcular la puntuación BLEU

Referencia: The NASA Opportunity rover is battling a massive dust storm on Mars.
Candidato 1: The Opportunity rover is combating a big sandstorm on Mars.
Candidato 2: A NASA rover is fighting a massive storm on Mars.

El ejemplo anterior consta de una sola referencia y dos traducciones candidatas. A las oraciones se les asignan tokens antes de calcular la puntuación BLEU. Por ejemplo, el punto final se cuenta como un token separado.

Para calcular la puntuación BLEU de cada traducción, calculamos las estadísticas a continuación.

Precisiones de N-grama. La siguiente tabla contiene las precisiones de n-grama para ambos candidatos.
Brevity-Penalty: La penalización por brevedad es la misma para el candidato 1 y el candidato 2, ya que ambas oraciones constan de 11 tokens.
Puntuación BLEU. Se requiere al menos un 4-grama coincidente para obtener una puntuación BLEU > 0. Dado que la traducción candidata 1 no tiene un 4-grama equivalente, tiene una puntuación BLEU de 0.

Métrica	Candidato 1	Candidato 2
$precision_1$ (1 grama)	8/11	9/11
$precision_2$ (2 grama)	4/10	5/10
$precision_3$ (3 grama)	2/9	2/9
$precision_4$ (4 grama)	0/8	1/8
Penalización por brevedad	0.83	0.83
Puntuación BLEU	0.0	0.27

Métrica	Candidato 1	Candidato 2
\(precision_1\) (1 grama)	8/11	9/11
\(precision_2\) (2 grama)	4/10	5/10
\(precision_3\) (3 grama)	2/9	2/9
\(precision_4\) (4 grama)	0/8	1/8
Penalización por brevedad	0.83	0.83
Puntuación BLEU	0.0	0.27

La métrica de calidad de la traducción BLEU

Limitaciones de BLEU

Cómo interpretar las puntuaciones BLEU

Detalles matemáticos

Ejemplo: Cálculo de \(precision_1\)

Ejemplo: Cómo calcular la puntuación BLEU