Der BLEU-Messwert für die Übersetzungsqualität
BLEU (Bilingual Evaluation Understudy) ist ein Messwert zur Bewertung von maschinell übersetzten Texten. Der BLEU-Score ist eine Zahl zwischen null und eins, die die Ähnlichkeit des maschinell übersetzten Textes mit einer Reihe von Referenzübersetzungen hoher Qualität misst:
- Ein Wert von 0 bedeutet, dass die maschinell übersetzte Ausgabe keinerlei Übereinstimmung mit der Referenzübersetzung hat, was auf eine geringe Qualität der Übersetzung hinweist.
- Ein Wert von 1 bedeutet, dass die maschinelle Übersetzung vollkommen deckungsgleich mit den Referenzübersetzungen ist (was auf eine hohe Qualität hinweist).
Einschränkungen von BLEU
BLEU ist ein korpusbasierter Messwert. BLEU als Messverfahren funktioniert schlecht, wenn es zum Bewerten einzelner Sätze verwendet wird. Einzelne Sätze können sehr niedrige BLEU-Werte erhalten, auch wenn sie den größten Teil der Bedeutung erfassen. Da N-Gramm-Statistiken für einzelne Sätze weniger aussagekräftig sind, ist BLEU von Natur aus ein korpusbasierter Messwert. Das heißt, zur Berechnung des Ergebnisses werden Statistiken über ein gesamtes Korpus gesammelt. Das BLEU-Messverfahren kann nicht für einzelne Sätze faktorisiert werden.
BLEU unterscheidet nicht zwischen Inhalts- und Funktionswörtern. Das BLEU-Messverfahren unterscheidet nicht zwischen Inhalts- und Funktionswörtern. Ein ausgelassenes Funktionswort wie ein führt zum gleichen Abzug wie die fälschliche Ersetzung des Namens NASA durch ESA.
BLEU ist nicht gut geeignet, um die Bedeutung und Grammatik eines Satzes zu erfassen. Das Auslassen eines einzelnen Wortes wie nicht kann die Polarität eines ganzen Satzes ändern. Und wenn nur N-Gramme mit n ≤ 4 berücksichtigt werden, werden weiterreichende Abhängigkeiten ignoriert, sodass BLEU oft nur einen geringen Abzug für grammatisch falsche Sätze vornimmt.
BLEU basiert auf Normalisierung und Tokenisierung. Vor der Berechnung des BLEU-Scores werden die Referenz- und Kandidatenübersetzungen normalisiert und tokenisiert. Die Auswahl der Schritte in diesen Prozessen hat einen erheblichen Einfluss auf den endgültigen BLEU-Score.
BLEU-Scores interpretieren
Die folgende Tabelle enthält eine grobe Richtlinie zur Interpretation von BLEU-Werten, die als Prozentsätze und nicht als Dezimalzahlen ausgedrückt werden:
| BLEU-Prozentwert | Interpretation |
|---|---|
| < 10 | Fast unbrauchbar |
| 10–19 | Schwierig, das Wesentliche zu verstehen |
| 20–29 | Das Wesentliche ist verständlich, aber es gibt erhebliche Grammatikfehler |
| 30–40 | Verständliche bis gute Übersetzungen |
| 40–50 | Hochwertige Übersetzungen |
| 50–60 | Sehr hochwertige, adäquate und flüssige Übersetzungen |
| > 60 | Qualität oft besser als menschliche Übersetzungen |
Der folgende Farbverlauf kann als generelle Skala zur Interpretation des BLEU-Scores verwendet werden.

Mathematische Details
Mathematisch gesehen wird der BLEU-Score so definiert:
mit
\[ precision_i = \dfrac{\sum_{\text{snt}\in\text{Cand-Corpus}}\sum_{i\in\text{snt}}\min(m^i_{cand}, m^i_{ref})} {w_t^i = \sum_{\text{snt'}\in\text{Cand-Corpus}}\sum_{i'\in\text{snt'}} m^{i'}_{cand}} \]
Dabei gilt:
- \(m_{cand}^i\hphantom{xi}\) ist die Anzahl der i-Gramme für den Kandidaten, die mit der Referenzübersetzung übereinstimmen.
- \(m_{ref}^i\hphantom{xxx}\) ist die Anzahl der i-Gramme in der Referenzübersetzung.
- \(w_t^i\hphantom{m_{max}}\) ist die Gesamtzahl der i-Gramme in der Kandidatenübersetzung.
Die Formel besteht aus zwei Teilen: dem Abzug für die Kürze und der N-Gramm-Übereinstimmung.
Abzug für die Kürze: Der Abzug für die Kürze bestraft generierte Übersetzungen, die verglichen mit der ähnlichsten Referenzlänge exponentiell abnehmend zu kurz sind. Der Abzug für die Kürze kompensiert die Tatsache, dass der BLEU-Score keinen Term für die Trefferquote hat.
N-Gramm-Überschneidung: Die N-Gramm-Übereinstimmung zählt, wie viele Unigramme, Bigramme, Trigramme und Tetragramme (i=1,...,4) mit ihrem N-Gramm-Gegenstück in den Referenzübersetzungen übereinstimmen. Dieser Begriff dient als Messwert für die Genauigkeit. Unigramme erkennen die Adäquatheit, längere N-Gramme hingegen die Flüssigkeit der Übersetzung. Zur Vermeidung einer unnötigen Zählung wird die N-Gramm-Anzahl auf die maximale N-Gramm-Anzahl begrenzt, die in der Referenz auftritt (\(m_{ref}^n\)).
Beispiel: Berechnung von \(precision_1\)
Betrachten Sie folgenden Referenzsatz und den Kandidaten für die Übersetzung:
Referenz: the cat is on the mat
Kandidat: the the the cat mat
Im ersten Schritt wird berechnet, wie oft die einzelnen Unigramme jeweils in der Referenzübersetzung und in der Kandidatenübersetzung vorkommen. Beachten Sie, dass für den BLEU-Score zwischen Groß- und Kleinschreibung unterschieden wird.
| Unigramm | \(m_{cand}^i\hphantom{xi}\) | \(m_{ref}^i\hphantom{xxx}\) | \(\min(m^i_{cand}, m^i_{ref})\) |
|---|---|---|---|
the |
3 | 2 | 2 |
cat |
1 | 1 | 1 |
is |
0 | 1 | 0 |
on |
0 | 1 | 0 |
mat |
1 | 1 | 1 |
Die Gesamtzahl der Unigramme für den Kandidaten (\(w_t^1\)) beträgt 5, also gilt \(precision_1\) = (2 + 1 + 1)/5 = 0,8.
Beispiel: BLEU-Score berechnen
Referenz:
The NASA Opportunity rover is battling a massive dust storm on Mars.
Kandidat 1:
The Opportunity rover is combating a big sandstorm on Mars.
Kandidat 2:
A NASA rover is fighting a massive storm on Mars.
Das Beispiel oben besteht aus einer Referenz- und zwei Kandidatenübersetzungen. Die Sätze werden vor der Berechnung des BLEU-Scores tokenisiert. Beispielsweise wird der abschließende Punkt als separates Token gezählt.
Wir stellen die folgenden Statistikwerte fest, um den BLEU-Score für jede der beiden Übersetzungen zu berechnen.
- N-Gramm-Genauigkeit: Die folgende Tabelle enthält die N-Gramm-Genauigkeit für beide Kandidaten.
- Abzug für die Kürze Der Abzug für die Kürze ist für Kandidat 1 und Kandidat 2 identisch, da beide Sätze aus elf Tokens bestehen.
- BLEU-Score Es ist mindestens ein übereinstimmendes Tetragramm erforderlich, um einen BLEU-Wert > 0 zu erhalten. Da die Kandidatenübersetzung 1 kein übereinstimmendes Tetragramm aufweist, hat sie den BLEU-Wert 0.
| Messwert | Kandidat 1 | Kandidat 2 |
|---|---|---|
| \(precision_1\) (1-Gramm) | 8/11 | 9/11 |
| \(precision_2\) (2-Gramm) | 4/10 | 5/10 |
| \(precision_3\) (3-Gramm) | 2/9 | 2/9 |
| \(precision_4\) (4-Gramm) | 0/8 | 1/8 |
| Abzug für die Kürze | 0,83 | 0,83 |
| BLEU-Score | 0,0 | 0,27 |