Übersetzungsmodelle bewerten

Der Gen AI Evaluation Service bietet die folgenden Messwerte für die Bewertung von Übersetzungsaufgaben:

MetricX und COMET sind punktbasierte, modellbasierte Messwerte, die für Übersetzungsaufgaben trainiert wurden. Sie können die Qualität und Accuracy der Ergebnisse von Übersetzungsmodellen für Ihre Inhalte bewerten, unabhängig davon, ob es sich um Ausgaben von NMÜ-, TranslationLLM- oder Gemini-Modellen handelt.

Sie können Gemini auch als Bewertungsmodell verwenden, um Ihr Modell in Kombination mit MetricX, COMET oder BLEU hinsichtlich Flüssigkeit, Kohärenz, Ausführlichkeit und Textqualität zu bewerten.

  • MetricX ist ein von Google entwickelter, auf Fehlern basierender Messwert, mit der ein Gleitkommawert zwischen 0 und 25 vorhergesagt wird, der die Qualität einer Übersetzung angibt. MetricX ist sowohl als referenzbasierte als auch als referenzfreie Methode (QE) verfügbar. Wenn Sie diesen Messwert verwenden, ist ein niedrigerer Wert besser, da er weniger Fehler bedeutet.

  • COMET verwendet einen referenzbasierten Regressionsansatz, der Werte zwischen 0 und 1 liefert, wobei 1 für eine perfekte Übersetzung steht.

  • BLEU (Bilingual Evaluation Understudy) ist ein rechenbasierter Messwert. Der BLEU-Wert gibt an, wie ähnlich der Kandidatentext dem Referenztext ist. Je näher ein BLEU-Wert an 1 liegt, desto ähnlicher ist die Übersetzung dem Referenztext.

Beachten Sie, dass BLEU-Werte nicht für den Vergleich verschiedener Korpora und Sprachen empfohlen werden. Ein BLEU-Wert von 50 für Englisch nach Deutsch ist beispielsweise nicht mit einem BLEU-Wert von 50 für Japanisch nach Englisch vergleichbar. Viele Übersetzungsexperten sind zu modellbasierten Messwertansätzen übergegangen, die eine höhere Korrelation mit Bewertungen durch Menschen aufweisen und Fehler besser erkennen.

Informationen zum Ausführen von Bewertungen für Übersetzungsmodelle finden Sie unter Übersetzungsmodell bewerten.