BLEU 번역 품질 측정항목

BLEU (Bilingual Evaluation Understudy)는 기계 번역된 텍스트를 평가하는 측정항목입니다. BLEU 점수는 기계 번역된 텍스트와 고품질 참조 번역 세트의 유사성을 측정하는 0과 1 사이의 숫자입니다.

  • 점수가 0이면 기계 번역된 출력이 참조 번역과 겹치는 부분이 없는 것을 의미하며, 이는 번역 품질이 낮음을 나타냅니다.
  • 점수가 1이면 참조 번역과 완벽하게 겹치는 것을 의미하며, 이는 번역 품질이 높음을 나타냅니다.

BLEU 제한사항

  • BLEU는 말뭉치 기반 측정항목입니다. BLEU 측정항목은 개별 문장을 평가하는 데 사용될 경우 올바르게 이행되지 않습니다. 단일 문장은 대부분의 의미를 반영하더라도 BLEU 점수가 매우 낮을 수 있습니다. 개별 문장의 N-그램 통계가 유의미하지 않고 BLEU는 기본적으로 말뭉치 기반 측정항목이기 때문입니다. 즉, 점수를 계산할 때 전체 말뭉치에 대한 통계가 누적됩니다. BLEU 측정항목은 개별 문장에 관해 인수 분해할 수 없습니다.

  • BLEU는 내용어와 기능어를 구분하지 않습니다. BLEU 측정항목은 내용어와 기능어를 구분하지 않습니다. a와 같은 기능어가 누락되면 이름 NASAESA로 잘못 입력된 경우와 동일한 패널티가 적용됩니다.

  • BLEU는 문장의 의미와 문법을 잘 파악하지 못합니다. not과 같은 한 단어가 누락되는 경우 문장의 긍정, 부정이 바뀔 수 있습니다. 또한 n≤4인 N-그램만 고려할 경우 간격이 먼 호응 단어는 무시되므로 BLEU에서 문법적 오류가 있는 문장에 작은 페널티만 부과하는 경우가 종종 있습니다.

  • BLEU는 정규화 및 토큰화를 사용합니다. BLEU 점수를 계산하기 전에 참조 번역과 후보 번역이 정규화되고 토큰화됩니다. 이러한 프로세스의 단계 선택은 최종 BLEU 점수에 큰 영향을 미칩니다.

BLEU 점수 해석 방법

다음은 숫자가 아닌 백분율로 표시된 BLEU 점수를 해석하는 방법을 대략적으로 보여주는 가이드라인입니다.

BLEU % 점수 해석
10점 미만 거의 의미 없음
10~19점 핵심을 파악하기 어려움
20~29점 요점은 명확하지만 많은 문법적 오류가 있음
30~40점 이해할 수 있는 양호한 번역
40~50점 고품질 번역
50~60점 매우 우수한 품질의 적절하고 유창한 번역
60점 초과 대체적으로 사람보다 우수한 품질

다음과 같은 색상 그라디언트를 BLEU 점수 해석의 일반 척도로 사용할 수 있습니다.

척도의 일반 해석 가능성

수학적 세부정보

수학적으로 BLEU 점수는 다음과 같이 정의됩니다.

$$ \text{BLEU} = \underbrace{\vphantom{\prod_i^4}\min\Big(1, \exp\big(1-\frac{\text{reference-length}} {\text{output-length}}\big)\Big)}_{\text{brevity penalty}} \underbrace{\Big(\prod_{i=1}^{4} precision_i\Big)^{1/4}}_{\text{n-gram overlap}} $$

항목

\[ precision_i = \dfrac{\sum_{\text{snt}\in\text{Cand-Corpus}}\sum_{i\in\text{snt}}\min(m^i_{cand}, m^i_{ref})} {w_t^i = \sum_{\text{snt'}\in\text{Cand-Corpus}}\sum_{i'\in\text{snt'}} m^{i'}_{cand}} \]

각 항목의 의미는 다음과 같습니다.

  • \(m_{cand}^i\hphantom{xi}\) 은 참조 번역과 일치하는 후보 번역의 I-그램 수입니다.
  • \(m_{ref}^i\hphantom{xxx}\) 은 참조 번역의 i-gram 수입니다.
  • \(w_t^i\hphantom{m_{max}}\) 은 후보 번역의 총 i-그램 수입니다.

수식은 축약 패널티(Brevity Penalty)와 N-그램 중복(N-gram Overlap)이라는 두 부분으로 구성됩니다.

  • 축약 패널티 축약 페널티는 지수 감소를 근거로, 의미가 가장 가까운 참조 길이에 비해 지나치게 짧게 생성된 번역에 페널티를 적용합니다. 이 페널티는 BLEU 점수에 재현율 조건이 없다는 단점을 보완합니다.

  • N-그램 중복. N-그램 중복은 참조 번역에서 유니그램, 바이그램, 트라이그램, 포그램 (i=1,...,4)이 그에 해당하는 N-그램과 얼마나 일치하는지 측정합니다. 이 조건은 정밀도 측정항목의 역할을 합니다. 유니그램은 적합성을 나타내며, 더 긴 N-그램은 번역의 유창성을 나타냅니다. 과잉 계산을 방지하기 위해 참조에서 발생하는 최대 N-그램 수 (\(m_{ref}^n\))에 맞게 N-그램 수를 자릅니다.

예: \(precision_1\)계산

다음 참조 문장과 후보 번역을 고려하세요.

참조 : the cat is on the mat
후보 : the the the cat mat

첫 번째 단계에서는 참조 문장과 후보 문장에서 각 유니그램 항목 수를 계산합니다. BLEU 측정항목은 대소문자를 구분합니다.

유니그램 \(m_{cand}^i\hphantom{xi}\) \(m_{ref}^i\hphantom{xxx}\) \(\min(m^i_{cand}, m^i_{ref})\)
the 3 2 2
cat 1 1 1
is 0 1 0
on 0 1 0
mat 1 1 1

후보 문장의 총 유니그램 수(\(w_t^1\))는 5이므로 \(precision_1\) = (2 + 1 + 1)/5 = 0.8입니다.

예: BLEU 점수 계산

참조:     The NASA Opportunity rover is battling a massive dust storm on Mars.
후보 1: The Opportunity rover is combating a big sandstorm on Mars.
후보 2: A NASA rover is fighting a massive storm on Mars.

위의 예시는 하나의 참조 번역과 2개의 후보 번역으로 구성됩니다. BLEU 점수를 계산하기 전에 문장을 토큰화합니다. 예를 들어 마침표는 별도의 토큰으로 계산됩니다.

번역별 BLEU 점수를 계산하기 위해 다음 통계를 계산합니다.

  • N-그램 정밀도 다음 표에는 두 후보 문장의 N-그램 정밀도가 포함되어 있습니다.
  • 축약 패널티 후보 1과 후보 2 문장은 모두 11개의 토큰으로 구성되므로 두 문장의 축약 페널티는 동일합니다.
  • BLEU 점수 0보다 큰 BLEU 점수를 얻으려면 하나 이상의 상응하는 포그램이 필요합니다. 후보 번역 1에는 대응하는 포그램이 없으므로 BLEU 점수가 0입니다.
측정항목 후보 1 후보 2
\(precision_1\) (1gram) 8/11 9/11
\(precision_2\) (2gram) 4/10 5/10
\(precision_3\) (3gram) 2/9 2/9
\(precision_4\) (4gram) 0/8 1/8
축약 패널티 0.83 0.83
BLEU 점수 0.0 0.27