요약 자동 평가 (자동 평가)는 정확성, 완전성, 준수 여부를 기반으로 AI 생성 요약의 품질을 평가합니다.
정확성
정확성은 요약이 대화 스크립트의 사실적 세부정보와 얼마나 일치하는지를 측정합니다. 각 요약에 대해 자동 평가에서는 해당 근거와 함께 정확성 비율을 결정합니다. 정확성 점수가 낮으면 요약에 사실 문제가 있음을 의미합니다.
정확도 결과는 다음과 같습니다.
{ "decomposition": [ { "point": "The customer wants to cancel their subscription.", "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.", "is_accurate": true }, { "point": "The customer asks about a $30 credit.", "accuracy": "This is inaccurate. The customer mentioned $10.", "is_accurate": false } ] }
- 위 예의 각
point
는 요약의 분해된 부분입니다. 이진 매개변수is_accurate
는 정확도 평가 결과를 표시합니다.accuracy
매개변수는 근거를 제공합니다.
준수
요약 자동 평가는 제공된 요약에 질문 세트를 적용합니다. 자동 평가에서는 이러한 질문과 대화 스크립트를 사용하여 요약이 각 안내를 준수하는지 평가합니다. 하지만 요약 자동 평가 기능은 Gemini를 기반으로 하므로 문법적 지침을 정확하게 확인할 수 없습니다. 따라서 요약 자동 평가가 요약이 문법 지침을 준수하는지 정확하게 평가하지 못할 수 있습니다.
준수 점수가 낮으면 요약이 요약 섹션의 정의에 제공된 지침을 준수하지 못한다는 의미입니다. 맞춤 섹션을 사용한 요약만 준수 점수를 생성할 수 있습니다.
준수와 관련하여 요약 자동 평가에서는 다음 두 가지 유형의 요약 작업을 인식합니다.
- 범주형 요약: 안내에 정의된 범주형 값을 제공합니다. 예를 들어 맑음 또는 흐림이라고 대답하라는 요청이 있습니다. 자동 평가에서는 설명 텍스트 없이 맑음 또는 흐림만 제공된 요약인지 확인합니다.
- 카테고리가 없는 요약: 자유 형식 텍스트를 제공합니다. 자동 평가에서는 비범주형 요약이 작업 설명에 정의된 안내를 따르는지 확인합니다.
준수 결과는 다음과 같이 표시됩니다.
(Categorical): { "rubrics": [ "question": "Does the summary follow the instruction and return only one of the allowed categorical values?", "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.", "is_addressed": "False" ] } (Noncategorical): { "rubrics": [ { "question": "Does the summary follow the instruction 'State the product name being returned'?", "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.", "is_addressed": "True" } ] }
각 질문은 제공된 요약 섹션 정의에서 파생됩니다. 바이너리 매개변수
is_addressed
는 준수 평가 결과를 표시합니다.reasoning
매개변수는 근거를 제공합니다.질문이 목표와 일치하지 않으면 해당 목표의 요약 섹션 정의가 명확하지 않은 것입니다. 문제를 파악하고 섹션 정의를 개선할 수 있습니다.
완전성
요약 자동 평가에서는 요약 섹션 정의의 안내에 따라 AI 생성 요약의 완전성을 평가하기 위해 일련의 평가 기준을 적용합니다. 완성도 점수가 낮으면 요약에 스크립트의 중요한 정보가 포함되지 않았음을 의미합니다.
완전성 결과는 다음과 같습니다.
{ "rubrics": [ { "question": "Does the summary identify that the customer initially considered cancelling their subscription?", "is_addressed": "True" }, { "question": "Does the summary identify that the customer inquired about a previously issued credit?", "is_addressed": "False" }, { "question": "Does the summary mention the specific amount of the credit ($20)?", "is_addressed": "False" } ] }
각 질문은 제공된 작업 설명과 스크립트에서 파생됩니다. 이진 매개변수
is_addressed
는 평가 결과를 표시합니다.질문 중 하나라도 목표와 일치하지 않으면 요약의 섹션 정의가 명확하지 않은 것입니다. 문제를 파악하고 섹션 정의를 개선합니다.