요약 자동 평가 (자동 평가)는 수동 스프레드시트 기반 QA에서 벗어나 요약 모델의 확장 가능한 자동 검증으로 전환하는 데 매우 중요합니다. 이 기능은 모델 버전을 업셀링하거나 맞춤 프롬프트 변경사항을 검증하는 데 필요한 실증적 증거를 제공합니다.
자동 평가 전에는 요약 모델을 검증하려면 사람이 스크립트를 읽고 요약을 수동으로 평가해야 했으므로 느리고 비용이 많이 들며 주관적인 프로세스였습니다. 요약 자동 평가를 사용하면 다음과 같은 방식으로 요약 모델 검증이 개선됩니다.
- 규모: 20~30분 안에 수백 개의 대화를 평가합니다.
- 일관성: LLM 기반 심사자는 정확성, 준수, 완전성을 평가합니다.
- 비교: 모델 A가 모델 B보다 성능이 우수하다는 증거를 나란히 제공합니다.
시작하기 전에
- 평가를 실행하려면 요약 생성기 (모델 구성)와 데이터 세트 (대화)가 필요합니다.
- 고객 경험 통계 데이터 세트를 사용하고 싶지만 아직 만들지 않은 경우 고객 경험 통계 콘솔로 이동하세요. 원시 스크립트 파일이 있는 경우 업로드할 수 있도록 지원되는 형식으로 변환합니다.
두 데이터 소스
다음 두 가지 옵션을 사용하여 대화 데이터를 수집할 수 있습니다.
| 소스 유형 | 다음과 같은 경우에 적합 | 작동 방식 |
| Agent Assist 스토리지 | 라이브/프로덕션 트래픽 | 기간과 샘플 크기를 선택합니다. 요약 자동 평가에서는 시스템에 저장된 실제 트래픽에서 무작위로 샘플링합니다. |
| 대화형 인사이트 데이터 세트 | 특정 시나리오 테스트 | Customer Experience Insights에서 생성된 선별된 데이터 세트를 선택합니다. 이는 표준 세트나 특정 테스트 사례에 가장 적합합니다. |
1단계: 생성기 만들기
- 평가로 이동하여 새 평가를 클릭합니다.
- 다음 세부정보를 입력합니다.
- 표시 이름: 모델 버전과 날짜를 포함하는 이름 지정 규칙을 사용합니다.
- 기능: 요약을 선택합니다.
- 생성기: 테스트할 특정 생성기를 선택합니다.
2단계: 대화 데이터 세트 만들기
다음 요약 데이터 소스 중 하나를 선택합니다.
- 모든 대화에 대한 새로운 요약 생성: 새 모델 버전을 테스트하는 데 권장됩니다.
- 데이터 세트에서 누락된 요약만 생성: 이전 단계에서 선택한 생성기를 기반으로 모든 대화 스크립트에 해당하는 요약이 없는 경우에 권장됩니다.
- 데이터 세트의 기존 요약을 사용합니다. 요약을 생성하지 않음: 재생성하지 않고 이미 생성된 콘텐츠를 평가하거나 다양한 요약 생성기의 성능을 비교하는 데 권장됩니다.
3단계: Cloud Storage 리소스 선택
결과를 저장할 버킷의 Cloud Storage 폴더를 선택합니다.
Agent Assist 콘솔에는 개략적인 결과가 표시되지만 자세한 행별 데이터는 CSV로 내보내세요. 이는 심층 문제 해결을 위한 정보 소스입니다.
4단계: 측정항목 해석하기
실행이 완료되면 각 평가 측정항목의 점수가 포함된 스코어카드가 표시됩니다.
드릴다운
특정 대화 행을 클릭하면 다음 세부정보를 확인할 수 있습니다.
- 원시 대화가 포함된 스크립트
- 요약 후보
- 특정 점수에 대한 요약 자동 평가 설명
5단계: 비교 모드 사용
서로 다른 평가 실행 두 개를 선택하여 비교할 수 있습니다. 동일한 데이터 세트의 평가 모델을 비교하여 동일한 정보를 기준으로 비교하고 있는지 확인합니다. 실행 간에 데이터 세트를 변경하면 비교가 무효화됩니다. 항상 메타데이터에서 데이터 세트 ID가 일치하는지 확인하세요.
요약 모델을 최신 버전으로 업그레이드한 증거를 확인하려면 다음 단계를 따르세요.
- 현재 모델을 사용하여 평가 A를 실행합니다.
- 최신 모델을 사용하여 동일한 데이터 세트에서 평가 B를 실행합니다.
- 목록에서 두 평가를 모두 선택하고 비교를 클릭합니다.
상담사 지원 콘솔에서 점수가 높은 항목이 강조 표시됩니다.
문제 해결 도움말 및 권장사항
- 평가를 위해 자체 원시 텍스트 파일을 업로드합니다. 먼저 고객 경험 통계 데이터 세트를 만듭니다.
- 콘솔에 간결한 상황 섹션이 표시되지만 요약 텍스트에는 두 번째로 나열됩니다. 사이드바 순서가 텍스트 생성 순서와 정확히 일치하지 않을 수 있습니다. 텍스트 콘텐츠와 CSV 내보내기를 사용하여 최종 구조를 확인하세요.
- 자동 점수 정보 신뢰할 수 있지만 확인하세요. 자동 평가 모델은 인간의 상호작용을 모방하도록 보정되지만 특이 사례가 존재합니다. 자동화된 점수를 신뢰할 수 있도록 항상 Cloud Storage CSV 내보내기를 사용하여 작은 샘플을 수동으로 감사하세요.