이 문서에서는 Quality AI를 가장 효과적으로 사용하는 방법에 관한 Google의 권장사항을 설명합니다. 이 문서의 가이드라인을 따르면 Quality AI가 비즈니스 요구사항에 가장 정확하고 유용한 정보를 제공할 수 있습니다.
스코어카드
스코어카드를 사용하면 에이전트 실적 측정항목과 대화에 관한 질문에 답변하기 위한 자세한 안내를 확인할 수 있습니다. 대화 데이터, 질문, 가능한 답변 옵션과 함께 답변을 해석하는 방법을 입력해야 합니다. 최상의 결과를 얻으려면 Quality AI 콘솔의 스코어카드 페이지를 사용하여 예시 대화를 업로드하세요.
스코어카드를 사용하면 질문을 그룹화하고 각 그룹의 점수를 별도로 확인할 수 있습니다. 각각 다른 질문이 포함된 여러 스코어카드를 만들어 다양한 기준에 따라 대화를 평가합니다. 그런 다음 각 스코어카드의 품질 및 대화 점수를 확인하여 별도의 기준에 따라 상담사를 평가할 수 있습니다.
대화 데이터
대화 데이터는 개인 식별 정보가 수정된 음성 또는 채팅 대화의 스크립트입니다. 비즈니스 단위 또는 콜센터별로 2,000개 이상의 대화를 업로드합니다.
음성 대화의 오디오 녹음을 업로드할 수도 있습니다. 최상의 결과를 얻으려면 다음 사양을 사용하여 오디오를 녹음하세요.
- 2개 채널
- 16,000Hz 샘플링 레이트 (또는 8,000~48,000Hz)
- 무손실 인코딩: FLAC 또는 LINEAR16
- WAV 오디오 파일의 무손실 인코딩: LINEAR16 또는 MULAW
음성 통화의 오디오 녹음 파일 메타데이터에는 다음 정보가 포함되어야 합니다.
- 상담사와 고객을 식별하는 채널 라벨
- 상담사 ID, 이름, 위치, 팀, 고객만족도
- 오디오 언어(BCP-47 언어 태그, 예: en-US)
질문
각 스코어카드 내에서 질문과 답변에 대한 안내는 Quality AI가 대화와 상담사 실적을 평가하는 데 유용한 정보를 제공합니다. 자동 평가의 정확도를 극대화하려면 다음 개념을 염두에 두고 질문과 안내를 작성하세요.
- 명확성: 사람이 이해할 수 있는 명확한 질문을 작성합니다.
- 구체성: 최대한 구체적인 답변 옵션과 요청 사항을 추가합니다.
- 세부정보: 사람이 대화를 자신 있고 안정적으로 평가할 수 있을 만큼 충분한 세부정보를 제공하는 요청 사항을 포함합니다.
- 예: 질문에 대한 각 답변을 보여주는 실제 대화의 예를 제공하면 고품질 AI의 정확성이 더욱 높아집니다.
질문은 다양한 형태를 취할 수 있습니다. 다음은 유용한 질문 템플릿입니다.
- '상담사가…?'와 특정 작업 이 형식은 평가자가 에이전트가 말한 내용을 찾아야 함을 나타냅니다.
- '고객이 …을(를) 했나요?'와 같은 질문을 사용합니다. 이 형식은 평가자가 고객이 말한 내용을 찾아야 함을 나타냅니다.
- 무엇 또는 왜와 같은 질문 단어로 시작하면 전체 대화를 평가할 수 있습니다.
복수 답변이 있는 질문
사용자는 예와 아니요로만 대답할 수 있는 질문을 작성하는 경우가 많습니다. 하지만 질문이 대화에 적용되지 않을 수도 있으며, 이 경우 해당 사항 없음을 사용해야 합니다.
또는 다양한 상황에서 질문이 예 또는 아니요로 해석되어 옵션이 두 개뿐인 일관되지 않은 대답이 나올 수 있습니다. 다른 유형의 답변이 필요한 질문을 포함하면 AI 모델이 대화를 더 깊이 이해할 수 있습니다.
음향 분석
Quality AI는 대화 스크립트를 평가하며 음향 분석을 수행할 수 없습니다. 음향 분석이 필요한 질문은 제외합니다. 예를 들어 사람도 Quality AI도 대화 스크립트만 읽고는 '상담사가 밝은 어조로 인사말을 사용했나요?'라는 질문에 대답할 수 없습니다.
태그
선택사항인 태그는 관련 질문을 함께 그룹화할 수 있는 더 작은 카테고리를 제공합니다. 단일 대화의 경우 Quality AI가 전반적인 대화 점수를 계산합니다. 비즈니스, 고객 또는 규정 준수라는 세 가지 태그 중 하나를 사용하여 질문을 그룹화할 수 있습니다. 또한 품질 AI는 각 태그에 대해 해당 태그가 적용된 질문만 포함하는 점수를 계산합니다.
안내
지침은 각 답변이 해석되는 방식을 정의하므로 지침은 구체적이어야 하며 해석의 여지가 없어야 합니다. 이 정의는 대화에 대한 각 평가에서 동일한 답변을 제공하도록 보장합니다.
형식
질문의 목적에 대한 간략한 설명과 가능한 각 답변 선택지의 기준에 대한 설명을 포함합니다. 즉, 사용자가 각 답변을 선택할 정확한 상황을 정의해야 합니다.
예를 들어 다음 안내는 '상담사가 교차 판매 전에 고객의 주요 우려사항을 해결했나요?'라는 예/아니요 질문에 적용됩니다.
안내:
이 질문의 목적은 상담사가 추가 제품을 판매하려고 하기 전에 고객의 주요 우려사항을 해결했는지 파악하는 것입니다. 이를 통해 브랜드에 대한 긍정적인 경험을 만들 수 있습니다.
상담사가 기본 문제를 해결한 후 판매를 시도한 경우 '예'로 평가합니다. 예: '계정 정보를 업데이트했습니다. 스마트 홈 기기를 고장으로 표시하신 것으로 확인됩니다. 교체 기기를 주문하시겠어요?'라고 안내합니다.
상담사가 기본 문제를 해결하기 전에 제품을 판매하려고 시도한 경우 '아니요'로 평가합니다. 예: '계정 정보를 업데이트하기 전에 확인해 보니 5년 전에 저희 회사에서 노트북을 구매하셨습니다. 새 모델을 사용해 보시겠어요?'
판매 시도가 없었던 경우 '해당 사항 없음'으로 표시합니다.
답변 유형
답변 유형은 질문의 구조에 따라 다릅니다. 이 섹션에서는 시작하는 데 도움이 되는 제안을 제공하지만 모든 사용 사례를 포함하는 것은 아닙니다.
예/아니요
예/아니오는 이러한 질문을 빠르게 평가할 수 있고 답변이 다른 답변 유형보다 직관적인 경우가 많기 때문에 가장 일반적인 답변 유형입니다. 예/아니요 답변 유형이 적합한 질문은 '~했어?'로 시작하는 경우가 많으며 특정 작업이 발생했는지 묻습니다. 이러한 질문은 참 또는 거짓 질문으로 작성할 수도 있습니다.
예시 대화에서 예/아니요 대답은 다음 형식으로 true 또는 false 값으로 기록됩니다.
- '예'라고 답하면
true입니다. - 아니요 대답은
false입니다.
Numbers
숫자 답변은 개수, 금액을 묻거나 척도로 평가하도록 요청하는 질문에 유용합니다. 이 답변 유형이 유용한 질문은 종종 '얼마나 많은...'으로 시작합니다. '얼마나...' 또는 '...의 척도로'라고 말하며 하나의 답을 결정하도록 요청합니다.
예시 대화에서 숫자 답변의 형식은 다음과 같습니다.
- 40.5의 대답은
40.5입니다.
텍스트
텍스트 답변에는 사람 어노테이터의 작업이 가장 많이 필요합니다. 텍스트 답변이 유용한 질문은 '무엇' 또는 '왜'와 같은 질문 단어로 시작되는 경우가 많으며 대화 전체에 대한 평가가 필요한 경우가 많습니다. 텍스트 답변은 대답의 다양성을 높이므로 질문을 해석하는 방법과 각 답변 선택지를 할당하는 시기를 명확하게 설명해야 합니다.
예시 대화에서 텍스트 답변의 형식은 다음과 같습니다.
- '종료됨'이라는 답변은
"CONCLUDED"입니다.
점수 할당
질문을 만들 때 각 답변 선택지에 숫자 점수를 할당할 수 있습니다. 이 점수는 전체 대화 점수 계산에서 각 답변 선택지의 중요도를 나타냅니다.
답변 선택 점수의 유용한 범위는 0~10입니다. 이 범위는 구체성을 위한 약간의 변동을 제공하며 백분율과 비교할 수 있습니다. 점수가 0인 답변 선택지는 대화 점수 계산에 영향을 미치지 않습니다. 점수가 10인 답변 선택지가 대화 점수에 가장 큰 영향을 미칩니다. 즉, 점수가 10인 답변 선택지는 점수가 낮은 답변 선택지보다 대화 점수를 더 많이 올립니다. 점수가 5인 답변 선택지는 점수가 10인 답변의 절반만큼 대화 점수를 올립니다.
해당 사항 없음
질문이 대화에 적용되지 않는 경우 해당 사항 없음을 답변 선택지로 사용 설정하려면 체크박스를 클릭합니다. Quality AI가 '해당 사항 없음'을 답변으로 선택하면 질문이 대화 점수 계산에서 삭제됩니다.
스코어카드 입력 예시
다음 예에서는 유용한 스코어카드에 필요한 모든 정보를 추가하는 방법을 보여줍니다. 각 스코어카드에는 다음 정보가 필요합니다.
- 대화에 관한 질문
- 질문을 해석하고 각 답변 선택지를 정의하는 방법
- 답변 유형 (텍스트, 숫자 또는 예/아니요일 수 있음)
- 답변 유형에 따라 가능한 답변을 정의하는 답변 선택지입니다 (예, 예와 아니요, 숫자 목록, 텍스트 응답).
- 각 답변 선택에 대해 획득한 포인트를 설정하는 점수입니다. 단일 질문의 최대 점수는 모든 답변 선택지 중 가장 높은 점수로 결정됩니다.
스코어카드에서 질문을 정리하는 데 도움이 되는 다음 항목을 포함할 수 있지만 필수는 아닙니다.
- 질문을 카테고리 (비즈니스, 고객 또는 규정 준수)로 그룹화하는 태그입니다.
예 1
- 질문: 대화의 결과는 무엇이었나요?
- 태그: 고객
안내: 모든 대화의 목표는 종료, 트랜스퍼, 리디렉션 또는 에스컬레이션의 네 가지 가능한 카테고리 중 하나에 해당하는 해결 또는 결과를 도출하는 것입니다.
종결된 대화는 성공적으로 해결되어 추가 조치가 필요하지 않은 대화입니다. 고객의 문제가 해결되어 대화가 종료되었습니다.
트랜스퍼된 대화는 다른 부서 또는 상담사가 처리해야 하는 대화입니다. 고객의 문제를 더 잘 지원할 수 있는 전문가에게 트랜스퍼되었을 수 있습니다.
리디렉션된 대화는 다른 채널에서 처리해야 하는 대화입니다. 예를 들어 고객이 전화 통화에서 온라인 채팅 세션으로 리디렉션되었을 수 있습니다.
에스컬레이션된 대화는 관리자 또는 감독자의 참여가 필요한 대화입니다. 고객의 문제 심각도 또는 최초 상담사가 제공한 해결 방법에 대한 불만족으로 인해 에스컬레이션되었을 수 있습니다.
답변 유형: 텍스트
선택지 점수 종료됨 1 이전됨 1 리디렉션됨 1 에스컬레이션됨 0 '해당 사항 없음'을 답변 선택지로 추가합니다. 이 옵션을 선택하면 질문이 총점 계산에 포함되지 않습니다.
예 2
- 질문: 0~5점 척도로 상담사와 고객 간의 커뮤니케이션이 얼마나 효과적이었나요?
- 태그: 비즈니스, 규정 준수, 고객
안내: 규모 및 기준
0, 매우 나쁨: 의사소통이 없거나 완전히 오해함 불쾌감을 주거나, 악의적이거나, 유해한 언어 존중심이나 공감대가 전혀 없음
1, 매우 나쁨: 심각한 의사소통 어려움 자주 말을 끊거나 서로의 말을 가로채는 경우 이해하거나 연결하는 데 노력이 거의 들지 않습니다. 무시하거나 무례한 행동
2, Poor: 의사소통에 문제가 있습니다. 때때로 오해나 불명확성이 발생합니다. 참여도 또는 관심도가 낮습니다. 가끔 무례하거나 무감각한 행동을 보입니다.
3, 평균: 기본적인 의사소통이 가능합니다. 이해하고 이해받기 위해 어느 정도 노력이 필요합니다.참여도와 연결 수준이 보통입니다. 전반적으로 존중하는 태도를 보이지만 개선의 여지가 있습니다.
4, 좋음: 명확하고 효과적인 커뮤니케이션 적극적인 경청 및 이해 의미 있는 참여와 연결 상호 존중과 공감을 보여줍니다.
5, 매우 우수: 뛰어난 커뮤니케이션 및 이해력 깊은 참여와 연결 강한 협업 및 상호 지원 의식 높은 수준의 존중, 공감, 연민
평가 시 고려해야 할 요소:
명확성: 커뮤니케이션이 명확하고 이해하기 쉬웠나요?
이해: 참가자들이 적극적으로 경청하고 서로의 관점을 이해했나요?
참여도: 참여자가 대화에 적극적으로 참여하고 다른 사람의 말에 관심을 보였나요?
존중: 대화 내내 상호 존중과 배려가 있었나요?
공감: 참가자들이 서로의 감정에 공감하고 이해하는 모습을 보였나요?
협업: 협업과 팀워크가 느껴졌나요? 아니면 참가자들이 서로 경쟁하는 것처럼 느껴졌나요?
결과: 대화가 의도한 목표를 달성했거나 긍정적인 결과를 이끌어냈나요?
맥락이 중요합니다. 대화의 맥락과 목적을 고려하세요. 한 설정에서 적절한 것이 다른 설정에서는 적절하지 않을 수 있습니다.
주관성: 평가는 주관적일 수 있습니다. 사람마다 동일한 대화를 약간 다르게 해석할 수 있습니다.
개선에 집중: 평가를 판단이나 비판의 수단이 아닌 학습과 개선을 위한 도구로 사용하세요.
이 프레임워크는 대화를 평가하기 위한 기본 가이드를 제공하지만, 구체적인 요구사항과 목표에 따라 기준을 조정할 수 있습니다.
답변 유형: 숫자
선택지 및 점수:
선택지 점수 0 0 1 1 2 2 3 3 4 4 5 5
'해당 사항 없음'을 답변 선택지로 추가합니다. 이 옵션을 선택하면 질문이 총점 계산에 포함되지 않습니다.
예시 3
- 질문: 담당자 (상담사)가 적절한 인사말로 고객에게 인사했나요?
- 태그: 고객
- 안내: 담당자 (상담사)는 항상 적절한 인사말로 대화를 시작해야 합니다. 이는 고객과 긍정적이고 전문적인 관계를 구축하는 데 중요한 단계입니다. 오프닝은 따뜻하고 친근하며 환영하는 분위기여야 하며, 고객이 존중받고 있다는 느낌을 받을 수 있는 어조를 사용해야 합니다. 또한 담당자 (상담사)는 인사말이 맥락 및 고객의 문화적 배경에 적합한지 확인해야 합니다. 적절한 인사말로 대화를 시작하면 상담사가 긍정적인 첫인상을 주고, 친밀감을 형성하며, 고객과의 성공적인 상호작용을 위한 기반을 마련할 수 있습니다.
- 답변 유형: 예/아니요
선택지 및 점수:
선택지 점수 '예' 1 '아니요' 0
'해당 사항 없음'을 답변 선택지로 추가합니다. 이 옵션을 선택하면 질문이 총점 계산에 포함되지 않습니다.
대화 예시 추가
예시 대화는 질문 해석을 명확히 하는 데 유용합니다. AI 모델을 보정하고 맞춤설정하려면 각 질문에 답변이 할당된 예시 대화가 필요합니다. AI 모델은 실제 대화 데이터에서 학습하므로 Customer Experience Insights의 기존 대화에서 예시를 가져오세요. 예시 대화를 제공하지 않으면 Quality AI는 질문에 대한 예상 답변을 알지 못하는 파운데이션 모델을 사용합니다.
AI 모델의 성능을 개선하려면 다음을 포함하세요.
- 질문당 100개의 예시 대화
- 답변 선택지당 40개의 대화 예시
하나의 질문에 대해 100개 미만의 예시 대화를 제공하면 AI 모델이 해당 질문을 정확하게 평가하는 방법을 학습하지 않습니다. 예시 대화는 저장되며 충분한 대화가 있으면 모델이 학습합니다. 단일 대화를 통해 모델에 여러 질문의 점수를 매기는 방법을 학습시킬 수 있으며, 예시 대화를 추가하여 질문의 점수 매기기 정확도를 더욱 개선할 수 있습니다.
스코어카드에 있는 각 질문에 대해 각 답변 선택지를 보여주는 대화 비율을 포함하세요. 다음 예에서는 두 가지 가능한 답변 선택지를 설명하기 위해 포함할 수 있는 대화 수를 보여줍니다. 이 특정 분할은 필수가 아닙니다.
스코어카드에 '상담사가 고객에게 공감을 표현했나요?'라는 질문이 있고 이 질문에 대한 대답이 예 또는 아니오일 수 있는 경우 다음을 모두 포함합니다.
| 질문 | 가능한 답변 | 대화 점유율 |
|---|---|---|
| 상담사가 고객에게 공감을 표현했나요? | '예' | 75% |
| '아니요' | 25% |
대화 형식 예
예시 대화에는 각 대화, 스코어카드, 질문의 식별자와 예상 답변이 최소한 포함되어야 합니다. 예시 대화에는 답변 선택지, 점수, 안내도 포함될 수 있습니다. 예시 대화는 FeedbackLabel 리소스로 업로드됩니다. API를 사용하여 예시 대화를 수정하는 방법에 대한 자세한 내용은 설정 가이드를 참고하세요.
CSV
CSV 파일로 예시 대화를 업로드해야 합니다. CSV 파일의 첫 번째 줄은 헤더여야 하며 파일에 다음 카테고리가 포함되어야 합니다.
- ConversationId
- QaScorecardId
- QaQuestionId
- QaAnswerLabel 또는 QaAnswerScore, QaAnswerValue와 같은 개별 필드
양질의 AI는 위의 ID가 채워진 예시 대화 템플릿을 자동으로 만들 수 있습니다. 예시 대화에 사용할 스코어카드를 선택하고 일부 대화만 포함하도록 템플릿을 필터링할 수 있습니다. 템플릿을 만들고 예시 대화를 업로드하는 방법은 Quality AI 설정 가이드를 참고하세요.
CSV 예시 대화 파일은 다양한 형식을 가질 수 있습니다. 예/아니요 답변은 참 또는 거짓 값에 해당하고, 숫자는 동일하게 유지되며, 텍스트 답변은 따옴표로 묶입니다. 즉, true가 예/아니요 답변 유형으로 표시되고 선택한 답변 선택사항이 예입니다. 반면 "Yes"은 선택된 답변 선택이 '예'인 텍스트 답변 유형으로 표시됩니다. 다음 예에서는 가능한 CSV 형식을 보여줍니다.
- 개별 헤더
QaAnswerValue는 점수를 할당하지 않습니다.ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue convo_id,scorecard_test_id,question_id_q3,"NO" convo_id,scorecard_test_id,question_id_q6,"YES" convo_id,scorecard_test_id,question_id_q6,true convo_id,scorecard_test_id,question_id_q6,false convo_id,scorecard_test_id,question_id_q6,40.5
QaAnswerValue및QaAnswerScore헤더가 모두 포함됩니다.ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue,QaAnswerScore convo_id,scorecard_test_id,question_id_q3,"NO",score: 1.0 convo_id,scorecard_test_id,question_id_q6,"YES",score: 1.0
QaAnswerLabel헤더에는 점수와 답변이 모두 포함되지만 쉼표로 구분되지는 않습니다.ConversationId,QaScorecardId,QaQuestionId,QaAnswerLabel convo_id,scorecard_test_id,question_id_q3,score: 1.0 "NO" convo_id,scorecard_test_id,question_id_q6,score: 0.5 40.5 convo_id,scorecard_test_id,question_id_q6,na_value:true convo_id,scorecard_test_id,question_id_q3,true
표
스프레드시트 내에서 예시 대화의 시각적 형식은 다음 표와 같이 각 행에 단일 답변을 식별하는 정보가 포함되고 각 열에 별도의 식별자가 포함된 표입니다.
| 대화 ID | 스코어카드 ID | 질문 ID | 답변 |
|---|---|---|---|
| 44748735396 | 5727080762913918243 | 4097398336657302301 | "YES" |
| 44748735396 | 5727080762913918243 | 3576133206121890384 | "NO" |
| 3495523396 | 5727080762913918243 | 4097398336657302301 | "YES" |
| 3495523396 | 5727080762913918243 | 3576133206121890384 | "NO" |
대화 평가하기
인간 주석 작성자는 스코어카드 질문과 안내를 사용하여 대화를 수동으로 평가하고 예시 대화의 각 질문에 대한 정답을 결정합니다. 여러 사람이 동일한 대화를 평가할 때 각 질문에 대해 서로 다른 답변을 제공하는 경우가 있습니다. 평가 간의 이러한 불일치는 머신러닝 프로세스에 노이즈와 혼란을 야기합니다. 대화 내에서 동일하거나 유사한 질문이 여러 개의 서로 다른 답변과 연결되어 있으면 Quality AI가 질문과 답변 간의 매핑을 학습할 수 없습니다.
여러 사람이 단일 대화에 대해 동일한 질문에 답변하는 경우 다음으로 인해 불일치가 발생할 수 있습니다.
- 주관적인 질문으로, 어노테이터마다 해석이 다릅니다.
- 세부정보가 불충분하거나 가이드라인이 명확하지 않은 평가 기준
- 질문, 답변 옵션 또는 안내의 다양한 버전입니다. 예를 들면 다음과 같습니다.
- 예/아니요 답변 옵션으로 시작한 후 나중에 아니요-a, 아니요-b, 아니요-c 옵션이 있는 더 세부적인 접근 방식으로 변경할 수 있습니다.
- 하지만 예/아니요 접근 방식과 아니요-a, 아니요-b, 아니요-c 옵션을 결합하면 모델이 혼동됩니다.
- 인지 부하가 많이 필요한 평가 작업
일관성 측정
예시 대화의 일관성을 측정하려면 여러 주석 작성자에게 동일한 대화를 독립적으로 평가하도록 요청하세요. 그런 다음 코헨의 카파 계수를 사용하여 두 사람 간의 일치도를 계산합니다. Cohen's kappa 계수가 0.2 이상이어야 합니다. 일관성이 낮은 경우 다음 옵션 중 하나를 시도해 보세요.
- 질문과 지침을 수정하여 해석의 여지를 줄입니다.
- 주석 작성자 간에 소통하여 불일치를 해결하고 단일 평가 기준에 동의합니다.
- 주석 작성자 간의 일관성을 지속적으로 모니터링합니다.
- 답변이 평가 기준과 자주 다른 주석 작성자에게 추가 교육을 제공합니다.