평가

평가는 에이전트의 성능을 테스트하고 특정 상황에서 예상대로 작동하는지 확인하는 데 중요한 도구입니다. 평가를 사용하면 테스트를 자동화하고, 변경 후 회귀를 포착하고, 에이전트 대답의 품질을 측정하여 에이전트 품질을 개선할 수 있습니다.

시작하려면 에이전트 빌더 상단에 있는 평가 버튼을 클릭합니다.

평가 개념

테스트 사례: 각 테스트 사례는 에이전트의 성능을 평가하기 위해 설계된 구체적이고 독립적인 테스트 시나리오 또는 프롬프트입니다. 다음과 같은 두 가지 유형의 테스트 사례를 만들 수 있습니다.

  • 시나리오: 테스트를 부트스트랩하고 포괄적인 테스트 적용 범위를 보장하는 AI 기반 기능입니다. 사용자의 목표를 설명하면 시스템에서 사용자를 자동으로 시뮬레이션하고 에이전트가 시나리오를 강력하게 처리하는 능력을 테스트하기 위한 대화를 생성합니다. 시나리오는 실험을 진행하고 골든 대화를 정의하는 데 유용합니다.
  • 골든: 회귀 테스트에 적합합니다. 구체적인 '이상적인' 대화 경로를 제공하면 평가에서 에이전트의 동작이 도구 호출을 포함하여 이 이상적인 경로와 일치하는지 확인합니다.

실행: 평가 실행은 테스트 중인 에이전트의 성능에 대해 골든 및 시나리오 테스트 사례 세트를 완전히 단일 실행하는 것을 나타냅니다. 각 실행에는 하나 이상의 테스트 사례가 포함될 수 있습니다.

결과: 테스트 사례 결과는 단일 실행에서 특정 테스트 사례의 단일 실행을 나타냅니다. 단일 평가 실행 중에 테스트 사례가 여러 번 실행되는 경우 (예: 일관성, 불안정성 등을 확인하기 위해) 각 개별 실행은 개별 결과입니다. 결과는 각 테스트 사례 행의 열에 직사각형 아이콘으로 표시되며, 실행이 실패하면 빨간색 X가 표시되고 통과하면 녹색 체크표시가 표시됩니다.

태그: 테스트 사례를 태그로 그룹화하여 더 쉽게 관리할 수 있습니다.

테스트 사례 만들기

에이전트의 테스트 사례를 만들고 액세스하려면 에이전트 빌더 상단에 있는 평가 버튼을 클릭합니다. 골든 또는 시나리오 기반 테스트 사례를 만들고 관리할 수 있습니다.

시나리오

시나리오 기반 테스트 사례는 AI를 사용하여 정의한 개략적인 사용자 목표에 따라 다양한 대화를 자동으로 생성합니다. 이러한 테스트 사례를 사용하면 특정 골든 대화를 제공하는 대신 생성된 시나리오를 선택하거나 테스트해야 하는 특정 시나리오를 설명합니다. 이는 가능한 모든 대화 경로를 수동으로 작성하지 않고도 특이 사례를 탐색하고 에이전트의 견고성을 테스트하는 데 도움이 되는 강력한 도구입니다.

이러한 시나리오가 잘 작동하면 이를 골든 대화로 저장할 수 있습니다.

시나리오를 만들려면 다음 단계를 따르세요.

  1. 시나리오 만들기를 클릭합니다. 여러 시나리오가 추천됩니다.
  2. 선택사항을 기반으로 시나리오를 생성하거나 처음부터 새 시나리오를 만들 수 있습니다.

시나리오 목록을 볼 때 시나리오를 클릭하면 각 시나리오의 세부정보와 대화 목록을 표시할 수 있습니다.

시나리오를 골든 대화로 저장하려면 다음 단계를 따르세요.

  1. 시나리오를 선택합니다.
  2. 오른쪽 상단에 있는 메뉴 버튼을 클릭합니다.
  3. 골든 대화로 저장을 선택합니다.

시나리오 사용자 목표

각 시나리오에는 사용자 목표가 있으며, 이는 상담사 애플리케이션을 사용할 때 최종 사용자의 목표를 설명합니다. 예를 들면 다음과 같습니다.

Securely book a specific room at a chosen hotel and receive a confirmation.

사용자 목표에 따라 CX Agent Studio는 평가에 사용되는 대화를 자동으로 생성합니다.

시나리오 변수

시나리오를 정의할 때 시나리오에 사용할 변수를 제공할 수 있습니다.

시나리오 기대치

평가를 실행하려면 테스트 사례에 대한 기대치를 정의합니다.

기대는 다음 두 가지 유형 중 하나일 수 있습니다.

  • 메시지: 예상되는 최종 사용자 또는 에이전트 메시지입니다.
  • 도구 호출: 예상되는 입력과 출력이 있는 도구 호출입니다.

기대는 다음과 같은 조건을 가질 수 있습니다.

  • 필수
  • 없어야 함
  • 도구 호출 후
  • 변수 값

기대를 만들려면 다음 단계를 따르세요.

  • 특정 시나리오를 클릭하여 세부정보를 엽니다.
  • 기대치 섹션에서 모두 보기를 클릭합니다.
  • 인터페이스 안내에 따라 시나리오에 대한 기대치를 만듭니다.

골드

이러한 테스트 사례는 회귀 테스트를 위한 이상적인 대화 경로를 정의하는 데 사용되므로 에이전트를 업데이트할 때 핵심적이고 중요한 대화 경로가 중단되지 않습니다. 골든 대화를 만드는 방법에는 여러 가지가 있습니다.

시뮬레이터에서 대화를 가져오려면 다음 단계를 따르세요.

  1. 시뮬레이터를 사용하여 대화를 시작합니다.
  2. 시뮬레이터 오른쪽 상단에 있는 세로 점 3개를 클릭하여 시뮬레이터 메뉴를 표시합니다.
  3. 골든으로 저장을 클릭합니다.
  4. 골든 테스트 사례의 이름을 입력하고 저장을 클릭합니다. 이제 평가 탭에 표시됩니다.

대화 기록에서 테스트 사례를 만들려면 다음 단계를 따르세요.

  1. 평가 탭으로 이동하여 + 테스트 사례 추가 -> Golden을 클릭합니다.
  2. 대화 기록에서 선택을 클릭합니다.
  3. 표시되는 창에서 골든 테스트 사례로 저장할 대화를 선택합니다. 대화 ID로 검색할 수 있습니다.
  4. 수정 기능을 사용 설정한 경우 누락된 정보를 진행하기 전에 상담사 응답과 변수에 수정이 있는지 확인하세요.
  5. 추가를 클릭합니다.

테스트 사례를 새로 만들려면 다음 단계를 따르세요.

  1. 평가 탭으로 이동하여 + 테스트 사례 추가 -> Golden을 클릭합니다.
  2. 처음부터 만들기를 클릭합니다.
  3. 표시되는 창에서 테스트 사례의 표시 이름을 추가합니다.
  4. 필요에 따라 사용자 입력 및 상담사 기대치에 대한 텍스트를 추가합니다. + 사용자 입력 추가+ 상담사 기대치 추가를 클릭하여 대답을 추가합니다. + 대화 턴 추가를 클릭하여 테스트 사례에 새 대화 턴을 추가합니다.
  5. 만들기를 클릭하여 골든 테스트 사례를 테스트 사례 목록에 추가합니다.

시나리오 테스트 사례에서 시뮬레이션된 대화로 테스트 사례를 만들려면 다음 단계를 따르세요.

  1. 평가 실행 결과 페이지로 이동합니다.
  2. 선택한 대화 오른쪽에 있는 메뉴 아이콘(세로 점 3개)을 클릭하고 Save as golden conversation(골든 대화로 저장)을 클릭합니다.

파일에서 테스트 사례를 일괄 업로드하려면 다음 단계를 따르세요.

파일 형식 및 CSV 템플릿에 관한 자세한 내용은 골든 테스트 케이스 CSV 형식 페이지를 참고하세요.

골든 기대치

평가를 수행하려면 골든 테스트 사례에 대한 기대치를 정의해야 합니다. 기대는 대화의 특정 시점에서 에이전트에게 예상되는 구체적인 결과입니다. 평가 중에 실제 에이전트 동작이 이러한 기대치와 비교됩니다.

기대는 다음 유형 중 하나일 수 있습니다.

  • 메시지: 에이전트가 최종 사용자에게 보낼 것으로 예상되는 텍스트 응답입니다. 평가에서는 에이전트의 대답이 이 기대치와 의미적으로 일치하는지 확인합니다.
  • 도구 호출: 상담사가 특정 도구와 응답을 호출할 것으로 예상됩니다. 도구 호출에 예상되는 입력 인수를 지정할 수도 있습니다.
  • 상담사 핸드오프: 상담사가 대화를 사람 상담사 또는 다른 봇으로 트랜스퍼할 것으로 예상됩니다.

기대를 만들려면 다음 단계를 따르세요.

  1. 특정 골든 테스트 사례를 클릭하여 세부정보를 엽니다.
  2. 세부정보 섹션에서 View golden을 클릭합니다.
  3. 인터페이스 안내에 따라 요구 사항을 추가하거나 수정합니다.

평가 설정

테스트 사례 목록의 제목 행에서 평가 설정을 구성할 수 있습니다.

  • 골든:
    • 골든 통과/실패 기준: 시뮬레이션된 대화가 통과하는지 실패하는지에 관한 로직을 설정합니다.
    • 턴 수준: 이러한 규칙은 각 개별 턴을 판단합니다. 이러한 기준 중 하나라도 충족되지 않으면 특정 측정항목이 실패로 간주되어 빨간색으로 표시됩니다.
      • 의미론적 유사성: 의미론적 유사성의 기준값입니다.
      • 도구 정확성: 도구 정확성의 기준 값입니다.
      • 할루시네이션: 사용 중지된 경우 할루시네이션이 통과/실패에서 제외됩니다.
    • 기대치 수준: 이러한 규칙은 턴 내의 기대치를 판단합니다. 이러한 기준 중 하나라도 충족되지 않으면 특정 측정항목이 실패로 간주되어 빨간색으로 표시됩니다.
      • 도구 정확성: 도구 정확성의 기준 값입니다.
    • 골든 실행 방법: 순진한 재실행 검증 또는 안정적인 재실행 검증 중에서 선택합니다.
    • 도구 가짜: 실제 프로덕션 API 호출 대신 모의 데이터를 사용합니다.
  • Scenarios:
    • 시나리오 통과/실패 기준: 시뮬레이션된 대화가 통과하는지 실패하는지에 관한 로직을 설정합니다.
    • 대화 시작자: 대화를 시작하는 사용자인지 모델인지 설정합니다.
    • 도구 가짜: 실제 프로덕션 API 호출 대신 모의 데이터를 사용합니다.
  • 오디오 평가
    • 오디오 평가 녹음 파일

평가 실행

평가를 실행하려면 테스트 사례 행에서 실행 버튼을 클릭하거나 여러 테스트 사례를 선택하여 실행하면 됩니다.

여러 버전을 저장한 경우 사용할 에이전트 버전을 선택하거나 실행을 위해 초안 에이전트를 새 버전으로 자동 저장할 수 있습니다.

평가 실행이 완료되면 측정항목이 업데이트되고 결과가 표시됩니다.

특정 실행 평가를 클릭하면 실행에 대한 자세한 결과를 확인할 수 있습니다. 표준 측정항목 외에 다음 항목이 표시됩니다.

  • 실패한 턴
  • 실제 에이전트 응답과 예상 에이전트 응답을 모두 포함하는 모든 턴 세부정보의 페이지로 나누어진 목록입니다.

골든 테스트 사례의 경우 테스트가 일관된 환경에서 실행되었음을 명확히 하는 '안정적인 리플레이'라는 용어가 표시될 수 있습니다 (즉, 컨텍스트/입력이 변경되지 않음).

AI를 사용하여 테스트 사례 개선 (미리보기)

원하는 경우 AI를 사용하여 실행 문제를 해결하고 에이전트 품질을 개선하는 방법을 제안할 수 있습니다. 실행 횟수가 3회 이상인 경우 AI 추천이 최적화됩니다. AI를 사용 설정하려면 평가할 테스트 사례를 선택하고 선택한 항목 실행을 클릭합니다. 팝업 창에서 AI로 문제 찾기 옆의 체크박스를 선택합니다.

실행이 완료되면 결과 페이지에 AI 기반 추천이 표시됩니다. Gemini는 에이전트의 실적을 요약하고 개선할 수 있는 영역을 강조 표시하는 다운로드 가능한 loss_report를 자동으로 생성합니다.

모든 사용자가 AI 추천 수정사항을 볼 수 있지만, 실행을 시작한 사용자만 결과를 기반으로 조치를 취할 수 있습니다.

Gemini에 질문하기를 클릭하여 도우미 에이전트와 상호작용합니다. 먼저 모델 또는 에이전트의 높은 수준의 문제를 설명하는 손실 보고서가 표시됩니다. 헬퍼 에이전트에게 보고서를 설명해 달라고 요청할 수 있습니다. 그러면 보고서가 요약되고 수정사항이 제안될 수 있습니다. 수정사항이 적용된 후 헬퍼 에이전트에게 평가를 다시 실행하도록 요청할 수 있습니다.

측정항목

각 테스트 사례 결과에는 선택한 테스트 사례에 대한 에이전트의 성능을 측정하는 측정항목 세트가 포함됩니다. 측정항목은 콘솔에 표시된 대로 턴 수준 또는 기대치 (대화) 수준에서 계산됩니다.

어떤 경우든 평가 탭의 설정 메뉴에서 실행 통과에 필요한 값을 맞춤설정할 수 있습니다.

도구 정확성

골든 및 시나리오 테스트 사례에 대해 계산됩니다. 이 측정항목은 예상 도구 호출과 예상 매개변수 값이 주어졌을 때 일치한 예상 매개변수의 비율을 반영합니다. 누락된 도구 호출은 0점으로 평가되고, 입력 매개변수가 없는 도구 호출은 있는 경우 1점으로 평가됩니다. 골든 평가 중에 예기치 않은 도구 호출이 이루어지면 결과가 실패로 간주되지만 도구 정확성 값에는 영향을 미치지 않습니다.

사용자 목표 만족도

시나리오에 대해 계산됩니다. 사용자 목표 만족도는 사용자 시뮬레이션 평가를 위해 설계된 이진 측정항목입니다. 시뮬레이션된 사용자가 목표를 달성했다고 생각하는지 측정합니다 (0=아니요, 1=예). 입력은 시뮬레이션된 사용자 구성에 의해 정의된 user_goal와 대화 스크립트입니다. 제공된 user_goal에 명시적 또는 암시적 목표가 지정되지 않은 경우 출력 점수는 -1입니다.

할루시네이션

골든 및 시나리오 테스트 사례에 사용할 수 있습니다. 허위 응답 점수는 생성된 각 턴에 대해 계산됩니다. 이 측정항목은 상담사가 상담사의 컨텍스트로 정당화되지 않는 주장을 했는지 여부를 반영합니다 (0=아니요, 1=예). 컨텍스트는 대화의 이전 턴, 세션 변수, 도구 호출, 에이전트 지침으로 구성됩니다. 이 측정항목은 도구 호출이 포함된 턴에 대해서만 계산됩니다. 도구 호출 내 환각은 감지하지 않습니다. 컨텍스트로 제공된 도구 호출은 올바른 것으로 간주됩니다. 거짓양성을 최소화하기 위해 대답에 사실적 주장이 없거나 이미 확립된 일반적인 지식만 포함된 경우 측정항목에서 N/A 점수를 반환할 수 있습니다.

평가 설정에서 엉뚱한 대답을 사용 설정하거나 사용 중지할 수 있습니다.

의미 문맥 검색

골든 테스트 사례에 대해 계산됩니다. 이 측정항목은 관찰된 상담사 발화가 예상되는 상담사 발화와 얼마나 일치하는지 측정합니다. 의미상 일치는 턴 수준에서 계산됩니다. 반환되는 값의 범위는 0 (완전히 불일치 또는 모순됨)에서 4 (완전히 일치) 사이입니다.

시나리오 기대치

시나리오에 대해 계산됩니다. 이 측정항목은 시뮬레이션된 사용자가 예상한 상담사의 행동이 만족스러웠는지 여부를 나타냅니다 (0=아니요, 1=예). 두 가지 유형의 시뮬레이션된 사용자 기대치가 지원됩니다.

  • 도구 호출 기대치: 다음 예외를 제외하고 도구 호출 정확성과 유사하게 계산됩니다.
    • 결과는 0 (아니요) 또는 1 (예)입니다.
    • 예상치 못한 도구 호출에는 불이익이 적용되지 않습니다. 기대치는 시뮬레이션된 사용자의 기대치를 충족하는 대화에 필수적인 도구 호출 집합을 지정하기 위한 것입니다.
    • 도구 호출 입력 기대치가 충족되면 호출이 가로채지고 런타임에 모의 반환 값으로 대체됩니다.
  • 상담사 응답 기대치: 대화의 상담사 응답에 예상 문자열이 포함되어 있는지 확인합니다.

작업 완료

시나리오에 대해 계산됩니다. 작업 완료는 대화 품질을 측정하는 지표입니다. 사용자의 목표 달성 여부와 에이전트의 행동이 올바른지 여부를 공동으로 측정합니다. 다음과 같이 정의됩니다.

User_Goal_Satisfied AND no_hallucinations_detected AND Expectations Satisfied

캐릭터

페르소나는 시나리오 테스트 사례를 사용하여 에이전트 테스트에 사용할 수 있는 맞춤설정된 시뮬레이션 사용자 페르소나입니다. 이 기능은 에이전트가 런타임에 발생할 수 있는 다양한 유형의 인간 사용자와 적절하게 상호작용하도록 하는 데 유용합니다.

페르소나를 선택하지 않으면 각 시나리오 결과에 대해 무작위 페르소나가 선택됩니다.

이 기능은 텍스트 및 오디오 입력과 함께 사용할 수 있습니다.

페르소나 만들기

  1. 페르소나를 만들려면 평가 탭으로 이동하여 페르소나 관리 (설정 아이콘 옆)를 클릭합니다.
  2. + 페르소나 추가를 클릭합니다.
  3. 팝업 메뉴에서 이름, 사용자 페르소나, 추가 사용자 컨텍스트 (예: 연령, 위치, 통화 이유 등)를 입력합니다.
  4. + 추가를 클릭합니다.

페르소나를 사용하여 평가를 실행하려면 다음 단계를 따르세요.

  1. 기본 평가 페이지로 돌아가 시나리오 테스트 케이스를 하나 이상 선택합니다. 선택한 항목 실행을 클릭합니다.
  2. 팝업 창의 페르소나 드롭다운 메뉴에서 방금 만든 페르소나를 선택하고 실행을 클릭합니다.