이 문서에서는 에이전트 평가를 사용하여 에이전트의 성능, 안전, 품질을 측정하고 개선하는 방법을 설명합니다.
모델 평가에 대해 자세히 알아보려면 Gen AI 평가 서비스 개요를 참고하세요.
절차 요약
| 단계 | 활동 | 목표 |
|---|---|---|
| 디자인 | 평가 케이스 정의 | 상담사 작업 및 예상 결과를 지정합니다. |
| 실행 | 추론 실행 | 실제 또는 시뮬레이션된 대화 추적을 생성합니다. |
| 점수 매기기 | 측정항목 계산 | 자동 평가자를 사용하여 트레이드를 평가합니다 (작업 성공, 안전). |
| 세부 조정 | 에이전트 최적화 | 요청 사항 또는 도구의 개선사항을 제안하고 확인합니다. |
평가 절차
평가는 구조화된 반복 워크플로를 따릅니다.
- 평가 케이스 정의: 평가 케이스는 상담사의 작업을 정의하는 사양입니다. 평가 케이스에는 하나 이상의 대화 단계, 대화 컨텍스트 (에이전트의 상태), 추론 중에 사용자 응답을 시뮬레이션하기 위한 사양이 포함될 수 있습니다.
- 추론 실행: 추론은 평가 사례의 실행입니다. 평가 케이스에 대화 계획이 포함된 경우 추론 중에 사용자 응답이 시뮬레이션됩니다.
- 트레이스 생성: 각 추론 실행은 트레이스에서 에이전트의 동작을 캡처합니다. 추적은 모델 입력, 응답, 도구 호출을 포함한 에이전트의 동작에 관한 사실적이고 변경 불가능한 기록입니다.
- 측정항목 계산: 측정항목은 사전 빌드된 평가자 또는 맞춤 평가자를 사용하여 각 트레이스에 대해 계산된 점수입니다. 일치검색과 같은 일부 측정항목은 참조 기반이며 참조 답변이 있는 평가 사례가 필요합니다. 유용성과 같은 다른 항목은 참조가 필요하지 않으며 트레이스를 자체적으로 평가합니다. 이 자동 평가를 사용하면 관리 테스트 환경과 관계없이 프로덕션 트래픽이나 외부 로그에서 캡처한 트레이스를 점수화할 수 있습니다.
- 분석 실행: 측정항목, 평가 기준, 평결을 분석하여 주요 에이전트 문제를 식별하고, 에이전트 문제를 테스트 사례에 다시 연결하고, 개선을 위한 통계를 생성합니다.
- 에이전트 최적화: 최적화를 사용하여 전체 평가 주기를 관리합니다. 이 자동화된 프로세스는 결과를 분석하고, 에이전트 개선사항을 제안하며, 성능 향상을 확인하기 위해 프로세스를 반복적으로 다시 실행합니다.
평가 워크플로
워크플로의 두 가지 주요 단계에 평가를 통합할 수 있습니다.
- 로컬 개발 반복: 프롬프트 엔지니어링 및 도구 구성을 빠르게 반복하기 위해 에이전트 개발 키트 (ADK) 기반 에이전트를 로컬로 평가합니다.
- 배포된 에이전트 평가: 이전 트레이스를 분석하거나 에이전트 엔드포인트에 대해 합성 벤치마크를 실행하여 배포된 에이전트의 품질을 측정합니다.
주요 기능
에이전트 평가를 사용하면 기존 테스트 데이터가 없어도 초기 평가 모음을 빌드할 수 있습니다. 다음 기능을 사용하면 테스트 사례를 생성하고 에이전트 시스템을 개선하는 프로세스를 자동화할 수 있습니다.
시나리오 생성 및 사용자 시뮬레이션: 에이전트의 안내 및 도구 정의를 기반으로 다양한 멀티턴 합성 테스트 시나리오를 자동으로 생성합니다. 이 자동화를 사용하면 초기 테스트 사례를 수동으로 작성할 필요가 없어 즉시 테스트를 시작할 수 있습니다.
환경 시뮬레이션: 특정 도구 호출을 가로채 맞춤 동작, 모의 데이터 또는 시뮬레이션된 오류 (예: HTTP 503 오류 또는 지연 시간 급증)를 삽입합니다. 이 시뮬레이션을 사용하면 프로덕션 백엔드에 영향을 주지 않고 에이전트 복원력을 검증할 수 있습니다.
멀티턴 평가: 멀티턴 자동 평가기를 사용하여 전체 대화 기록을 자동으로 평가합니다. 이러한 평가자는 의도 추출을 분석하고, 기준표를 동적으로 생성하며, 객관적인 검증 평결을 제공하여 지침 준수를 보장합니다.
프롬프트 최적화: 프롬프트 최적화를 사용하여 세련된 시스템 요청 사항을 프로그래매틱 방식으로 생성하고 검증합니다. 최적화 프레임워크는 실패 지점을 식별하고 타겟 업데이트를 반복적으로 제안합니다.