에이전트 평가

이 문서에서는 에이전트 평가를 사용하여 에이전트의 성능, 안전, 품질을 측정하고 개선하는 방법을 설명합니다.

모델 평가에 대해 자세히 알아보려면 Gen AI 평가 서비스 개요를 참고하세요.

절차 요약

단계	활동	목표
디자인	평가 케이스 정의	상담사 작업 및 예상 결과를 지정합니다.
실행	추론 실행	실제 또는 시뮬레이션된 대화 추적을 생성합니다.
점수 매기기	측정항목 계산	자동 평가자를 사용하여 트레이드를 평가합니다 (작업 성공, 안전).
세부 조정	에이전트 최적화	요청 사항 또는 도구의 개선사항을 제안하고 확인합니다.

평가 절차

평가는 구조화된 반복 워크플로를 따릅니다.

평가 케이스 정의: 평가 케이스는 상담사의 작업을 정의하는 사양입니다. 평가 케이스에는 하나 이상의 대화 단계, 대화 컨텍스트 (에이전트의 상태), 추론 중에 사용자 응답을 시뮬레이션하기 위한 사양이 포함될 수 있습니다.
추론 실행: 추론은 평가 사례의 실행입니다. 평가 케이스에 대화 계획이 포함된 경우 추론 중에 사용자 응답이 시뮬레이션됩니다.
트레이스 생성: 각 추론 실행은 트레이스에서 에이전트의 동작을 캡처합니다. 추적은 모델 입력, 응답, 도구 호출을 포함한 에이전트의 동작에 관한 사실적이고 변경 불가능한 기록입니다.
측정항목 계산: 측정항목은 사전 빌드된 평가자 또는 맞춤 평가자를 사용하여 각 트레이스에 대해 계산된 점수입니다. 일치검색과 같은 일부 측정항목은 참조 기반이며 참조 답변이 있는 평가 사례가 필요합니다. 유용성과 같은 다른 항목은 참조가 필요하지 않으며 트레이스를 자체적으로 평가합니다. 이 자동 평가를 사용하면 관리 테스트 환경과 관계없이 프로덕션 트래픽이나 외부 로그에서 캡처한 트레이스를 점수화할 수 있습니다.
분석 실행: 측정항목, 평가 기준, 평결을 분석하여 주요 에이전트 문제를 식별하고, 에이전트 문제를 테스트 사례에 다시 연결하고, 개선을 위한 통계를 생성합니다.
에이전트 최적화: 최적화를 사용하여 전체 평가 주기를 관리합니다. 이 자동화된 프로세스는 결과를 분석하고, 에이전트 개선사항을 제안하며, 성능 향상을 확인하기 위해 프로세스를 반복적으로 다시 실행합니다.

평가 워크플로

워크플로의 두 가지 주요 단계에 평가를 통합할 수 있습니다.

로컬 개발 반복: 프롬프트 엔지니어링 및 도구 구성을 빠르게 반복하기 위해 에이전트 개발 키트 (ADK) 기반 에이전트를 로컬로 평가합니다.
배포된 에이전트 평가: 이전 트레이스를 분석하거나 에이전트 엔드포인트에 대해 합성 벤치마크를 실행하여 배포된 에이전트의 품질을 측정합니다.

주요 기능

에이전트 평가를 사용하면 기존 테스트 데이터가 없어도 초기 평가 모음을 빌드할 수 있습니다. 다음 기능을 사용하면 테스트 사례를 생성하고 에이전트 시스템을 개선하는 프로세스를 자동화할 수 있습니다.

시나리오 생성 및 사용자 시뮬레이션: 에이전트의 안내 및 도구 정의를 기반으로 다양한 멀티턴 합성 테스트 시나리오를 자동으로 생성합니다. 이 자동화를 사용하면 초기 테스트 사례를 수동으로 작성할 필요가 없어 즉시 테스트를 시작할 수 있습니다.
환경 시뮬레이션: 특정 도구 호출을 가로채 맞춤 동작, 모의 데이터 또는 시뮬레이션된 오류 (예: HTTP 503 오류 또는 지연 시간 급증)를 삽입합니다. 이 시뮬레이션을 사용하면 프로덕션 백엔드에 영향을 주지 않고 에이전트 복원력을 검증할 수 있습니다.
멀티턴 평가: 멀티턴 자동 평가기를 사용하여 전체 대화 기록을 자동으로 평가합니다. 이러한 평가자는 의도 추출을 분석하고, 기준표를 동적으로 생성하며, 객관적인 검증 평결을 제공하여 지침 준수를 보장합니다.
프롬프트 최적화: 프롬프트 최적화를 사용하여 세련된 시스템 요청 사항을 프로그래매틱 방식으로 생성하고 검증합니다. 최적화 프레임워크는 실패 지점을 식별하고 타겟 업데이트를 반복적으로 제안합니다.