에이전트 평가

이 문서에서는 에이전트 평가를 사용하여 에이전트의 성능, 안전성, 품질을 측정하고 개선하는 방법을 설명합니다.

모델 평가에 대한 자세한 내용은 Gen AI Evaluation Service 개요를 참고하세요.

절차 요약

단계 활동 목표
디자인 평가 케이스 정의 에이전트 작업 및 예상 결과를 지정합니다.
실행 추론 실행 실제 또는 시뮬레이션된 대화 trace를 생성합니다.
점수 매기기 측정항목 계산 자동 평가기 (작업 성공, 안전)를 사용하여 trace에 등급을 매깁니다.
세부 조정 에이전트 최적화 안내 또는 도구의 개선사항을 제안하고 확인합니다.

평가 절차

평가는 구조화된 반복 워크플로를 따릅니다.

  1. 평가 케이스 정의: 평가 케이스는 에이전트의 작업을 정의하는 사양입니다. 평가 케이스에는 하나 이상의 대화 단계, 대화 컨텍스트 (에이전트의 상태), 추론 중에 사용자 응답을 시뮬레이션하기 위한 사양이 포함될 수 있습니다.
  2. 추론 실행: 추론 은 평가 케이스의 실행입니다. 평가 케이스에 대화 계획이 포함되어 있으면 추론 중에 사용자 응답이 시뮬레이션됩니다.
  3. trace 생성: 각 추론 실행은 trace에서 에이전트의 동작을 캡처합니다. trace 는 모델 입력, 응답, 도구 호출을 포함한 에이전트 동작의 사실적이고 변경 불가능한 기록입니다.
  4. 측정항목 계산: 측정항목은 사전 빌드된 평가기 또는 커스텀 평가기를 사용하여 각 trace에 대해 계산되는 점수입니다. 정확한 일치와 같은 일부 측정항목은 참조 기반이며 참조 답변이 있는 평가 케이스가 필요합니다. **유용성** 과 같은 다른 측정항목은 _참조가 필요하지 않으며_ trace 자체를 평가합니다. 이 자동 평가를 사용하면 관리형 테스트 환경과 관계없이 프로덕션 트래픽 또는 외부 로그에서 캡처한 trace에 점수를 매길 수 있습니다.
  5. 분석 수행: 측정항목, 기준표, 평결을 분석하여 주요 에이전트 문제를 파악하고, 에이전트 문제를 테스트 케이스에 다시 연결하고, 개선을 위한 통계를 생성합니다.
  6. 에이전트 최적화: 최적화를 사용하여 전체 평가 주기를 관리합니다. 이 자동화된 프로세스는 결과를 분석하고, 에이전트 개선사항을 제안하고, 성능 향상을 확인하기 위해 프로세스를 반복적으로 다시 실행합니다.

평가 워크플로

평가를 워크플로의 두 가지 주요 단계에 통합할 수 있습니다.

  • 로컬 개발 반복: 에이전트 개발 키트 (ADK) 기반 에이전트를 로컬에서 평가하여 프롬프트 엔지니어링 및 도구 구성을 빠르게 반복합니다.
  • 배포된 에이전트 평가: 이전 trace를 분석하거나 에이전트 엔드포인트에 대해 합성 벤치마크를 실행하여 배포된 에이전트의 품질을 측정합니다.

주요 기능

에이전트 평가를 사용하면 기존 테스트 데이터가 없어도 초기 평가 모음을 빌드할 수 있습니다. 다음 기능은 테스트 케이스 생성 및 에이전트 시스템 세부 조정 프로세스를 자동화하는 데 도움이 됩니다.

  • 시나리오 생성 및 사용자 시뮬레이션: 에이전트의 안내 및 도구 정의를 기반으로 다양한 멀티턴 합성 테스트 시나리오를 자동으로 생성합니다. 이 자동화를 사용하면 초기 테스트 케이스를 수동으로 작성할 필요가 없으므로 즉시 테스트를 시작할 수 있습니다.

  • 환경 시뮬레이션: 특정 도구 호출을 가로채서 커스텀 동작, 모의 데이터 또는 시뮬레이션된 오류 (예: HTTP 503 오류 또는 지연 시간 급증)를 삽입합니다. 이 시뮬레이션을 사용하면 프로덕션 백엔드에 영향을 주지 않고 에이전트 복원력을 검증할 수 있습니다.

  • 멀티턴 평가: 멀티턴 자동 평가기를 사용하여 전체 대화 기록을 자동으로 평가합니다. 이러한 평가기는 인텐트 추출을 분석하고, 기준표를 동적으로 생성하고, 객관적인 검증 평결을 제공하여 안내 준수를 보장하는 데 도움이 됩니다.

  • 프롬프트 최적화: 프롬프트 최적화를 사용하여 세부 조정된 시스템 안내를 프로그래매틱 방식으로 생성하고 검증합니다. 최적화 프레임워크는 실패 지점을 식별하고 타겟 업데이트를 반복적으로 제안합니다.

다음 단계