Google은 AI 기술을 사용하여 콘텐츠를 사용자의 기본 언어로 번역합니다. AI 번역에는 오류가 있을 수 있습니다.

에이전트 평가

이 문서에서는 에이전트 평가를 사용하여 에이전트의 성능, 안전성, 품질을 측정하고 개선하는 방법을 설명합니다.

모델 평가에 관한 자세한 내용은 Gen AI Evaluation Service 개요를 참고하세요.

절차 요약

단계	활동	목표
디자인	평가 케이스 정의	에이전트 작업 및 예상 결과 지정
실행	추론 실행	실제 또는 시뮬레이션된 대화 trace 생성
점수 매기기	측정항목 계산	자동 평가기 (작업 성공, 안전)를 사용하여 trace 등급 지정
세부 조정	에이전트 최적화	안내 또는 도구 개선 제안 및 확인

평가 절차

평가는 구조화된 반복 워크플로를 따릅니다.

평가 케이스 정의: 평가 케이스는 에이전트의 작업을 정의하는 사양입니다. 평가 케이스에는 하나 이상의 대화 단계, 대화 컨텍스트 (에이전트의 상태), 추론 중에 사용자 응답을 시뮬레이션하기 위한 사양이 포함될 수 있습니다.
추론 실행: 추론 은 평가 케이스의 실행입니다. 평가 케이스에 대화 계획이 포함되어 있으면 추론 중에 사용자 응답이 시뮬레이션됩니다.
trace 생성: 각 추론 실행은 trace에서 에이전트의 동작을 캡처합니다. trace 는 모델 입력, 응답, 도구 호출을 비롯한 에이전트 동작의 사실적이고 변경 불가능한 기록입니다.
측정항목 계산: 측정항목은 사전 빌드된 평가기 또는 커스텀 평가기를 사용하여 각 trace에 대해 계산되는 점수입니다. 정확한 일치와 같은 일부 측정항목은 참조 기반이며 참조 답변이 있는 평가 케이스가 필요합니다. **유용성** 과 같은 다른 측정항목은 _참조가 필요하지 않으며_ trace 자체를 평가합니다. 이 자동 평가를 사용하면 관리형 테스트 환경과 관계없이 프로덕션 트래픽 또는 외부 로그에서 캡처한 trace에 점수를 매길 수 있습니다.
분석 수행: 측정항목, 기준표, 평결을 분석하여 주요 에이전트 문제를 파악하고, 에이전트 문제를 테스트 케이스에 다시 연결하고, 개선을 위한 통계를 생성합니다.
에이전트 최적화: 최적화를 사용하여 전체 평가 주기를 관리합니다. 이 자동화된 프로세스는 결과를 분석하고, 에이전트 개선을 제안하고, 성능 향상을 확인하기 위해 프로세스를 반복적으로 다시 실행합니다.

평가 워크플로

워크플로의 두 가지 주요 단계에 평가를 통합할 수 있습니다.

로컬 개발 반복: 에이전트 개발 키트 (ADK) 기반 에이전트를 로컬에서 평가하여 프롬프트 엔지니어링 및 도구 구성을 빠르게 반복합니다.
배포된 에이전트 평가: 이전 trace를 분석하거나 에이전트 엔드포인트에 대해 합성 벤치마크를 실행하여 배포된 에이전트의 품질을 측정합니다.

주요 기능

에이전트 평가는 기존 테스트 데이터가 없어도 초기 평가 모음을 빌드하는 데 도움이 됩니다. 다음 기능은 테스트 케이스 생성 및 에이전트 시스템 개선 프로세스를 자동화하는 데 도움이 됩니다.

시나리오 생성 및 사용자 시뮬레이션: 에이전트의 안내 및 도구 정의를 기반으로 다양한 멀티턴 합성 테스트 시나리오를 자동으로 생성합니다. 이 자동화를 사용하면 초기 테스트 케이스를 수동으로 작성할 필요가 없으므로 즉시 테스트를 시작할 수 있습니다.
환경 시뮬레이션: 특정 도구 호출을 가로채서 커스텀 동작, 모의 데이터 또는 시뮬레이션된 오류 (예: HTTP 503 오류 또는 지연 시간 급증)를 삽입합니다. 이 시뮬레이션을 사용하면 프로덕션 백엔드에 영향을 미치지 않고 에이전트 복원력을 검증할 수 있습니다.
멀티턴 평가: 멀티턴 자동 평가기를 사용하여 전체 대화 기록을 자동으로 평가합니다. 이러한 평가기는 인텐트 추출을 분석하고, 기준표를 동적으로 생성하고, 객관적인 검증 평결을 제공하여 안내 준수를 보장하는 데 도움이 됩니다.
프롬프트 최적화: 프롬프트 최적화를 사용하여 개선된 시스템 안내를 프로그래매틱 방식으로 생성하고 검증합니다. 최적화 프레임워크는 실패 지점을 식별하고 타겟 업데이트를 반복적으로 제안합니다.

AI 코딩 어시스턴트로 평가

Gemini CLI 또는 다른 AI 코딩 어시스턴트를 사용하는 경우 이 페이지에 설명된 에이전트 평가 방법론을 어시스턴트에게 알려주는 에이전트 기술을 설치할 수 있습니다. 각 스킬은 코딩 세션에서 직접 평가 워크플로, 데이터 세트 스키마, 측정항목 선택 안내, 실패 분석 단계를 제공하므로 어시스턴트가 편집기를 종료하지 않고도 평가를 빌드, 등급 지정, 개선할 수 있습니다.

설치 안내는 각 스킬을 따릅니다.

Agents CLI 평가 스킬

agents-cli eval 명령어를 사용하여 에이전트 개발 키트 (ADK) 에이전트를 평가하고 최적화하는 CLI 기반 워크플로입니다. 이 기술은 다음을 다룹니다.

평가 데이터 세트 준비 및 사용자 시뮬레이션을 통한 멀티턴 시나리오 합성
추론 실행, trace 등급 지정, 실패 클러스터 분석
평가 수정 루프를 사용하여 프롬프트 및 도구 반복

설치하려면 다음 명령어를 실행하세요.

npx skills add https://github.com/google/agents-cli --skill google-agents-cli-eval

Agent Platform 생성형 AI 평가 서비스 플라이휠 기술

Agent Platform 생성형 AI 평가 SDK(client.evals.evaluate())를 사용하여 Agent Platform 생성형 AI 평가 서비스를 통해 모델과 에이전트를 평가하고 개선하는 SDK 기반 플레이북입니다. 이 스킬은 다음을 다룹니다.

세션 trace, DataFrame 또는 합성 생성을 통해 평가 데이터 세트 빌드
LLM-as-judge 점수 매기기를 사용하여 커스텀 측정항목 선택, 구성, 작성
기준표 평결 및 손실 패턴을 분석하여 구체적인 개선사항 도출