상담사 평가

이 기능을 사용하면 AI 에이전트를 평가할 수 있습니다. Gen AI Evaluation Service를 사용하여 에이전트의 성능, 안전, 품질을 측정하고 개선할 수 있습니다.

평가 유형

평가 유형 사용 사례 빈도
빠른 평가 새 에이전트 로직 또는 모델 변경사항 테스트 잦음 (개발)
테스트 케이스 평가 특정 데이터 세트에 대한 회귀 테스트 예약됨 (CI/CD)
온라인 모니터링 프로덕션 에이전트 배포의 품질 추적 연속 (프로덕션)

평가 워크플로

Google Cloud 콘솔 또는 Agent Platform SDK를 사용하여 에이전트를 평가할 수 있습니다.

Google Cloud 콘솔

에이전트 배포에 대한 기본 평가를 실행하려면 다음 단계를 따르세요.

  1. 콘솔에서 Agent Platform > 에이전트 페이지로 이동합니다. Google Cloud
  2. 왼쪽 탐색 메뉴에서 배포 를 선택하고 에이전트를 선택합니다.

    배포로 이동

  3. 대시보드 탭을 선택하고 평가 하위 섹션을 선택합니다.
  4. 새 평가 를 클릭합니다.
  5. 메시지에 따라 테스트 케이스를 정의하고 측정항목을 선택합니다.
  6. 평가 실행 을 클릭합니다.

자세한 가이드는 오프라인 평가 실행 또는 온라인 모니터로 지속적 평가를 참고하세요.

Agent Platform SDK

에이전트 개선 워크플로는 품질 플라이휠, 평가, 분석, 최적화의 지속적인 사이클을 기반으로 빌드됩니다. 에이전트의 성능을 평가하고 결과를 분석하여 실패 클러스터를 식별한 후 프롬프트 또는 구성을 최적화하여 이러한 문제를 해결합니다. 이 반복 프로세스를 통해 성능 격차를 사전에 감지하고 해결할 수 있습니다.

시작하기 전에

  1. 필요한 확장 프로그램과 함께 Agent Platform SDK 를 설치합니다.

    pip install google-cloud-aiplatform[adk,evaluation]
  2. Agent Platform SDK 클라이언트를 초기화합니다.

    import vertexai
    from vertexai import Client
    
    client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")

    각 항목의 의미는 다음과 같습니다.

    • YOUR_PROJECT_ID: 프로젝트 ID입니다. Google Cloud
    • YOUR_LOCATION: 클라우드 리전(예: us-central1)입니다.

1. 평가 케이스 정의 (사용자 시뮬레이션)

테스트 케이스를 수동으로 작성하는 대신 사용자 시뮬레이션 을 사용하여 에이전트의 안내를 기반으로 합성 다중 턴 대화 계획을 생성합니다.

# Generate scenarios from agent info
eval_dataset = client.evals.generate_conversation_scenarios(
    agent_info=my_agent_info,
    config={
        "count": 5,
        "generation_instruction": "Generate scenarios where a user asks for a refund.",
    },
)

자세한 내용은 Agent Platform SDK 참조를 확인하세요.

2. 추론 실행

에이전트에 대해 평가 케이스를 실행하여 추적 을 캡처합니다.

# Generate behavior traces using a multi-turn user simulator
traces = client.evals.run_inference(
    agent=my_agent,
    src=eval_dataset,
    config={"user_simulator_config": {"max_turn": 5}}
)

3. 측정항목 계산 (AutoRaters)

다중 턴 AutoRaters 를 사용하여 캡처된 추적을 평가합니다. 이러한 평가자는 전체 대화 기록을 분석하여 안내 준수 및 도구 사용을 확인합니다.

# Evaluate the traces using multi-turn metrics
eval_result = client.evals.evaluate(
    traces=traces,
    metrics=[
        "MULTI_TURN_TASK_SUCCESS",
        "MULTI_TURN_TOOL_USE_QUALITY"
    ]
)

4. 분석 수행 (실패 클러스터)

시스템은 실패한 평가를 손실 클러스터 로 자동 그룹화하여 주요 에이전트 문제를 식별합니다.

# Identify the top failure patterns in the results
loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)

5. 에이전트 최적화

마지막으로 Optimizer 서비스를 사용하여 실패 데이터를 기반으로 에이전트의 시스템 안내 또는 도구 설명을 프로그래매틱 방식으로 세분화합니다.

# Automatically refine the system prompt to fix identified issues
optimize_result = client.optimizer.optimize(
    targets=["system_prompt"],
    benchmark=eval_result,
    tests=eval_dataset
)

다음 단계