오프라인 평가를 사용하면 개발 또는 프로덕션 중에 캡처된 이전 데이터를 분석하여 에이전트의 성능, 안전성, 품질을 측정할 수 있습니다. 개별 추적 (단일 실행 경로) 또는 전체 세션(다중 턴 대화 기록)을 사전 정의된 또는 맞춤 측정항목 집합에 대해 평가할 수 있습니다.
추적과 세션
- 추적: 모델 입력, 응답, 도구 호출을 포함한 에이전트 동작의 사실적이고 변경 불가능한 기록입니다. 추적은 단일 실행 경로를 나타냅니다.
- 세션: 사용자와 에이전트 간의 전체 다중 턴 상호작용을 포함합니다. 세션을 사용하여 시간이 지남에 따라 컨텍스트 보존 및 대화 흐름을 평가합니다.
시작하기 전에
오프라인 평가에 필요한 데이터와 환경이 있는지 확인하려면 다음 단계를 완료하세요.
- Cloud Trace 가 사용 설정된 상태로 배포된 작동 중인 Agent Runtime 이 있는지 확인합니다.
- 평가 결과를 저장할 Cloud Storage 버킷을 설정합니다. 이 경로는 한 번만 제공하면 됩니다. 향후 실행을 위해 미리 채워집니다.
- 평가에 Agent Platform SDK 를 사용하려는 경우 에이전트 평가에 설명된 대로 클라이언트를 초기화합니다.
원격 분석 요구사항
오프라인 평가를 사용하려면 에이전트가 평가에 필요한 컨텍스트를 제공하기 위해 특정 OpenTelemetry 신호를 내보내야 합니다. 이러한 요구사항은 온라인 모니터의 요구사항과 동일합니다.
에이전트 스팬 호출: 다음 속성을 포함해야 합니다.
gen_ai.agent.name: 에이전트의 식별자입니다.gen_ai.agent.description: 에이전트의 목적에 대한 간략한 설명입니다.gen_ai.conversation.id: 특정 대화 세션의 고유 식별자입니다.
추론 이벤트:
gen_ai.client.inference.operation.details이벤트 는 다음을 캡처해야 합니다.gen_ai.input.messages: 에이전트로 전송된 프롬프트입니다.gen_ai.output.messages: 에이전트에서 생성된 응답입니다.gen_ai.system_instructions: 기본 시스템 프롬프트입니다.gen_ai.tool.definitions: 에이전트에서 사용할 수 있는 도구에 관한 메타데이터입니다.
에이전트 개발 키트를 사용하는 경우 다음 환경 변수를 설정하여 이러한 원격 분석 기능을 사용 설정해야 합니다.
OTEL_SEMCONV_STABILITY_OPT_IN='gen_ai_latest_experimental'
OTEL_INSTRUMENTATION_GENAI_CAPTURE_MESSAGE_CONTENT='EVENT_ONLY'
Cloud Storage에 미디어 녹화
에이전트가 이미지 또는 대용량 문서와 같은 멀티모달 데이터를 사용하는 경우 추적 범위에 직접 삽입하는 대신 Cloud Storage 버킷에 입력 및 출력을 녹화하는 것이 좋습니다. 다음 환경 변수를 구성하여 이 기능을 사용 설정합니다.
OTEL_INSTRUMENTATION_GENAI_UPLOAD_FORMAT='jsonl'
OTEL_INSTRUMENTATION_GENAI_COMPLETION_HOOK='upload'
OTEL_INSTRUMENTATION_GENAI_UPLOAD_BASE_PATH='gs://STORAGE_BUCKET_NAME/PATH'
자세한 내용은 멀티모달 프롬프트 및 응답 수집을 참고하세요.
레지스트리에서 평가 만들기
콘솔에서 Agent Platform > Agents > Evaluation 페이지로 이동합니다. Google Cloud
새 평가 를 클릭합니다.
평가 목표에 따라 추적 또는 세션 탭을 선택합니다.
필터 아이콘과 시간 선택 도구를 사용하여 데이터를 필터링하고 (예: 버전 또는 '지난 2주') 평가할 특정 ID를 선택합니다.
계속 을 클릭합니다.
(선택사항) 평가 이름 필드에 평가 이름을 입력하거나 미리 채워진 기본값을 사용합니다.
비공개 데이터 경로 출력 필드에 Cloud Storage 버킷 URI를 입력합니다. 처음 사용한 후에는 이 경로가 향후 실행을 위해 미리 채워집니다.
기본적으로 4가지 핵심 측정항목이 모두 추가됩니다. 필요에 따라 측정항목을 추가하거나 삭제할 수 있습니다.
에이전트 평가 를 클릭합니다.
단일 추적 또는 세션 평가
개별 실행 경로를 검사하는 동안 직접 평가를 트리거할 수 있습니다.
- 콘솔에서 Agent Platform > Agents 페이지로 이동합니다. Google Cloud
- 왼쪽 탐색 메뉴에서 배포 를 선택합니다.
- 에이전트를 선택합니다.
- 추적 탭을 선택합니다.
- 세션 보기 또는 추적 보기 를 클릭하여 실행 경로를 검사합니다.
- 표에서 특정 행을 선택하여 세부정보 패널을 엽니다.
- 평가 탭을 선택합니다.
- 추적 또는 세션이 평가되지 않은 경우 평가 를 클릭하여 임시 평가를 실행합니다.
평가 결과 보기
평가가 완료되면 결과를 분석하여 성능 격차와 시스템 문제를 파악할 수 있습니다.
- 실행 결과 보기: Google Cloud 콘솔에서 Agent Platform > Agents > Evaluation 페이지로 이동하고 평가 탭을 선택합니다. 평가 이름을 클릭하여 세부 보고서를 봅니다.
- 추적 세부정보: 결과 보고서에서 행을 클릭하여 연결된 추적으로 직접 이동하고 점수 뒤에 있는 추론 (근거)을 검사합니다.
자세한 내용은 평가 결과 분석을 참고하세요.