Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

온라인 모니터를 사용한 지속적인 평가

온라인 모니터링을 사용하면 프로덕션에서 에이전트의 품질을 지속적으로 평가할 수 있습니다. 이 사전 예방적 접근 방식을 사용하면 사용자 동작 또는 외부 데이터의 변경으로 인해 발생하는 품질 드리프트(시간이 지남에 따라 에이전트 성능이 눈에 띄게 감소하는 현상)를 식별할 수 있습니다. 온라인 모니터를 구성하면 사전 정의된 측정항목과 커스텀 측정항목을 모두 사용하여 실시간 trace를 비동기식으로 점수화하여 에이전트가 안정적으로 유지되고 성능 표준에 부합하도록 할 수 있습니다.

시작하기 전에

에이전트에 온라인 모니터링을 사용 설정하려면 다음 요구사항을 충족해야 합니다.

에이전트 배포에 설명된 대로 에이전트를 배포합니다.
프로젝트에 Cloud Trace 가 사용 설정되어 있는지 확인합니다.
(선택사항) 프로그래매틱 방식으로 모니터를 만들려면 에이전트 평가 페이지에서 Agent Platform SDK 초기화 안내를 참고하세요.

원격 분석 요구사항

온라인 모니터링을 사용하려면 에이전트가 평가에 필요한 컨텍스트를 제공하기 위해 특정 OpenTelemetry 신호를 내보내야 합니다.

에이전트 스팬 호출: 다음 속성을 포함해야 합니다.
- gen_ai.agent.name: 에이전트의 식별자입니다.
- gen_ai.agent.description: 에이전트의 목적에 대한 간략한 설명입니다.
- gen_ai.conversation.id: 특정 대화 세션의 고유 식별자입니다.
추론 이벤트: gen_ai.client.inference.operation.details 이벤트 는 다음을 캡처해야 합니다.
- gen_ai.input.messages: 에이전트에 전송된 프롬프트입니다.
- gen_ai.output.messages: 에이전트에서 생성된 응답입니다.
- gen_ai.system_instructions: 기본 시스템 프롬프트입니다.
- gen_ai.tool.definitions: 에이전트에서 사용할 수 있는 도구에 관한 메타데이터입니다.

에이전트 개발 키트를 사용하는 경우 다음 환경 변수를 설정하여 이러한 원격 분석 기능을 사용 설정해야 합니다.

OTEL_SEMCONV_STABILITY_OPT_IN='gen_ai_latest_experimental'
OTEL_INSTRUMENTATION_GENAI_CAPTURE_MESSAGE_CONTENT='EVENT_ONLY'

Cloud Storage에 미디어 녹화

에이전트가 이미지 또는 대용량 문서와 같은 멀티모달 데이터를 사용하는 경우 trace 스팬에 직접 삽입하는 대신 Cloud Storage 버킷에 입력 및 출력을 녹화하는 것이 좋습니다. 다음 환경 변수를 구성하여 이 기능을 사용 설정합니다.

OTEL_INSTRUMENTATION_GENAI_UPLOAD_FORMAT='jsonl'
OTEL_INSTRUMENTATION_GENAI_COMPLETION_HOOK='upload'
OTEL_INSTRUMENTATION_GENAI_UPLOAD_BASE_PATH='gs://STORAGE_BUCKET_NAME/PATH'

자세한 내용은 멀티모달 프롬프트 및 응답 수집을 참고하세요.

온라인 모니터 작동 방식

온라인 모니터는 일반적으로 10분마다 예약된 평가 루프에서 실행됩니다. 루프는 다음 단계를 따릅니다.

쿼리: 필터를 기반으로 Cloud Trace 및 Cloud Logging 에서 데이터를 샘플링합니다.
평가: Gemini Enterprise Agent Platform 평가 서비스를 사용하여 구성된 측정항목을 실행합니다.
보고: 결과를 Cloud Logging 에 다시 쓰고 숫자 점수를 Cloud Monitoring 으로 내보냅니다.

온라인 모니터 만들기

콘솔에서 Agent Platform > 에이전트 > 평가 페이지로 이동합니다. Google Cloud
평가로 이동
온라인 모니터 탭을 선택하고 새 모니터 를 클릭합니다.
필터 trace 지정:
- 에이전트 엔진: 드롭다운에서 모니터링할 에이전트를 선택합니다.
- 필터 기준: 에이전트의 모든 trace 를 평가할지 아니면 특정 필터 기준 을 적용할지 선택합니다.
필터 기준 정의 (필터링된 trace를 사용하는 경우):
- 초기 검사: 필터와 일치하는 프로덕션 trace를 미리 볼 기간 (예: 지난 1일)을 선택합니다.
- 필터: 특정 트래픽을 타겟팅할 기준을 입력합니다. `Duration` (예: `Duration > 2`) 또는 `Token usage`와 같은 속성을 기준으로 필터링할 수 있습니다.DurationDuration > 2Token usage
측정항목 구성: 안전 과 같이 지속적으로 추적할 측정항목을 추가합니다.
샘플링 설정:
- 샘플링 비율: 평가할 실시간 트래픽의 비율을 정의합니다.
- 실행당 최대 샘플 수: 평가 비용을 관리하기 위한 한도를 설정합니다.
만들기 를 클릭합니다.

모니터 관리

모니터를 만든 후에는 온라인 모니터 목록에서 모니터를 관리할 수 있습니다.

상태 전환: 옵션 더보기 를 클릭하고 사용 설정 또는 사용 중지 를 선택하여 구성을 삭제하지 않고 평가를 일시중지합니다.
일시중지 및 다시 시작: 옵션 더보기 를 사용하여 평가를 일시적으로 중지합니다.
중복: 기존 모니터의 미리 채워진 설정으로 새 모니터를 만듭니다.
trace 보기: 모니터의 샘플링된 trace 열에서 trace 보기 링크를 클릭하여 에이전트의 trace 탭에서 필터링된 trace로 직접 이동합니다.

모니터링 가능성 대시보드에서 결과 보기

다른 성능 신호와 함께 평가 측정항목을 보려면 다음 단계를 따르세요.

콘솔에서 Agent Platform > 에이전트 페이지로 이동합니다. Google Cloud
왼쪽 탐색 메뉴에서 배포 를 선택합니다.
에이전트를 선택합니다.
배포로 이동
대시보드 뷰에서 평가 하위 섹션을 선택하여 응답 품질, 안전, 환각률과 같이 구성된 측정항목의 시계열 차트를 봅니다.

개별 trace의 결과 보기

trace 뷰 내에서 특정 대화의 평가 결과를 직접 검사할 수도 있습니다.

콘솔에서 에이전트의 trace 탭으로 이동합니다. Google Cloud
표에서 세션 또는 trace를 선택하여 세부정보 패널을 엽니다.
평가 탭을 선택하여 특정 상호작용의 점수와 근거를 봅니다.

온라인 모니터 문제 해결

온라인 모니터가 활성 상태이지만 대시보드에 결과가 표시되지 않는 경우 다음 단계를 따르세요.

원격 분석 확인: 에이전트가 필요한 OpenTelemetry 스팬과 이벤트를 올바르게 내보내고 있는지 확인합니다. Cloud Trace 를 확인하여 실시간 trace에 gen_ai. 속성이 포함되어 있는지 확인합니다.
필터 확인: 모니터의 필터 기준을 검토합니다. 초기 검사 기능을 사용하여 필터가 프로덕션 트래픽과 일치하는지 확인합니다.
내부 로그 확인: 온라인 모니터는 진단 정보를 Cloud Logging 에 기록합니다. 평가가 실패하면 오류 로그가 생성됩니다. 모니터 ID 또는 특정 trace 및 에이전트를 검색하여 로그 탐색기 에서 이러한 로그를 찾을 수 있습니다.
```
resource.labels.online_evaluator="projects/YOUR_PROJECT_ID/locations/YOUR_REGION/onlineEvaluators/YOUR_MONITOR_ID"
# Or search by trace or agent
labels.trace="YOUR_TRACE_ID"
labels.reasoning_engine_id="YOUR_AGENT_ID"
```