온라인 모니터를 사용한 지속적인 평가

온라인 모니터링을 사용하면 프로덕션에서 에이전트의 품질을 지속적으로 평가할 수 있습니다. 이러한 사전 대응 방식은 사용자 행동이나 외부 데이터의 변화로 인해 시간이 지남에 따라 상담사 실적이 눈에 띄게 감소하는 품질 드리프트를 파악하는 데 도움이 됩니다. 온라인 모니터를 구성하면 사전 정의된 측정항목과 맞춤 측정항목을 모두 사용하여 실시간 트레이스를 비동기적으로 점수화하여 에이전트가 안정적이고 성능 표준에 부합하도록 할 수 있습니다.

시작하기 전에

에이전트의 온라인 모니터링을 사용 설정하려면 다음 요구사항을 충족해야 합니다.

  • 에이전트 배포에 설명된 대로 에이전트를 배포합니다.
  • 프로젝트에 Cloud Trace가 사용 설정되어 있는지 확인합니다.
  • (선택사항) 프로그래매틱 방식으로 모니터를 만들 계획이라면 에이전트 평가 페이지에서 Agent Platform SDK 초기화 안내를 참고하세요.

원격 분석 요구사항

온라인 모니터링을 사용하려면 에이전트가 평가에 필요한 컨텍스트를 제공하기 위해 특정 OpenTelemetry 신호를 내보내야 합니다.

  1. 에이전트 호출 스팬: 다음 속성을 포함해야 합니다.

    • gen_ai.agent.name: 에이전트의 식별자입니다.
    • gen_ai.agent.description: 에이전트의 목적에 대한 간단한 설명입니다.
    • gen_ai.conversation.id: 특정 대화 세션의 고유 식별자입니다.
  2. 추론 이벤트: gen_ai.client.inference.operation.details 이벤트는 다음을 캡처해야 합니다.

    • gen_ai.input.messages: 에이전트에 전송된 프롬프트입니다.
    • gen_ai.output.messages: 에이전트가 생성한 응답입니다.
    • gen_ai.system_instructions: 기본 시스템 프롬프트입니다.
    • gen_ai.tool.definitions: 에이전트가 사용할 수 있는 도구에 관한 메타데이터입니다.

에이전트 개발 키트를 사용하는 경우 다음 환경 변수를 설정하여 이러한 원격 분석 기능을 사용 설정해야 합니다.

OTEL_SEMCONV_STABILITY_OPT_IN='gen_ai_latest_experimental'
OTEL_INSTRUMENTATION_GENAI_CAPTURE_MESSAGE_CONTENT='EVENT_ONLY'

Cloud Storage에 미디어 녹화

에이전트가 이미지나 대형 문서와 같은 멀티모달 데이터를 사용하는 경우 추적 범위에 직접 삽입하는 대신 Cloud Storage 버킷에 입력과 출력을 기록하는 것이 좋습니다. 이를 사용 설정하려면 다음 환경 변수를 구성하세요.

OTEL_INSTRUMENTATION_GENAI_UPLOAD_FORMAT='jsonl'
OTEL_INSTRUMENTATION_GENAI_COMPLETION_HOOK='upload'
OTEL_INSTRUMENTATION_GENAI_UPLOAD_BASE_PATH='gs://STORAGE_BUCKET_NAME/PATH'

자세한 내용은 멀티모달 프롬프트 및 대답 수집을 참고하세요.

온라인 모니터 작동 방식

온라인 모니터는 일반적으로 10분마다 예약된 평가 루프에서 실행됩니다. 루프는 다음 단계를 따릅니다.

  1. 쿼리: 필터를 기반으로 Cloud TraceCloud Logging의 데이터를 샘플링합니다.
  2. 평가: Gemini Enterprise Agent Platform 평가 서비스를 사용하여 구성된 측정항목을 실행합니다.
  3. 보고서: 결과를 Cloud Logging에 다시 쓰고 숫자 점수를 Cloud Monitoring으로 내보냅니다.

온라인 모니터 만들기

  1. Google Cloud 콘솔에서 Agent Platform > 에이전트 > 평가 페이지로 이동합니다.

    평가로 이동

  2. 온라인 모니터 탭을 선택하고 새 모니터를 클릭합니다.

  3. 필터 추적 지정:

    • 에이전트 엔진: 드롭다운에서 모니터링할 에이전트를 선택합니다.
    • 필터 기준: 에이전트의 모든 트레이스를 평가할지 아니면 특정 필터 기준을 적용할지 선택합니다.
  4. 필터 기준 정의 (필터링된 트레이스 사용 시):

    • 초기 검사: 필터와 일치하는 프로덕션 트레이스를 미리 볼 기간 (예: 지난 1일)을 선택합니다.
    • 필터: 특정 트래픽을 타겟팅할 기준을 입력합니다. Duration (예: Duration > 2) 또는 Token usage와 같은 속성으로 필터링할 수 있습니다.
  5. 측정항목 구성: 안전과 같이 지속적으로 추적할 측정항목을 추가합니다.

  6. 샘플링 설정:

    • 샘플링 비율: 평가할 실시간 트래픽의 비율을 정의합니다.
    • 실행당 최대 샘플 수: 평가 비용을 관리하기 위해 상한을 설정합니다.
  7. 만들기를 클릭합니다.

모니터 관리

모니터를 만든 후에는 온라인 모니터 목록에서 모니터를 관리할 수 있습니다.

  • 상태 전환: 옵션 더보기 를 클릭하고 사용 설정 또는 사용 중지를 선택하여 구성을 삭제하지 않고 평가를 일시중지합니다.
  • 일시중지 및 다시 시작: 옵션 더보기 를 사용하여 평가를 일시적으로 중지합니다.
  • 복제: 기존 모니터의 설정이 미리 입력된 새 모니터를 만듭니다.
  • 트레이스 보기: 모니터의 샘플링된 트레이스 열에서 트레이스 보기 링크를 클릭하여 에이전트의 트레이스 탭에 있는 필터링된 트레이스로 바로 이동합니다.

관측 가능성 대시보드에서 결과 보기

평가 측정항목을 다른 실적 신호와 함께 보려면 다음 단계를 따르세요.

  1. Google Cloud 콘솔에서 Agent Platform > Agents 페이지로 이동합니다.
  2. 왼쪽 탐색 메뉴에서 배포를 선택합니다.
  3. 에이전트를 선택합니다.

    배포로 이동

  4. 대시보드 뷰에서 평가 하위 섹션을 선택하여 구성된 측정항목(예: 응답 품질, 안전성, 환각률)의 시계열 차트를 확인합니다.

개별 트레이스의 결과 보기

트레이스 뷰에서 특정 대화의 평가 결과를 직접 검사할 수도 있습니다.

  1. Google Cloud 콘솔에서 에이전트의 트레이스 탭으로 이동합니다.
  2. 표에서 세션 또는 트레이스를 선택하여 세부정보 패널을 엽니다.
  3. 평가 탭을 선택하여 해당 상호작용의 점수와 근거를 확인합니다.

온라인 모니터 문제 해결

온라인 모니터가 활성화되어 있지만 대시보드에 결과가 표시되지 않는 경우 다음 단계를 따르세요.

  1. 원격 분석 확인: 에이전트가 필요한 OpenTelemetry 스팬과 이벤트를 올바르게 내보내고 있는지 확인합니다. Cloud Trace를 확인하여 실시간 트레이스에 gen_ai. 속성이 포함되어 있는지 확인합니다.
  2. 필터 확인: 모니터의 필터 기준을 검토합니다. 초기 검사 기능을 사용하여 필터가 프로덕션 트래픽과 일치하는지 확인합니다.
  3. 내부 로그 확인: 온라인 모니터는 진단 정보를 Cloud Logging에 기록합니다. 평가에 실패하면 오류 로그가 생성됩니다. 모니터 ID 또는 특정 트레이스 및 에이전트를 검색하여 로그 탐색기에서 이러한 로그를 찾을 수 있습니다.

    resource.labels.online_evaluator="projects/YOUR_PROJECT_ID/locations/YOUR_REGION/onlineEvaluators/YOUR_MONITOR_ID"
    # Or search by trace or agent
    labels.trace="YOUR_TRACE_ID"
    labels.reasoning_engine_id="YOUR_AGENT_ID"