측정항목 프롬프트 템플릿으로 제공되는 측정항목의 경우 같은 방식으로 Vertex AI SDK의 생성형 AI 클라이언트를 통해 점별 측정항목에 계속 액세스할 수 있습니다. Vertex AI SDK의 생성형 AI 클라이언트에서는 쌍별 측정항목이 지원되지 않지만 평가 실행을 참조하여 같은 평가에서 두 모델을 비교합니다.
fromvertexaiimporttypes# Access metrics represented by metric prompt template examplescoherence=types.RubricMetric.COHERENCEfluency=types.RubricMetric.FLUENCY
관리형 측정항목 세부정보
이 섹션에는 유형, 필수 입력, 예상 출력과 같은 세부정보가 포함된 관리형 측정항목이 나와 있습니다.
전반적인 모델 대답 품질을 평가하는 포괄적인 적응형 기준표 측정항목입니다. 프롬프트 콘텐츠를 기반으로 다양한 기준을 자동으로 생성하고 평가합니다. 이 방법은 대부분의 평가에 권장되는 출발지입니다.
SDK에서 액세스하는 방법
types.RubricMetric.GENERAL_QUALITY
입력
prompt
response
(선택사항) rubric_groups
이미 생성된 기준표가 있으면 평가에 사용할 기준표를 직접 제공할 수 있습니다.
출력
score
rubrics 및 해당 verdicts
점수는 기준표를 기반으로 한 대답 통과율을 나타냅니다.
LLM 호출 수
Gemini 2.5 Flash 호출 6회
텍스트 품질
최신 버전
text_quality_v1
유형
적응형 기준표
설명
대답의 언어적 품질을 구체적으로 평가하는 타겟팅된 적응형 기준표 측정항목입니다. 유창성, 일관성, 문법과 같은 측면을 평가합니다.
SDK에서 액세스하는 방법
types.RubricMetric.TEXT_QUALITY
입력
prompt
response
(선택사항) rubric_groups
이미 생성된 기준표가 있으면 평가에 사용할 기준표를 직접 제공할 수 있습니다.
출력
score
rubrics 및 해당 verdicts
점수는 기준표를 기반으로 한 대답 통과율을 나타냅니다.
LLM 호출 수
Gemini 2.5 Flash 호출 6회
요청 사항 준수
최신 버전
instruction_following_v1
유형
적응형 기준표
설명
프롬프트에 제공된 특정 제약 조건과 요청 사항을 얼마나 잘 준수하는지 측정하는 타겟팅된 적응형 기준표 측정항목입니다.
SDK에서 액세스하는 방법
types.RubricMetric.INSTRUCTION_FOLLOWING
입력
prompt
response
(선택사항) rubric_groups
이미 생성된 기준표가 있으면 평가에 사용할 기준표를 직접 제공할 수 있습니다.
출력
score(합격률)
rubrics 및 해당 verdicts
점수는 기준표를 기반으로 한 대답 통과율을 나타냅니다.
LLM 호출 수
Gemini 2.5 Flash 호출 6회
그라운딩
최신 버전
grounding_v1
유형
정적 기준표
설명
사실성과 일관성을 확인하는 점수 기반 측정항목입니다. 모델 대답이 컨텍스트를 기반으로 그라운딩되었는지 확인합니다.
SDK에서 액세스하는 방법
types.RubricMetric.GROUNDING
입력
prompt
response
context
출력
score
explanation
점수는 0-1 사이이며 입력 프롬프트에 대한 supported 또는 no_rad(사실적 기여 분석 불필요, 인사말, 질문, 면책 조항 등)로 라벨이 지정된 클레임의 비율을 나타냅니다.
설명에는 문장, 라벨, 추론, 맥락에서의 발췌물이 그룹화되어 있습니다.
LLM 호출 수
Gemini 2.5 Flash 호출 1회
안전
최신 버전
safety_v1
유형
정적 기준표
설명
모델 대답이 다음 정책 중 하나 이상을 위반했는지 여부를 평가하는 점수 기반 측정항목입니다.
개인 식별 정보 및 인구통계 데이터
증오심 표현
위험한 콘텐츠
괴롭힘
선정적
SDK에서 액세스하는 방법
types.RubricMetric.SAFETY
입력
prompt
response
출력
score
explanation
점수의 경우 0은 안전하지 않고 1은 안전합니다.
설명 필드에는 위반된 정책이 포함됩니다.
LLM 호출 수
Gemini 2.5 Flash 호출 10회
멀티턴 일반 품질
최신 버전
multi_turn_general_quality_v1
유형
적응형 기준표
설명
멀티턴 대화의 맥락에서 전반적인 모델 대답 품질을 평가하는 적응형 기준표 측정항목입니다.
SDK에서 액세스하는 방법
types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
입력
prompt(멀티턴 대화 포함)
response
(선택사항) rubric_groups
이미 생성된 기준표가 있으면 평가에 사용할 기준표를 직접 제공할 수 있습니다.
출력
score
기준표 및 해당 확인 결과
점수는 기준표를 기반으로 한 대답 통과율을 나타냅니다.
LLM 호출 수
Gemini 2.5 Flash 호출 6회
멀티턴 텍스트 품질
최신 버전
multi_turn_text_quality_v1
유형
적응형 기준표
설명
멀티턴 대화의 맥락에서 모델 대답의 텍스트 품질을 평가하는 적응형 기준표 측정항목입니다.
SDK에서 액세스하는 방법
types.RubricMetric.TEXT_QUALITY
입력
prompt(멀티턴 대화 포함)
response
(선택사항) rubric_groups
이미 생성된 기준표가 있으면 평가에 사용할 기준표를 직접 제공할 수 있습니다.
출력
score
rubrics 및 해당 verdicts
점수는 기준표를 기반으로 한 대답 통과율을 나타냅니다.
LLM 호출 수
Gemini 2.5 Flash 호출 6회
에이전트 최종 대답 일치
최신 버전
final_response_match_v2
유형
정적 기준표
설명
제공된 참조 답변(정답)과 비교하여 AI 에이전트의 최종 답변 품질을 평가하는 측정항목입니다.
SDK에서 액세스하는 방법
types.RubricMetric.FINAL_RESPONSE_MATCH
입력
prompt
response
reference
출력
점수
1: 참조와 일치하는 유효한 대답입니다.
0: 참조와 일치하지 않는 잘못된 대답입니다.
설명
LLM 호출 수
Gemini 2.5 Flash 호출 5회
에이전트 최종 대답 참조 무료
최신 버전
final_response_reference_free_v1
유형
적응형 기준표
설명
참조 답변이 필요 없이 AI 에이전트의 최종 답변 품질을 평가하는 적응형 기준표 측정항목입니다.
이 측정항목은 자동 생성 기준표를 지원하지 않으므로 측정항목에 대한 기준표를 제공해야 합니다.
SDK에서 액세스하는 방법
types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
입력
prompt
response
rubric_groups
출력
score
rubrics 및 해당 verdicts
점수는 기준표를 기반으로 한 대답 통과율을 나타냅니다.
LLM 호출 수
Gemini 2.5 Flash 호출 5회
에이전트 최종 대답 품질
최신 버전
final_response_quality_v1
유형
적응형 기준표
설명
전반적인 에이전트 대답 품질을 평가하는 포괄적인 적응형 기준표 측정항목입니다. 에이전트 구성(개발자 안내 및 에이전트가 사용할 수 있는 도구 선언)과 사용자의 프롬프트를 기반으로 다양한 기준을 자동으로 생성한 다음, 중간 이벤트와 에이전트의 최종 답변에서 도구 사용을 기반으로 생성된 기준을 평가합니다.
SDK에서 액세스하는 방법
types.RubricMetric.FINAL_RESPONSE_QUALITY
입력
prompt
response
developer_instruction
tool_declarations(빈 목록일 수 있음)
intermediate_events(함수 호출 및 응답을 포함하며 빈 목록일 수 있음)
(선택사항l) rubric_groups(이미 생성된 기준표가 있으면 평가에 사용할 기준표를 직접 제공할 수 있음)
출력
score
rubrics 및 해당 verdicts
점수는 기준표를 기반으로 한 대답 통과율을 나타냅니다.
LLM 호출 수
Gemini 2.5 Flash 호출 5회, Gemini 2.5 Pro 호출 1회
에이전트 할루시네이션
최신 버전
hallucination_v1
유형
정적 기준표
설명
대답을 원자적 주장으로 분할하여 텍스트 대답의 사실성과 일관성을 확인하는 점수 기반 측정항목입니다. 중간 이벤트의 도구 사용을 기반으로 각 주장이 근거가 있는지 확인합니다.
evaluate_intermediate_nl_responses 플래그를 true로 설정하여 중간 텍스트 응답을 평가하는 데도 활용할 수 있습니다.
SDK에서 액세스하는 방법
types.RubricMetric.HALLUCINATION
입력
response
developer_instruction
tool_declarations(빈 목록일 수 있음)
intermediate_events(함수 호출 및 응답을 포함하며 빈 목록일 수 있음)
evaluate_intermediate_nl_responses(기본값은 False)
출력
score
explanation 및 해당 verdicts
점수는 0-1 범위이며 입력 프롬프트에 대한 supported 또는 no_rad(인사말, 질문, 면책 조항 등의 사실적 기여 분석 불필요)로 라벨이 지정된 클레임의 비율을 나타냅니다. 설명에는 맥락을 뒷받침하는 주장, 라벨, 추론, 발췌문의 구조화된 분류가 포함됩니다.
LLM 호출 수
Gemini 2.5 Flash 호출 2회
에이전트 도구 사용 품질
최신 버전
tool_use_quality_v1
유형
적응형 기준표
설명
적절한 도구 선택, 올바른 파라미터 사용, 지정된 작업 순서 준수를 평가하는 타겟팅된 적응형 기준표 측정항목입니다.
SDK에서 액세스하는 방법
types.RubricMetric.TOOL_USE_QUALITY
입력
prompt
developer_instruction
tool_declarations(빈 목록일 수 있음)
intermediate_events(함수 호출 및 응답을 포함하며 빈 목록일 수 있음)
(선택사항l) rubric_groups(이미 생성된 기준표가 있으면 평가에 사용할 기준표를 직접 제공할 수 있음)
출력
score
rubrics 및 해당 verdicts
점수는 기준표를 기반으로 한 대답 통과율을 나타냅니다.
LLM 호출 수
Gemini 2.5 Flash 호출 5회, Gemini 2.5 Pro 호출 1회
Gecko 텍스트 이미지 변환 품질
최신 버전
gecko_text2image_v1
유형
적응형 기준표
설명
Gecko 텍스트 이미지 변환 측정항목은 생성된 이미지의 품질을 해당 텍스트 프롬프트와 비교하여 평가하는 적응형 기준표 기반 방법입니다. 이 기능은 먼저 프롬프트에서 질문 세트를 생성하여 자세한 프롬프트별 기준표로 사용합니다. 그러면 모델이 생성된 이미지를 기반으로 이러한 질문에 답변합니다.
SDK에서 액세스하는 방법
types.RubricMetric.GECKO_TEXT2IMAGE
입력
prompt
response - 이미지 MIME 유형이 있는 파일 데이터여야 합니다.
출력
score
rubrics 및 해당 verdicts
점수는 기준표를 기반으로 한 대답 통과율을 나타냅니다.
LLM 호출 수
Gemini 2.5 Flash 호출 2회
Gecko 텍스트로 동영상 만들기 품질
최신 버전
gecko_text2video_v1
유형
적응형 기준표
설명
Gecko 텍스트 동영상 변환 측정항목은 생성된 동영상의 품질을 해당 텍스트 프롬프트와 비교하여 평가하는 적응형 기준표 기반 방법입니다. 이 기능은 먼저 프롬프트에서 질문 세트를 생성하여 자세한 프롬프트별 기준표로 사용합니다. 그러면 모델이 생성된 동영상을 기반으로 이러한 질문에 답변합니다.