도구: update_evaluation
지정된 평가를 업데이트합니다. 항상 입력에 업데이트 마스크를 전달해야 합니다.
다음 샘플은 curl를 사용하여 update_evaluation MCP 도구를 호출하는 방법을 보여줍니다.
| curl 요청 |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "update_evaluation", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
입력 스키마
EvaluationService.UpdateEvaluation에 대한 요청 메시지입니다.
UpdateEvaluationRequest
| JSON 표현 |
|---|
{
"evaluation": {
object ( |
| 필드 | |
|---|---|
evaluation |
필수 항목입니다. 업데이트할 평가입니다. |
updateMask |
선택사항입니다. 필드 마스크는 업데이트되는 필드를 제어하는 데 사용됩니다. 마스크가 없으면 모든 필드가 업데이트됩니다. 정규화된 필드 이름의 쉼표로 구분된 목록입니다. 예: |
평가
| JSON 표현 |
|---|
{ "name": string, "displayName": string, "description": string, "tags": [ string ], "evaluationDatasets": [ string ], "createTime": string, "createdBy": string, "updateTime": string, "lastUpdatedBy": string, "evaluationRuns": [ string ], "etag": string, "aggregatedMetrics": { object ( |
| 필드 | |
|---|---|
name |
식별자. 이 평가의 고유 식별자입니다. 형식: |
displayName |
필수 항목입니다. 평가의 사용자 정의 표시 이름입니다. 앱 내에서 고유합니다. |
description |
선택사항입니다. 평가에 대한 사용자 정의 설명입니다. |
tags[] |
선택사항입니다. 평가를 분류하는 사용자 정의 태그입니다. |
evaluationDatasets[] |
출력 전용입니다. 평가가 속한 평가 데이터 세트 목록입니다. 형식: |
createTime |
출력 전용입니다. 평가가 생성된 타임스탬프입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
createdBy |
출력 전용입니다. 평가를 만든 사용자입니다. |
updateTime |
출력 전용입니다. 평가가 마지막으로 업데이트된 타임스탬프입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
lastUpdatedBy |
출력 전용입니다. 평가를 마지막으로 업데이트한 사용자입니다. |
evaluationRuns[] |
출력 전용입니다. 이 평가와 연결된 EvaluationRun입니다. |
etag |
출력 전용입니다. 읽기-수정-쓰기 작업 중에 객체가 변경되지 않았는지 확인하는 데 사용되는 Etag입니다. etag가 비어 있으면 업데이트가 동시에 발생한 변경사항을 덮어씁니다. |
aggregatedMetrics |
출력 전용입니다. 모든 실행에서 이 평가에 대해 집계된 측정항목입니다. |
lastCompletedResult |
출력 전용입니다. 이 평가의 최신 평가 결과입니다. |
invalid |
출력 전용입니다. 평가가 유효하지 않은지 여부입니다. 이는 평가에서 삭제된 도구, 도구 모음 또는 에이전트를 참조하는 경우에 발생할 수 있습니다. |
lastTenResults[] |
출력 전용입니다. 이 평가의 마지막 10개 평가 결과입니다. 이는 ListEvaluationsRequest 또는 GetEvaluationRequest에서 include_last_ten_results가 true로 설정된 경우에만 채워집니다. |
통합 필드 inputs. 평가 inputs의 입력은 다음 중 하나여야 합니다. |
|
golden |
선택사항입니다. 평가할 골든 단계입니다. |
scenario |
선택사항입니다. 시나리오의 구성입니다. |
골드
| JSON 표현 |
|---|
{
"turns": [
{
object ( |
| 필드 | |
|---|---|
turns[] |
필수 항목입니다. 골든 대화를 재생하는 데 필요한 골든 턴입니다. |
evaluationExpectations[] |
선택사항입니다. 리플레이된 대화를 평가할 평가 기대치입니다. 형식: |
GoldenTurn
| JSON 표현 |
|---|
{ "steps": [ { object ( |
| 필드 | |
|---|---|
steps[] |
필수 항목입니다. 골든 대화를 다시 재생하는 데 필요한 단계입니다. |
rootSpan |
선택사항입니다. 오디오 정보를 처리하고 유지관리하기 위한 골든 턴의 루트 스팬입니다. |
단계
| JSON 표현 |
|---|
{ // Union field |
| 필드 | |
|---|---|
통합 필드 step. 실행할 단계입니다. step은 다음 중 하나여야 합니다. |
|
userInput |
선택사항입니다. 대화에 대한 사용자 입력입니다. |
agentTransfer |
선택사항입니다. 대화를 다른 상담사에게 트랜스퍼합니다. |
expectation |
선택사항입니다. 현재 턴에서 기대치를 실행합니다. |
SessionInput
| JSON 표현 |
|---|
{ "willContinue": boolean, // Union field |
| 필드 | |
|---|---|
willContinue |
선택사항입니다. 현재 메시지가 양방향 스트리밍 세션에서 더 큰 입력의 프래그먼트인지 나타내는 플래그입니다.
참고: 이 필드는 오디오 및 DTMF 입력에는 적용되지 않습니다. 엔드포인팅 신호에 따라 항상 자동으로 처리되기 때문입니다. |
통합 필드 input_type. 입력의 유형입니다. input_type은 다음 중 하나여야 합니다. |
|
text |
선택사항입니다. 최종 사용자의 텍스트 데이터입니다. |
dtmf |
선택사항입니다. 최종 사용자의 DTMF 숫자입니다. |
audio |
선택사항입니다. 최종 사용자의 오디오 데이터입니다. base64 인코딩 문자열입니다. |
toolResponses |
선택사항입니다. 클라이언트의 도구 호출 실행 결과입니다. |
image |
선택사항입니다. 최종 사용자의 이미지 데이터입니다. |
blob |
선택사항입니다. 최종 사용자의 BLOB 데이터입니다. |
variables |
선택사항입니다. 세션의 컨텍스트 변수입니다. 이름으로 키가 지정됩니다. 앱에서 선언된 변수만 CES 에이전트에서 사용됩니다. 인식되지 않는 변수는 [Dialogflow 에이전트][Agent.RemoteDialogflowAgent] 에 추가 세션 매개변수로 계속 전송됩니다. |
event |
선택사항입니다. 이벤트 입력입니다. |
ToolResponses
| JSON 표현 |
|---|
{
"toolResponses": [
{
object ( |
| 필드 | |
|---|---|
toolResponses[] |
선택사항입니다. 도구 실행 결과 목록입니다. |
ToolResponse
| JSON 표현 |
|---|
{ "id": string, "displayName": string, "response": { object }, // Union field |
| 필드 | |
|---|---|
id |
선택사항입니다. 응답이 속한 |
displayName |
출력 전용입니다. 도구의 표시 이름입니다. |
response |
필수 항목입니다. JSON 객체 형식의 도구 실행 결과입니다. 'output' 키를 사용하여 도구 응답을 지정하고 'error' 키를 사용하여 오류 세부정보를 지정합니다 (있는 경우). 'output' 및 'error' 키가 지정되지 않은 경우 전체 'response'가 도구 실행 결과로 처리됩니다. |
통합 필드 tool_identifier. 실행된 도구의 식별자입니다. 지속형 도구 또는 도구 세트의 도구일 수 있습니다. tool_identifier은 다음 중 하나여야 합니다. |
|
tool |
선택사항입니다. 실행할 도구의 이름입니다. 형식: |
toolsetTool |
선택사항입니다. 실행된 도구 세트 도구입니다. |
ToolsetTool
| JSON 표현 |
|---|
{ "toolset": string, "toolId": string } |
| 필드 | |
|---|---|
toolset |
필수 항목입니다. 이 도구가 파생된 도구 세트의 리소스 이름입니다. 형식: |
toolId |
선택사항입니다. 스키마를 가져올 도구를 필터링할 도구 ID입니다. |
구조체
| JSON 표현 |
|---|
{ "fields": { string: value, ... } } |
| 필드 | |
|---|---|
fields |
동적으로 입력된 값의 순서가 지정되지 않은 맵입니다.
|
FieldsEntry
| JSON 표현 |
|---|
{ "key": string, "value": value } |
| 필드 | |
|---|---|
key |
|
value |
|
값
| JSON 표현 |
|---|
{ // Union field |
| 필드 | |
|---|---|
통합 필드 kind. 값의 종류입니다. kind은 다음 중 하나여야 합니다. |
|
nullValue |
null 값을 나타냅니다. |
numberValue |
double 값을 나타냅니다. |
stringValue |
문자열 값을 나타냅니다. |
boolValue |
불리언 값을 나타냅니다. |
structValue |
구조화된 값을 나타냅니다. |
listValue |
반복되는 |
ListValue
| JSON 표현 |
|---|
{ "values": [ value ] } |
| 필드 | |
|---|---|
values[] |
동적으로 입력된 값의 반복 필드입니다. |
이미지
| JSON 표현 |
|---|
{ "mimeType": string, "data": string } |
| 필드 | |
|---|---|
mimeType |
필수 항목입니다. 소스 데이터의 IANA 표준 MIME 유형입니다. 지원되는 이미지 유형은 다음과 같습니다. * image/png * image/jpeg * image/webp |
data |
필수 항목입니다. 이미지의 원시 바이트입니다. base64 인코딩 문자열입니다. |
blob
| JSON 표현 |
|---|
{ "mimeType": string, "data": string } |
| 필드 | |
|---|---|
mimeType |
필수 항목입니다. 소스 데이터의 IANA 표준 MIME 유형입니다. |
data |
필수 항목입니다. blob의 원시 바이트입니다. base64 인코딩 문자열입니다. |
이벤트
| JSON 표현 |
|---|
{ "event": string } |
| 필드 | |
|---|---|
event |
필수 항목입니다. 이벤트 이름입니다. |
AgentTransfer
| JSON 표현 |
|---|
{ "targetAgent": string, "displayName": string } |
| 필드 | |
|---|---|
targetAgent |
필수 항목입니다. 대화가 트랜스퍼되는 상담사입니다. 이 시점부터 상담사가 대화를 처리합니다. 형식: |
displayName |
출력 전용입니다. 에이전트의 표시 이름입니다. |
GoldenExpectation
| JSON 표현 |
|---|
{ "note": string, // Union field |
| 필드 | |
|---|---|
note |
선택사항입니다. 특정 검사가 실패할 때 보고에 유용한 이 요구사항에 대한 참고사항입니다. 예: "Check_Payment_Tool_Called". |
통합 필드 condition. 실제로 실행할 검사입니다. condition은 다음 중 하나여야 합니다. |
|
toolCall |
선택사항입니다. 특정 도구가 매개변수와 함께 호출되었는지 확인합니다. |
toolResponse |
선택사항입니다. 특정 도구에 예상된 응답이 있는지 확인합니다. |
agentResponse |
선택사항입니다. 상담사가 올바른 대답으로 응답했는지 확인합니다. '상담사' 역할이 암시됩니다. |
agentTransfer |
선택사항입니다. 상담사가 대화를 다른 상담사에게 트랜스퍼했는지 확인합니다. |
updatedVariables |
선택사항입니다. 상담사가 세션 변수를 예상 값으로 업데이트했는지 확인합니다. 골든 평가를 위해 에이전트 변수 업데이트를 캡처하는 데도 사용됩니다. |
mockToolResponse |
선택사항입니다. 관심 있는 매개변수가 지정된 모의 도구 응답입니다. 지정되지 않은 매개변수는 LLM에 의해 환각됩니다. |
ToolCall
| JSON 표현 |
|---|
{ "id": string, "displayName": string, "args": { object }, // Union field |
| 필드 | |
|---|---|
id |
선택사항입니다. 도구 호출의 고유 식별자입니다. 채워진 경우 클라이언트는 |
displayName |
출력 전용입니다. 도구의 표시 이름입니다. |
args |
선택사항입니다. JSON 객체 형식의 도구 입력 매개변수와 값입니다. |
통합 필드 tool_identifier. 실행할 도구의 식별자입니다. 지속형 도구 또는 도구 세트의 도구일 수 있습니다. tool_identifier은 다음 중 하나여야 합니다. |
|
tool |
선택사항입니다. 실행할 도구의 이름입니다. 형식: |
toolsetTool |
선택사항입니다. 실행할 도구 세트 도구입니다. |
메시지
| JSON 표현 |
|---|
{
"role": string,
"chunks": [
{
object ( |
| 필드 | |
|---|---|
role |
선택사항입니다. 대화 내 역할(예: 사용자, 에이전트)입니다. |
chunks[] |
선택사항입니다. 메시지의 콘텐츠(일련의 청크). |
eventTime |
선택사항입니다. 메일이 전송 또는 수신된 시점의 타임스탬프입니다. 메시지가 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
Chunk
| JSON 표현 |
|---|
{ // Union field |
| 필드 | |
|---|---|
통합 필드 data. 청크 데이터입니다. data은 다음 중 하나여야 합니다. |
|
text |
선택사항입니다. 텍스트 데이터. |
transcript |
선택사항입니다. 오디오와 연결된 스크립트입니다. |
blob |
선택사항입니다. BLOB 데이터입니다. |
payload |
선택사항입니다. 맞춤 페이로드 데이터입니다. |
image |
선택사항입니다. 이미지 데이터입니다. |
toolCall |
선택사항입니다. 도구 실행 요청입니다. |
toolResponse |
선택사항입니다. 도구 실행 응답입니다. |
agentTransfer |
선택사항입니다. 상담사 트랜스퍼 이벤트입니다. |
updatedVariables |
구조체는 변수 이름으로 키가 지정된 대화에서 업데이트된 변수를 나타냅니다. |
defaultVariables |
구조체는 대화 시작 시 기본 변수를 나타내며 변수 이름으로 키가 지정됩니다. |
타임스탬프
| JSON 표현 |
|---|
{ "seconds": string, "nanos": integer } |
| 필드 | |
|---|---|
seconds |
Unix epoch 1970-01-01T00:00:00Z 이후 UTC 시간의 초 단위로 표현합니다. -62135596800~253402300799 (0001-01-01T00:00:00Z~9999-12-31T23:59:59Z에 해당) 사이여야 합니다. |
nanos |
나노초 단위의 음수가 아닌 초수입니다. 이 필드는 기간의 나노초 부분이며 초의 대안이 아닙니다. 음수의 초수 값에는 시간에 반영되는 음수가 아닌 나노초 값이 있어야 합니다. 0~999,999,999(포함) 사이여야 합니다. |
스팬
| JSON 표현 |
|---|
{
"name": string,
"startTime": string,
"endTime": string,
"duration": string,
"attributes": {
object
},
"childSpans": [
{
object ( |
| 필드 | |
|---|---|
name |
출력 전용입니다. 스팬의 이름입니다. |
startTime |
출력 전용입니다. 스팬의 시작 시간입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
endTime |
출력 전용입니다. 스팬의 종료 시간입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
duration |
출력 전용입니다. 스팬의 지속 시간입니다. 소수점 아래가 최대 9자리까지이고 ' |
attributes |
출력 전용입니다. 스팬과 연결된 키-값 속성입니다. |
childSpans[] |
출력 전용입니다. 이 스팬 아래에 중첩된 하위 스팬입니다. |
기간
| JSON 표현 |
|---|
{ "seconds": string, "nanos": integer } |
| 필드 | |
|---|---|
seconds |
시간 범위의 부호가 있는 초입니다. -315,576,000,000~+315,576,000,000(포함) 사이여야 합니다. 참고: 이 범위는 60초/분 * 60분/시간 * 24시간/일 * 365.25일/년 * 10,000년에서 계산됩니다. |
nanos |
시간 범위의 나노초 단위의 부호가 있는 초수입니다. 1초 미만의 기간은 0 |
시나리오
| JSON 표현 |
|---|
{ "task": string, "userFacts": [ { object ( |
| 필드 | |
|---|---|
task |
필수 항목입니다. 시나리오에서 타겟팅할 작업입니다. |
userFacts[] |
선택사항입니다. 시나리오에서 사용할 사용자 사실입니다. |
maxTurns |
선택사항입니다. 시뮬레이션할 최대 턴 수입니다. 지정하지 않으면 작업이 완료될 때까지 시뮬레이션이 계속됩니다. |
rubrics[] |
필수 항목입니다. 시나리오를 평가할 기준표입니다. |
scenarioExpectations[] |
필수 항목입니다. 사용자 시뮬레이션에서 생성된 대화를 평가하는 ScenarioExpectations입니다. |
variableOverrides |
선택사항입니다. 변수 이름으로 키가 지정된 세션의 컨텍스트로 사용되는 변수 / 세션 매개변수입니다. 이 구조체의 멤버는 시스템에서 설정한 기본값을 재정의합니다. 이는 사용자에게 알려진 사실인 사용자 사실과는 다릅니다. 변수는 상담사에게 알려진 매개변수입니다. 즉, 전화 통신 시스템에서 전달된 MDN (전화번호)입니다. |
taskCompletionBehavior |
선택사항입니다. 지원 중단되었습니다. 대신 user_goal_behavior를 사용하세요. |
userGoalBehavior |
선택사항입니다. 사용자 목표의 예상 동작입니다. |
evaluationExpectations[] |
선택사항입니다. 시뮬레이션에서 생성된 대화를 평가할 평가 기대치입니다. 형식: |
UserFact
| JSON 표현 |
|---|
{ "name": string, "value": string } |
| 필드 | |
|---|---|
name |
필수 항목입니다. 사용자 사실의 이름입니다. |
value |
필수 항목입니다. 사용자 사실의 값입니다. |
ScenarioExpectation
| JSON 표현 |
|---|
{ // Union field |
| 필드 | |
|---|---|
통합 필드 expectation. 시뮬레이션에서 생성된 대화를 평가해야 합니다. expectation은 다음 중 하나여야 합니다. |
|
toolExpectation |
선택사항입니다. 평가할 도구 호출 및 응답 쌍입니다. |
agentResponse |
선택사항입니다. 평가할 에이전트 응답입니다. |
ToolExpectation
| JSON 표현 |
|---|
{ "expectedToolCall": { object ( |
| 필드 | |
|---|---|
expectedToolCall |
필수 항목입니다. 관심 있는 매개변수가 지정된 예상 도구 호출입니다. 지정되지 않은 매개변수는 LLM에 의해 환각됩니다. |
mockToolResponse |
필수 항목입니다. 관심 있는 매개변수가 지정된 모의 도구 응답입니다. 지정되지 않은 매개변수는 LLM에 의해 환각됩니다. |
AggregatedMetrics
| JSON 표현 |
|---|
{
"metricsByAppVersion": [
{
object ( |
| 필드 | |
|---|---|
metricsByAppVersion[] |
출력 전용입니다. 앱 버전 ID별로 그룹화된 집계 측정항목입니다. |
MetricsByAppVersion
| JSON 표현 |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| 필드 | |
|---|---|
appVersionId |
출력 전용입니다. 앱 버전 ID입니다. |
toolMetrics[] |
출력 전용입니다. 이 앱 버전 내 각 도구의 측정항목입니다. |
semanticSimilarityMetrics[] |
출력 전용입니다. 이 앱 버전 내의 의미 유사성 측정항목입니다. |
hallucinationMetrics[] |
출력 전용입니다. 이 앱 버전 내의 환각에 대한 측정항목입니다. |
toolCallLatencyMetrics[] |
출력 전용입니다. 이 앱 버전 내의 도구 호출 지연 시간 측정항목입니다. |
turnLatencyMetrics[] |
출력 전용입니다. 이 앱 버전 내의 턴 지연 시간 측정항목입니다. |
passCount |
출력 전용입니다. 평가를 통과한 횟수입니다. |
failCount |
출력 전용입니다. 평가에 실패한 횟수입니다. |
metricsByTurn[] |
출력 전용입니다. 이 앱 버전 내에서 턴별로 집계된 측정항목입니다. |
ToolMetrics
| JSON 표현 |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| 필드 | |
|---|---|
tool |
출력 전용입니다. 도구의 이름입니다. |
passCount |
출력 전용입니다. 도구가 통과한 횟수입니다. |
failCount |
출력 전용입니다. 도구가 실패한 횟수입니다. |
SemanticSimilarityMetrics
| JSON 표현 |
|---|
{ "score": number } |
| 필드 | |
|---|---|
score |
출력 전용입니다. 평균 시맨틱 유사성 점수 (0~4)입니다. |
HallucinationMetrics
| JSON 표현 |
|---|
{ "score": number } |
| 필드 | |
|---|---|
score |
출력 전용입니다. 평균 환각 점수 (0~1)입니다. |
ToolCallLatencyMetrics
| JSON 표현 |
|---|
{ "tool": string, "averageLatency": string } |
| 필드 | |
|---|---|
tool |
출력 전용입니다. 도구의 이름입니다. |
averageLatency |
출력 전용입니다. 도구 호출의 평균 지연 시간입니다. 소수점 아래가 최대 9자리까지이고 ' |
TurnLatencyMetrics
| JSON 표현 |
|---|
{ "averageLatency": string } |
| 필드 | |
|---|---|
averageLatency |
출력 전용입니다. 턴의 평균 지연 시간입니다. 소수점 아래가 최대 9자리까지이고 ' |
MetricsByTurn
| JSON 표현 |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| 필드 | |
|---|---|
turnIndex |
출력 전용입니다. 턴 색인 (0부터 시작)입니다. |
toolMetrics[] |
출력 전용입니다. 이 턴 내 각 도구의 측정항목입니다. |
semanticSimilarityMetrics[] |
출력 전용입니다. 이 턴 내의 의미 유사성 측정항목입니다. |
hallucinationMetrics[] |
출력 전용입니다. 이 턴 내의 환각에 대한 측정항목입니다. |
toolCallLatencyMetrics[] |
출력 전용입니다. 이 턴 내의 도구 호출 지연 시간 측정항목입니다. |
turnLatencyMetrics[] |
출력 전용입니다. 이 턴 내의 턴 지연 시간 측정항목입니다. |
EvaluationResult
| JSON 표현 |
|---|
{ "name": string, "displayName": string, "createTime": string, "evaluationStatus": enum ( |
| 필드 | |
|---|---|
name |
식별자. 평가 결과의 고유 식별자입니다. 형식: |
displayName |
필수 항목입니다. 평가 결과의 표시 이름입니다. 평가 내에서 고유합니다. 기본적으로 형식은 ' |
createTime |
출력 전용입니다. 평가 결과가 생성된 타임스탬프입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
evaluationStatus |
출력 전용입니다. 평가 결과입니다. execution_state가 COMPLETE인 경우에만 채워집니다. |
evaluationRun |
출력 전용입니다. 이 결과를 생성한 평가 실행입니다. 형식: |
persona |
출력 전용입니다. 평가 결과를 위한 대화를 생성하는 데 사용된 페르소나입니다. |
errorInfo |
출력 전용입니다. 평가 결과의 오류 정보입니다. |
error |
출력 전용입니다. 지원 중단됨: 대신 |
initiatedBy |
출력 전용입니다. 이 결과를 초래한 평가 실행을 시작한 사용자입니다. |
appVersion |
출력 전용입니다. 이 결과를 생성한 대화에 사용된 앱 버전입니다. 형식: |
appVersionDisplayName |
출력 전용입니다. 평가가 실행된 |
changelog |
출력 전용입니다. 평가가 실행된 앱 버전의 변경사항입니다. 사용자가 최신/초안에서 평가를 실행하는 경우 채워집니다. |
changelogCreateTime |
출력 전용입니다. 평가가 실행된 앱 버전의 변경사항 로그 생성 시간입니다. 사용자가 최신/초안에서 평가를 실행하는 경우 채워집니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
executionState |
출력 전용입니다. 평가 결과 실행 상태입니다. |
evaluationMetricsThresholds |
출력 전용입니다. 결과의 평가 기준입니다. |
config |
출력 전용입니다. 이 결과를 생성한 평가 실행에 사용된 구성입니다. |
goldenRunMethod |
출력 전용입니다. 골든 평가를 실행하는 데 사용된 방법입니다. |
통합 필드 result. 평가 결과입니다. execution_state가 COMPLETED인 경우에만 채워집니다. result은 다음 중 하나여야 합니다. |
|
goldenResult |
출력 전용입니다. 골든 평가의 결과입니다. |
scenarioResult |
출력 전용입니다. 시나리오 평가 결과입니다. |
GoldenResult
| JSON 표현 |
|---|
{ "turnReplayResults": [ { object ( |
| 필드 | |
|---|---|
turnReplayResults[] |
출력 전용입니다. 골든 대화의 각 차례를 실행한 결과입니다. |
evaluationExpectationResults[] |
출력 전용입니다. 평가 기대치의 결과입니다. |
TurnReplayResult
| JSON 표현 |
|---|
{ "conversation": string, "expectationOutcome": [ { object ( |
| 필드 | |
|---|---|
conversation |
출력 전용입니다. 이 턴에 대해 생성된 대화입니다. |
expectationOutcome[] |
출력 전용입니다. 각 기대치의 결과입니다. |
hallucinationResult |
출력 전용입니다. 과장된 표현 확인 결과입니다. |
toolInvocationScore |
출력 전용입니다. 지원 중단되었습니다. 대신 OverallToolInvocationResult를 사용하세요. |
turnLatency |
출력 전용입니다. 턴의 지속 시간입니다. 소수점 아래가 최대 9자리까지이고 ' |
toolCallLatencies[] |
출력 전용입니다. 턴의 각 도구 호출의 지연 시간입니다. |
semanticSimilarityResult |
출력 전용입니다. 시맨틱 유사성 확인 결과입니다. |
overallToolInvocationResult |
출력 전용입니다. 전체 도구 호출 확인 결과입니다. |
errorInfo |
출력 전용입니다. 이 턴 중에 발생한 오류에 관한 정보입니다. |
spanLatencies[] |
출력 전용입니다. 턴의 스팬 지연 시간입니다. |
통합 필드
|
|
toolOrderedInvocationScore |
출력 전용입니다. 이 턴의 전체 도구 호출 점수입니다. 예상 턴에서 실제로 호출된 도구의 전체 비율을 예상 순서대로 나타냅니다. |
GoldenExpectationOutcome
| JSON 표현 |
|---|
{ "expectation": { object ( |
| 필드 | |
|---|---|
expectation |
출력 전용입니다. 평가된 기대치입니다. |
outcome |
출력 전용입니다. 기대의 결과입니다. |
semanticSimilarityResult |
출력 전용입니다. 시맨틱 유사성 확인 결과입니다. |
toolInvocationResult |
출력 전용입니다. 도구 호출 확인 결과입니다. |
통합 필드 result. 기대의 결과입니다. result은 다음 중 하나여야 합니다. |
|
observedToolCall |
출력 전용입니다. 도구 호출 기대치의 결과입니다. |
observedToolResponse |
출력 전용입니다. 도구 응답 기대치의 결과입니다. |
observedAgentResponse |
출력 전용입니다. 에이전트 응답 기대치의 결과입니다. |
observedAgentTransfer |
출력 전용입니다. 상담사 트랜스퍼 기대치의 결과입니다. |
SemanticSimilarityResult
| JSON 표현 |
|---|
{ "label": string, "explanation": string, "outcome": enum ( |
| 필드 | |
|---|---|
label |
출력 전용입니다. 각 점수와 연결된 라벨입니다. 점수 4: 완전히 일관됨 점수 3: 대부분 일관됨 점수 2: 부분적으로 일관됨 (사소한 누락) 점수 1: 대부분 일관되지 않음 (심각한 누락) 점수 0: 완전히 일관되지 않음 / 모순됨 |
explanation |
출력 전용입니다. 의미 유사도 점수에 대한 설명입니다. |
outcome |
출력 전용입니다. 시맨틱 유사성 확인 결과입니다. 이는 점수를 semantic_similarity_success_threshold와 비교하여 결정됩니다. 점수가 기준점 이상이면 결과는 '합격'입니다. 그렇지 않으면 결과는 FAIL입니다. |
통합 필드
|
|
score |
출력 전용입니다. 의미론적 유사성 점수입니다. 0, 1, 2, 3, 4일 수 있습니다. |
ToolInvocationResult
| JSON 표현 |
|---|
{ "outcome": enum ( |
| 필드 | |
|---|---|
outcome |
출력 전용입니다. 도구 호출 확인 결과입니다. 이는 parameter_correctness_score를 기준과 비교하여 결정됩니다. 점수가 기준점 이상이면 결과는 '합격'입니다. 그렇지 않으면 결과는 FAIL입니다. |
explanation |
출력 전용입니다. 도구 호출 결과에 대한 자유 텍스트 설명입니다. |
통합 필드
|
|
parameterCorrectnessScore |
출력 전용입니다. 도구 호출 파라미터 정확성 점수입니다. 이는 예상 도구 호출의 파라미터 중 실제 도구 호출에도 있는 파라미터의 비율을 나타냅니다. |
HallucinationResult
| JSON 표현 |
|---|
{ "label": string, "explanation": string, // Union field |
| 필드 | |
|---|---|
label |
출력 전용입니다. 각 점수와 연결된 라벨입니다. 점수 1: 근거 있음 점수 0: 근거 없음 점수 -1: 평가할 클레임 없음 |
explanation |
출력 전용입니다. 환각 점수에 대한 설명입니다. |
통합 필드
|
|
score |
출력 전용입니다. 할루시네이션 점수입니다. -1, 0, 1일 수 있습니다. |
ToolCallLatency
| JSON 표현 |
|---|
{ "tool": string, "displayName": string, "startTime": string, "endTime": string, "executionLatency": string } |
| 필드 | |
|---|---|
tool |
출력 전용입니다. 실행된 도구의 이름입니다. 형식은 |
displayName |
출력 전용입니다. 도구의 표시 이름입니다. |
startTime |
출력 전용입니다. 도구 호출 실행의 시작 시간입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
endTime |
출력 전용입니다. 도구 호출 실행의 종료 시간입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
executionLatency |
출력 전용입니다. 도구 호출 실행의 지연 시간입니다. 소수점 아래가 최대 9자리까지이고 ' |
OverallToolInvocationResult
| JSON 표현 |
|---|
{ "outcome": enum ( |
| 필드 | |
|---|---|
outcome |
출력 전용입니다. 도구 호출 확인 결과입니다. 이는 tool_invocation_score를 overall_tool_invocation_correctness_threshold와 비교하여 결정됩니다. 점수가 기준점 이상이면 결과는 '합격'입니다. 그렇지 않으면 결과는 FAIL입니다. |
통합 필드
|
|
toolInvocationScore |
이 턴의 전체 도구 호출 점수입니다. 이는 예상된 턴에서 실제로 호출된 도구의 전체 비율을 나타냅니다. |
EvaluationErrorInfo
| JSON 표현 |
|---|
{
"errorType": enum ( |
| 필드 | |
|---|---|
errorType |
출력 전용입니다. 오류 유형입니다. |
errorMessage |
출력 전용입니다. 오류 메시지. |
sessionId |
출력 전용입니다. 오류를 일으킨 대화의 세션 ID입니다. |
SpanLatency
| JSON 표현 |
|---|
{ "type": enum ( |
| 필드 | |
|---|---|
type |
출력 전용입니다. 스팬 유형입니다. |
displayName |
출력 전용입니다. 스팬의 표시 이름입니다. 도구 및 가드레일 범위에 적용됩니다. |
startTime |
출력 전용입니다. 스팬의 시작 시간입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
endTime |
출력 전용입니다. 스팬의 종료 시간입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
executionLatency |
출력 전용입니다. 스팬의 지연 시간입니다. 소수점 아래가 최대 9자리까지이고 ' |
통합 필드 identifier. 유형에 따른 특정 항목의 식별자입니다. identifier은 다음 중 하나여야 합니다. |
|
resource |
출력 전용입니다. 가드레일 또는 도구 스팬의 리소스 이름입니다. |
toolset |
출력 전용입니다. 툴셋 도구 식별자입니다. |
model |
출력 전용입니다. LLM 스팬의 이름입니다. |
callback |
출력 전용입니다. 사용자 콜백 스팬의 이름입니다. |
EvaluationExpectationResult
| JSON 표현 |
|---|
{
"evaluationExpectation": string,
"prompt": string,
"outcome": enum ( |
| 필드 | |
|---|---|
evaluationExpectation |
출력 전용입니다. 평가 기대치입니다. 형식: |
prompt |
출력 전용입니다. 평가에 사용된 프롬프트입니다. |
outcome |
출력 전용입니다. 평가 기대치의 결과입니다. |
explanation |
출력 전용입니다. 결과에 대한 설명입니다. |
ScenarioResult
| JSON 표현 |
|---|
{ "conversation": string, "task": string, "userFacts": [ { object ( |
| 필드 | |
|---|---|
conversation |
출력 전용입니다. 시나리오에서 생성된 대화입니다. |
task |
출력 전용입니다. 이 결과의 시나리오를 실행할 때 사용된 작업입니다. |
userFacts[] |
출력 전용입니다. 이 결과에 대한 시나리오에서 사용된 사용자 사실입니다. |
expectationOutcomes[] |
출력 전용입니다. 각 기대치의 결과입니다. |
rubricOutcomes[] |
출력 전용입니다. 루브릭의 결과입니다. |
hallucinationResult[] |
출력 전용입니다. 과장된 표현 확인 결과입니다. 대화의 각 턴에 대해 하나의 그릇된 정보 결과가 표시됩니다. |
taskCompletionResult |
출력 전용입니다. 작업 완료 확인 결과입니다. |
toolCallLatencies[] |
출력 전용입니다. 대화에서 각 도구 호출 실행의 지연 시간입니다. |
userGoalSatisfactionResult |
출력 전용입니다. 사용자 목표 만족도 확인 결과입니다. |
spanLatencies[] |
출력 전용입니다. 대화의 스팬 지연 시간입니다. |
evaluationExpectationResults[] |
출력 전용입니다. 평가 기대치의 결과입니다. |
통합 필드
|
|
allExpectationsSatisfied |
출력 전용입니다. 이 턴에 대한 모든 기대치가 충족되었는지 여부입니다. |
통합 필드
|
|
taskCompleted |
출력 전용입니다. 이 턴에서 작업이 완료되었는지 여부입니다. 이는 충족된 모든 기대치, 환각 없음, 사용자 목표 만족도의 복합입니다. |
ScenarioExpectationOutcome
| JSON 표현 |
|---|
{ "expectation": { object ( |
| 필드 | |
|---|---|
expectation |
출력 전용입니다. 평가된 기대치입니다. |
outcome |
출력 전용입니다. ScenarioExpectation의 결과입니다. |
통합 필드 result. 기대의 결과입니다. result은 다음 중 하나여야 합니다. |
|
observedToolCall |
출력 전용입니다. 관찰된 도구 호출입니다. |
observedAgentResponse |
출력 전용입니다. 관찰된 에이전트 응답입니다. |
ObservedToolCall
| JSON 표현 |
|---|
{ "toolCall": { object ( |
| 필드 | |
|---|---|
toolCall |
출력 전용입니다. 관찰된 도구 호출입니다. |
toolResponse |
출력 전용입니다. 관찰된 도구 응답입니다. |
ScenarioRubricOutcome
| JSON 표현 |
|---|
{ "rubric": string, "scoreExplanation": string, // Union field |
| 필드 | |
|---|---|
rubric |
출력 전용입니다. 대화를 평가하는 데 사용된 루브릭입니다. |
scoreExplanation |
출력 전용입니다. 평가자의 루브릭에 대한 응답입니다. |
통합 필드
|
|
score |
출력 전용입니다. 기준표에 따른 대화 점수입니다. |
TaskCompletionResult
| JSON 표현 |
|---|
{ "label": string, "explanation": string, // Union field |
| 필드 | |
|---|---|
label |
출력 전용입니다. 각 점수와 연결된 라벨입니다. 점수 1: 작업 완료 점수 0: 작업 미완료 점수 -1: 사용자 목표 미정의 |
explanation |
출력 전용입니다. 작업 완료 점수에 대한 설명입니다. |
통합 필드
|
|
score |
출력 전용입니다. 작업 완료 점수입니다. -1, 0, 1일 수 있습니다. |
UserGoalSatisfactionResult
| JSON 표현 |
|---|
{ "label": string, "explanation": string, // Union field |
| 필드 | |
|---|---|
label |
출력 전용입니다. 각 점수와 연결된 라벨입니다. 점수 1: 사용자 작업 만족 점수 0: 사용자 작업 불만족 점수 -1: 사용자 작업 미지정 |
explanation |
출력 전용입니다. 사용자 작업 만족도 점수에 대한 설명입니다. |
통합 필드
|
|
score |
출력 전용입니다. 사용자 작업 만족도 점수입니다. -1, 0, 1일 수 있습니다. |
EvaluationPersona
| JSON 표현 |
|---|
{
"name": string,
"description": string,
"displayName": string,
"personality": string,
"speechConfig": {
object ( |
| 필드 | |
|---|---|
name |
필수 항목입니다. 페르소나의 고유 식별자입니다. 형식: |
description |
선택사항입니다. 페르소나에 대한 설명입니다. |
displayName |
필수 항목입니다. 페르소나의 표시 이름입니다. 앱 내에서 고유합니다. |
personality |
필수 항목입니다. 평가에서 에이전트가 어떻게 행동해야 하는지에 관한 안내입니다. |
speechConfig |
선택사항입니다. 페르소나의 소리 (TTS 설정)에 관한 구성입니다. |
SpeechConfig
| JSON 표현 |
|---|
{
"speakingRate": number,
"environment": enum ( |
| 필드 | |
|---|---|
speakingRate |
선택사항입니다. 말하기 속도입니다. 1.0이 정상입니다. 낮은 값은 속도가 느립니다 (예: 0.8)일수록 속도가 빠릅니다 (예: 1.5). 상담사가 빠른 속도로 말하는 고객을 어떻게 처리하는지 테스트하는 데 유용합니다. |
environment |
선택사항입니다. 시뮬레이션된 오디오 환경입니다. |
voiceId |
선택사항입니다. 사용할 특정 음성 식별자/억양입니다. 예: 'en-US-Wavenet-D' 또는 'en-GB-Standard-A' |
상태
| JSON 표현 |
|---|
{ "code": integer, "message": string, "details": [ { "@type": string, field1: ..., ... } ] } |
| 필드 | |
|---|---|
code |
상태 코드로, |
message |
개발자에게 정보를 제공하는 오류 메시지로, 영어로 작성되어야 합니다. 사용자에게 표시되는 모든 오류 메시지는 현지화되어 |
details[] |
오류 세부정보를 설명하는 메시지 목록입니다. API에서 사용할 일반적인 메시지 유형 집합이 있습니다. 임의 유형의 필드를 포함하는 객체입니다. 추가 필드 |
모두
| JSON 표현 |
|---|
{ "typeUrl": string, "value": string } |
| 필드 | |
|---|---|
typeUrl |
슬래시로 끝나는 접두사와 정규화된 유형 이름으로 구성된 URI 참조를 사용하여 직렬화된 Protobuf 메시지의 유형을 식별합니다. 예: type.googleapis.com/google.protobuf.StringValue 이 문자열에는 접두사는 임의적이며 Protobuf 구현은 유형을 식별하기 위해 마지막 모든 유형 URL 문자열은 참조의 콘텐츠가 영숫자, 퍼센트 인코딩된 이스케이프, 다음 집합의 문자 (외부 백틱 제외)로만 구성되어야 한다는 추가 제한사항 (텍스트 형식의 경우)이 있는 합법적인 URI 참조여야 합니다.
|
value |
type_url로 설명된 유형의 Protobuf 직렬화를 보유합니다. base64 인코딩 문자열입니다. |
EvaluationMetricsThresholds
| JSON 표현 |
|---|
{ "goldenEvaluationMetricsThresholds": { object ( |
| 필드 | |
|---|---|
goldenEvaluationMetricsThresholds |
선택사항입니다. 핵심 평가 측정항목 기준입니다. |
hallucinationMetricBehavior |
선택사항입니다. 지원 중단됨: 대신 |
goldenHallucinationMetricBehavior |
선택사항입니다. 골든 평가의 허위 정보 측정항목 동작입니다. |
scenarioHallucinationMetricBehavior |
선택사항입니다. 시나리오 평가의 허위 정보 측정항목 동작입니다. |
GoldenEvaluationMetricsThresholds
| JSON 표현 |
|---|
{ "turnLevelMetricsThresholds": { object ( |
| 필드 | |
|---|---|
turnLevelMetricsThresholds |
선택사항입니다. 턴 수준 측정항목 기준점입니다. |
expectationLevelMetricsThresholds |
선택사항입니다. 기대 수준 측정항목 기준점입니다. |
toolMatchingSettings |
선택사항입니다. 도구 매칭 설정입니다. 추가 도구 호출은 실행에 있지만 골든 기대치에 있는 도구 호출과 일치하지 않는 도구 호출입니다. |
TurnLevelMetricsThresholds
| JSON 표현 |
|---|
{ "semanticSimilarityChannel": enum ( |
| 필드 | |
|---|---|
semanticSimilarityChannel |
선택사항입니다. 평가에 사용할 시맨틱 유사성 채널입니다. |
통합 필드
|
|
semanticSimilaritySuccessThreshold |
선택사항입니다. 의미론적 유사성의 성공 기준입니다. 0에서 4 사이의 정수여야 합니다. 기본값은 3 이상입니다. |
통합 필드
|
|
overallToolInvocationCorrectnessThreshold |
선택사항입니다. 전반적인 도구 호출 정확성의 성공 기준입니다. 0과 1 사이의 부동 소수점이어야 합니다. 기본값은 1.0입니다. |
ExpectationLevelMetricsThresholds
| JSON 표현 |
|---|
{ // Union field |
| 필드 | |
|---|---|
통합 필드
|
|
toolInvocationParameterCorrectnessThreshold |
선택사항입니다. 개별 도구 호출 매개변수 정확성의 성공 기준입니다. 0과 1 사이의 부동 소수점이어야 합니다. 기본값은 1.0입니다. |
ToolMatchingSettings
| JSON 표현 |
|---|
{
"extraToolCallBehavior": enum ( |
| 필드 | |
|---|---|
extraToolCallBehavior |
선택사항입니다. 추가 도구 호출의 동작입니다. 기본값은 FAIL입니다. |
EvaluationConfig
| JSON 표현 |
|---|
{ "inputAudioConfig": { object ( |
| 필드 | |
|---|---|
inputAudioConfig |
선택사항입니다. 입력 오디오 처리 구성입니다. |
outputAudioConfig |
선택사항입니다. 출력 오디오를 생성하기 위한 구성입니다. |
evaluationChannel |
선택사항입니다. 평가할 채널입니다. |
toolCallBehaviour |
선택사항입니다. 평가에서 실제 도구 호출을 사용할지 아니면 가짜 도구를 사용할지 지정합니다. |
InputAudioConfig
| JSON 표현 |
|---|
{
"audioEncoding": enum ( |
| 필드 | |
|---|---|
audioEncoding |
필수 항목입니다. 입력 오디오 데이터의 인코딩입니다. |
sampleRateHertz |
필수 항목입니다. 입력 오디오 데이터의 샘플링 레이트 (Hz)입니다. |
noiseSuppressionLevel |
선택사항입니다. 입력 오디오에서 주변 소음 제거를 사용 설정할지 여부입니다. 사용 가능한 값은 'low', 'moderate', 'high', 'very_high'입니다. |
OutputAudioConfig
| JSON 표현 |
|---|
{
"audioEncoding": enum ( |
| 필드 | |
|---|---|
audioEncoding |
필수 항목입니다. 출력 오디오 데이터의 인코딩입니다. |
sampleRateHertz |
필수 항목입니다. 출력 오디오 데이터의 샘플링 레이트 (Hz)입니다. |
FieldMask
| JSON 표현 |
|---|
{ "paths": [ string ] } |
| 필드 | |
|---|---|
paths[] |
필드 마스크 경로 집합입니다. |
출력 스키마
평가에는 에이전트를 시뮬레이션하고 평가하는 데 필요한 모든 정보가 포함됩니다.
평가
| JSON 표현 |
|---|
{ "name": string, "displayName": string, "description": string, "tags": [ string ], "evaluationDatasets": [ string ], "createTime": string, "createdBy": string, "updateTime": string, "lastUpdatedBy": string, "evaluationRuns": [ string ], "etag": string, "aggregatedMetrics": { object ( |
| 필드 | |
|---|---|
name |
식별자. 이 평가의 고유 식별자입니다. 형식: |
displayName |
필수 항목입니다. 평가의 사용자 정의 표시 이름입니다. 앱 내에서 고유합니다. |
description |
선택사항입니다. 평가에 대한 사용자 정의 설명입니다. |
tags[] |
선택사항입니다. 평가를 분류하는 사용자 정의 태그입니다. |
evaluationDatasets[] |
출력 전용입니다. 평가가 속한 평가 데이터 세트 목록입니다. 형식: |
createTime |
출력 전용입니다. 평가가 생성된 타임스탬프입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
createdBy |
출력 전용입니다. 평가를 만든 사용자입니다. |
updateTime |
출력 전용입니다. 평가가 마지막으로 업데이트된 타임스탬프입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
lastUpdatedBy |
출력 전용입니다. 평가를 마지막으로 업데이트한 사용자입니다. |
evaluationRuns[] |
출력 전용입니다. 이 평가와 연결된 EvaluationRun입니다. |
etag |
출력 전용입니다. 읽기-수정-쓰기 작업 중에 객체가 변경되지 않았는지 확인하는 데 사용되는 Etag입니다. etag가 비어 있으면 업데이트가 동시에 발생한 변경사항을 덮어씁니다. |
aggregatedMetrics |
출력 전용입니다. 모든 실행에서 이 평가에 대해 집계된 측정항목입니다. |
lastCompletedResult |
출력 전용입니다. 이 평가의 최신 평가 결과입니다. |
invalid |
출력 전용입니다. 평가가 유효하지 않은지 여부입니다. 이는 평가에서 삭제된 도구, 도구 모음 또는 에이전트를 참조하는 경우에 발생할 수 있습니다. |
lastTenResults[] |
출력 전용입니다. 이 평가의 마지막 10개 평가 결과입니다. 이는 ListEvaluationsRequest 또는 GetEvaluationRequest에서 include_last_ten_results가 true로 설정된 경우에만 채워집니다. |
통합 필드 inputs. 평가 inputs의 입력은 다음 중 하나여야 합니다. |
|
golden |
선택사항입니다. 평가할 골든 단계입니다. |
scenario |
선택사항입니다. 시나리오의 구성입니다. |
골드
| JSON 표현 |
|---|
{
"turns": [
{
object ( |
| 필드 | |
|---|---|
turns[] |
필수 항목입니다. 골든 대화를 재생하는 데 필요한 골든 턴입니다. |
evaluationExpectations[] |
선택사항입니다. 리플레이된 대화를 평가할 평가 기대치입니다. 형식: |
GoldenTurn
| JSON 표현 |
|---|
{ "steps": [ { object ( |
| 필드 | |
|---|---|
steps[] |
필수 항목입니다. 골든 대화를 다시 재생하는 데 필요한 단계입니다. |
rootSpan |
선택사항입니다. 오디오 정보를 처리하고 유지관리하기 위한 골든 턴의 루트 스팬입니다. |
단계
| JSON 표현 |
|---|
{ // Union field |
| 필드 | |
|---|---|
통합 필드 step. 실행할 단계입니다. step은 다음 중 하나여야 합니다. |
|
userInput |
선택사항입니다. 대화에 대한 사용자 입력입니다. |
agentTransfer |
선택사항입니다. 대화를 다른 상담사에게 트랜스퍼합니다. |
expectation |
선택사항입니다. 현재 턴에서 기대치를 실행합니다. |
SessionInput
| JSON 표현 |
|---|
{ "willContinue": boolean, // Union field |
| 필드 | |
|---|---|
willContinue |
선택사항입니다. 현재 메시지가 양방향 스트리밍 세션에서 더 큰 입력의 프래그먼트인지 나타내는 플래그입니다.
참고: 이 필드는 오디오 및 DTMF 입력에는 적용되지 않습니다. 엔드포인팅 신호에 따라 항상 자동으로 처리되기 때문입니다. |
통합 필드 input_type. 입력의 유형입니다. input_type은 다음 중 하나여야 합니다. |
|
text |
선택사항입니다. 최종 사용자의 텍스트 데이터입니다. |
dtmf |
선택사항입니다. 최종 사용자의 DTMF 숫자입니다. |
audio |
선택사항입니다. 최종 사용자의 오디오 데이터입니다. base64 인코딩 문자열입니다. |
toolResponses |
선택사항입니다. 클라이언트의 도구 호출 실행 결과입니다. |
image |
선택사항입니다. 최종 사용자의 이미지 데이터입니다. |
blob |
선택사항입니다. 최종 사용자의 BLOB 데이터입니다. |
variables |
선택사항입니다. 세션의 컨텍스트 변수입니다. 이름으로 키가 지정됩니다. 앱에서 선언된 변수만 CES 에이전트에서 사용됩니다. 인식되지 않는 변수는 [Dialogflow 에이전트][Agent.RemoteDialogflowAgent] 에 추가 세션 매개변수로 계속 전송됩니다. |
event |
선택사항입니다. 이벤트 입력입니다. |
ToolResponses
| JSON 표현 |
|---|
{
"toolResponses": [
{
object ( |
| 필드 | |
|---|---|
toolResponses[] |
선택사항입니다. 도구 실행 결과 목록입니다. |
ToolResponse
| JSON 표현 |
|---|
{ "id": string, "displayName": string, "response": { object }, // Union field |
| 필드 | |
|---|---|
id |
선택사항입니다. 응답이 속한 |
displayName |
출력 전용입니다. 도구의 표시 이름입니다. |
response |
필수 항목입니다. JSON 객체 형식의 도구 실행 결과입니다. 'output' 키를 사용하여 도구 응답을 지정하고 'error' 키를 사용하여 오류 세부정보를 지정합니다 (있는 경우). 'output' 및 'error' 키가 지정되지 않은 경우 전체 'response'가 도구 실행 결과로 처리됩니다. |
통합 필드 tool_identifier. 실행된 도구의 식별자입니다. 지속형 도구 또는 도구 세트의 도구일 수 있습니다. tool_identifier은 다음 중 하나여야 합니다. |
|
tool |
선택사항입니다. 실행할 도구의 이름입니다. 형식: |
toolsetTool |
선택사항입니다. 실행된 도구 세트 도구입니다. |
ToolsetTool
| JSON 표현 |
|---|
{ "toolset": string, "toolId": string } |
| 필드 | |
|---|---|
toolset |
필수 항목입니다. 이 도구가 파생된 도구 세트의 리소스 이름입니다. 형식: |
toolId |
선택사항입니다. 스키마를 가져올 도구를 필터링할 도구 ID입니다. |
구조체
| JSON 표현 |
|---|
{ "fields": { string: value, ... } } |
| 필드 | |
|---|---|
fields |
동적으로 입력된 값의 순서가 지정되지 않은 맵입니다.
|
FieldsEntry
| JSON 표현 |
|---|
{ "key": string, "value": value } |
| 필드 | |
|---|---|
key |
|
value |
|
값
| JSON 표현 |
|---|
{ // Union field |
| 필드 | |
|---|---|
통합 필드 kind. 값의 종류입니다. kind은 다음 중 하나여야 합니다. |
|
nullValue |
null 값을 나타냅니다. |
numberValue |
double 값을 나타냅니다. |
stringValue |
문자열 값을 나타냅니다. |
boolValue |
불리언 값을 나타냅니다. |
structValue |
구조화된 값을 나타냅니다. |
listValue |
반복되는 |
ListValue
| JSON 표현 |
|---|
{ "values": [ value ] } |
| 필드 | |
|---|---|
values[] |
동적으로 입력된 값의 반복 필드입니다. |
이미지
| JSON 표현 |
|---|
{ "mimeType": string, "data": string } |
| 필드 | |
|---|---|
mimeType |
필수 항목입니다. 소스 데이터의 IANA 표준 MIME 유형입니다. 지원되는 이미지 유형은 다음과 같습니다. * image/png * image/jpeg * image/webp |
data |
필수 항목입니다. 이미지의 원시 바이트입니다. base64 인코딩 문자열입니다. |
blob
| JSON 표현 |
|---|
{ "mimeType": string, "data": string } |
| 필드 | |
|---|---|
mimeType |
필수 항목입니다. 소스 데이터의 IANA 표준 MIME 유형입니다. |
data |
필수 항목입니다. blob의 원시 바이트입니다. base64 인코딩 문자열입니다. |
이벤트
| JSON 표현 |
|---|
{ "event": string } |
| 필드 | |
|---|---|
event |
필수 항목입니다. 이벤트 이름입니다. |
AgentTransfer
| JSON 표현 |
|---|
{ "targetAgent": string, "displayName": string } |
| 필드 | |
|---|---|
targetAgent |
필수 항목입니다. 대화가 트랜스퍼되는 상담사입니다. 이 시점부터 상담사가 대화를 처리합니다. 형식: |
displayName |
출력 전용입니다. 에이전트의 표시 이름입니다. |
GoldenExpectation
| JSON 표현 |
|---|
{ "note": string, // Union field |
| 필드 | |
|---|---|
note |
선택사항입니다. 특정 검사가 실패할 때 보고에 유용한 이 요구사항에 대한 참고사항입니다. 예: "Check_Payment_Tool_Called". |
통합 필드 condition. 실제로 실행할 검사입니다. condition은 다음 중 하나여야 합니다. |
|
toolCall |
선택사항입니다. 특정 도구가 매개변수와 함께 호출되었는지 확인합니다. |
toolResponse |
선택사항입니다. 특정 도구에 예상된 응답이 있는지 확인합니다. |
agentResponse |
선택사항입니다. 상담사가 올바른 대답으로 응답했는지 확인합니다. '상담사' 역할이 암시됩니다. |
agentTransfer |
선택사항입니다. 상담사가 대화를 다른 상담사에게 트랜스퍼했는지 확인합니다. |
updatedVariables |
선택사항입니다. 상담사가 세션 변수를 예상 값으로 업데이트했는지 확인합니다. 골든 평가를 위해 에이전트 변수 업데이트를 캡처하는 데도 사용됩니다. |
mockToolResponse |
선택사항입니다. 관심 있는 매개변수가 지정된 모의 도구 응답입니다. 지정되지 않은 매개변수는 LLM에 의해 환각됩니다. |
ToolCall
| JSON 표현 |
|---|
{ "id": string, "displayName": string, "args": { object }, // Union field |
| 필드 | |
|---|---|
id |
선택사항입니다. 도구 호출의 고유 식별자입니다. 채워진 경우 클라이언트는 |
displayName |
출력 전용입니다. 도구의 표시 이름입니다. |
args |
선택사항입니다. JSON 객체 형식의 도구 입력 매개변수와 값입니다. |
통합 필드 tool_identifier. 실행할 도구의 식별자입니다. 지속형 도구 또는 도구 세트의 도구일 수 있습니다. tool_identifier은 다음 중 하나여야 합니다. |
|
tool |
선택사항입니다. 실행할 도구의 이름입니다. 형식: |
toolsetTool |
선택사항입니다. 실행할 도구 세트 도구입니다. |
메시지
| JSON 표현 |
|---|
{
"role": string,
"chunks": [
{
object ( |
| 필드 | |
|---|---|
role |
선택사항입니다. 대화 내 역할(예: 사용자, 에이전트)입니다. |
chunks[] |
선택사항입니다. 메시지의 콘텐츠(일련의 청크). |
eventTime |
선택사항입니다. 메일이 전송 또는 수신된 시점의 타임스탬프입니다. 메시지가 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
Chunk
| JSON 표현 |
|---|
{ // Union field |
| 필드 | |
|---|---|
통합 필드 data. 청크 데이터입니다. data은 다음 중 하나여야 합니다. |
|
text |
선택사항입니다. 텍스트 데이터. |
transcript |
선택사항입니다. 오디오와 연결된 스크립트입니다. |
blob |
선택사항입니다. BLOB 데이터입니다. |
payload |
선택사항입니다. 맞춤 페이로드 데이터입니다. |
image |
선택사항입니다. 이미지 데이터입니다. |
toolCall |
선택사항입니다. 도구 실행 요청입니다. |
toolResponse |
선택사항입니다. 도구 실행 응답입니다. |
agentTransfer |
선택사항입니다. 상담사 트랜스퍼 이벤트입니다. |
updatedVariables |
구조체는 변수 이름으로 키가 지정된 대화에서 업데이트된 변수를 나타냅니다. |
defaultVariables |
구조체는 대화 시작 시 기본 변수를 나타내며 변수 이름으로 키가 지정됩니다. |
타임스탬프
| JSON 표현 |
|---|
{ "seconds": string, "nanos": integer } |
| 필드 | |
|---|---|
seconds |
Unix epoch 1970-01-01T00:00:00Z 이후 UTC 시간의 초 단위로 표현합니다. -62135596800~253402300799 (0001-01-01T00:00:00Z~9999-12-31T23:59:59Z에 해당) 사이여야 합니다. |
nanos |
나노초 단위의 음수가 아닌 초수입니다. 이 필드는 기간의 나노초 부분이며 초의 대안이 아닙니다. 음수의 초수 값에는 시간에 반영되는 음수가 아닌 나노초 값이 있어야 합니다. 0~999,999,999(포함) 사이여야 합니다. |
스팬
| JSON 표현 |
|---|
{
"name": string,
"startTime": string,
"endTime": string,
"duration": string,
"attributes": {
object
},
"childSpans": [
{
object ( |
| 필드 | |
|---|---|
name |
출력 전용입니다. 스팬의 이름입니다. |
startTime |
출력 전용입니다. 스팬의 시작 시간입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
endTime |
출력 전용입니다. 스팬의 종료 시간입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
duration |
출력 전용입니다. 스팬의 지속 시간입니다. 소수점 아래가 최대 9자리까지이고 ' |
attributes |
출력 전용입니다. 스팬과 연결된 키-값 속성입니다. |
childSpans[] |
출력 전용입니다. 이 스팬 아래에 중첩된 하위 스팬입니다. |
기간
| JSON 표현 |
|---|
{ "seconds": string, "nanos": integer } |
| 필드 | |
|---|---|
seconds |
시간 범위의 부호가 있는 초입니다. -315,576,000,000~+315,576,000,000(포함) 사이여야 합니다. 참고: 이 범위는 60초/분 * 60분/시간 * 24시간/일 * 365.25일/년 * 10,000년에서 계산됩니다. |
nanos |
시간 범위의 나노초 단위의 부호가 있는 초수입니다. 1초 미만의 기간은 0 |
시나리오
| JSON 표현 |
|---|
{ "task": string, "userFacts": [ { object ( |
| 필드 | |
|---|---|
task |
필수 항목입니다. 시나리오에서 타겟팅할 작업입니다. |
userFacts[] |
선택사항입니다. 시나리오에서 사용할 사용자 사실입니다. |
maxTurns |
선택사항입니다. 시뮬레이션할 최대 턴 수입니다. 지정하지 않으면 작업이 완료될 때까지 시뮬레이션이 계속됩니다. |
rubrics[] |
필수 항목입니다. 시나리오를 평가할 기준표입니다. |
scenarioExpectations[] |
필수 항목입니다. 사용자 시뮬레이션에서 생성된 대화를 평가하는 ScenarioExpectations입니다. |
variableOverrides |
선택사항입니다. 변수 이름으로 키가 지정된 세션의 컨텍스트로 사용되는 변수 / 세션 매개변수입니다. 이 구조체의 멤버는 시스템에서 설정한 기본값을 재정의합니다. 이는 사용자에게 알려진 사실인 사용자 사실과는 다릅니다. 변수는 상담사에게 알려진 매개변수입니다. 즉, 전화 통신 시스템에서 전달된 MDN (전화번호)입니다. |
taskCompletionBehavior |
선택사항입니다. 지원 중단되었습니다. 대신 user_goal_behavior를 사용하세요. |
userGoalBehavior |
선택사항입니다. 사용자 목표의 예상 동작입니다. |
evaluationExpectations[] |
선택사항입니다. 시뮬레이션에서 생성된 대화를 평가할 평가 기대치입니다. 형식: |
UserFact
| JSON 표현 |
|---|
{ "name": string, "value": string } |
| 필드 | |
|---|---|
name |
필수 항목입니다. 사용자 사실의 이름입니다. |
value |
필수 항목입니다. 사용자 사실의 값입니다. |
ScenarioExpectation
| JSON 표현 |
|---|
{ // Union field |
| 필드 | |
|---|---|
통합 필드 expectation. 시뮬레이션에서 생성된 대화를 평가해야 합니다. expectation은 다음 중 하나여야 합니다. |
|
toolExpectation |
선택사항입니다. 평가할 도구 호출 및 응답 쌍입니다. |
agentResponse |
선택사항입니다. 평가할 에이전트 응답입니다. |
ToolExpectation
| JSON 표현 |
|---|
{ "expectedToolCall": { object ( |
| 필드 | |
|---|---|
expectedToolCall |
필수 항목입니다. 관심 있는 매개변수가 지정된 예상 도구 호출입니다. 지정되지 않은 매개변수는 LLM에 의해 환각됩니다. |
mockToolResponse |
필수 항목입니다. 관심 있는 매개변수가 지정된 모의 도구 응답입니다. 지정되지 않은 매개변수는 LLM에 의해 환각됩니다. |
AggregatedMetrics
| JSON 표현 |
|---|
{
"metricsByAppVersion": [
{
object ( |
| 필드 | |
|---|---|
metricsByAppVersion[] |
출력 전용입니다. 앱 버전 ID별로 그룹화된 집계 측정항목입니다. |
MetricsByAppVersion
| JSON 표현 |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| 필드 | |
|---|---|
appVersionId |
출력 전용입니다. 앱 버전 ID입니다. |
toolMetrics[] |
출력 전용입니다. 이 앱 버전 내 각 도구의 측정항목입니다. |
semanticSimilarityMetrics[] |
출력 전용입니다. 이 앱 버전 내의 의미 유사성 측정항목입니다. |
hallucinationMetrics[] |
출력 전용입니다. 이 앱 버전 내의 환각에 대한 측정항목입니다. |
toolCallLatencyMetrics[] |
출력 전용입니다. 이 앱 버전 내의 도구 호출 지연 시간 측정항목입니다. |
turnLatencyMetrics[] |
출력 전용입니다. 이 앱 버전 내의 턴 지연 시간 측정항목입니다. |
passCount |
출력 전용입니다. 평가를 통과한 횟수입니다. |
failCount |
출력 전용입니다. 평가에 실패한 횟수입니다. |
metricsByTurn[] |
출력 전용입니다. 이 앱 버전 내에서 턴별로 집계된 측정항목입니다. |
ToolMetrics
| JSON 표현 |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| 필드 | |
|---|---|
tool |
출력 전용입니다. 도구의 이름입니다. |
passCount |
출력 전용입니다. 도구가 통과한 횟수입니다. |
failCount |
출력 전용입니다. 도구가 실패한 횟수입니다. |
SemanticSimilarityMetrics
| JSON 표현 |
|---|
{ "score": number } |
| 필드 | |
|---|---|
score |
출력 전용입니다. 평균 시맨틱 유사성 점수 (0~4)입니다. |
HallucinationMetrics
| JSON 표현 |
|---|
{ "score": number } |
| 필드 | |
|---|---|
score |
출력 전용입니다. 평균 환각 점수 (0~1)입니다. |
ToolCallLatencyMetrics
| JSON 표현 |
|---|
{ "tool": string, "averageLatency": string } |
| 필드 | |
|---|---|
tool |
출력 전용입니다. 도구의 이름입니다. |
averageLatency |
출력 전용입니다. 도구 호출의 평균 지연 시간입니다. 소수점 아래가 최대 9자리까지이고 ' |
TurnLatencyMetrics
| JSON 표현 |
|---|
{ "averageLatency": string } |
| 필드 | |
|---|---|
averageLatency |
출력 전용입니다. 턴의 평균 지연 시간입니다. 소수점 아래가 최대 9자리까지이고 ' |
MetricsByTurn
| JSON 표현 |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| 필드 | |
|---|---|
turnIndex |
출력 전용입니다. 턴 색인 (0부터 시작)입니다. |
toolMetrics[] |
출력 전용입니다. 이 턴 내 각 도구의 측정항목입니다. |
semanticSimilarityMetrics[] |
출력 전용입니다. 이 턴 내의 의미 유사성 측정항목입니다. |
hallucinationMetrics[] |
출력 전용입니다. 이 턴 내의 환각에 대한 측정항목입니다. |
toolCallLatencyMetrics[] |
출력 전용입니다. 이 턴 내의 도구 호출 지연 시간 측정항목입니다. |
turnLatencyMetrics[] |
출력 전용입니다. 이 턴 내의 턴 지연 시간 측정항목입니다. |
EvaluationResult
| JSON 표현 |
|---|
{ "name": string, "displayName": string, "createTime": string, "evaluationStatus": enum ( |
| 필드 | |
|---|---|
name |
식별자. 평가 결과의 고유 식별자입니다. 형식: |
displayName |
필수 항목입니다. 평가 결과의 표시 이름입니다. 평가 내에서 고유합니다. 기본적으로 형식은 ' |
createTime |
출력 전용입니다. 평가 결과가 생성된 타임스탬프입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
evaluationStatus |
출력 전용입니다. 평가 결과입니다. execution_state가 COMPLETE인 경우에만 채워집니다. |
evaluationRun |
출력 전용입니다. 이 결과를 생성한 평가 실행입니다. 형식: |
persona |
출력 전용입니다. 평가 결과를 위한 대화를 생성하는 데 사용된 페르소나입니다. |
errorInfo |
출력 전용입니다. 평가 결과의 오류 정보입니다. |
error |
출력 전용입니다. 지원 중단됨: 대신 |
initiatedBy |
출력 전용입니다. 이 결과를 초래한 평가 실행을 시작한 사용자입니다. |
appVersion |
출력 전용입니다. 이 결과를 생성한 대화에 사용된 앱 버전입니다. 형식: |
appVersionDisplayName |
출력 전용입니다. 평가가 실행된 |
changelog |
출력 전용입니다. 평가가 실행된 앱 버전의 변경사항입니다. 사용자가 최신/초안에서 평가를 실행하는 경우 채워집니다. |
changelogCreateTime |
출력 전용입니다. 평가가 실행된 앱 버전의 변경사항 로그 생성 시간입니다. 사용자가 최신/초안에서 평가를 실행하는 경우 채워집니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
executionState |
출력 전용입니다. 평가 결과 실행 상태입니다. |
evaluationMetricsThresholds |
출력 전용입니다. 결과의 평가 기준입니다. |
config |
출력 전용입니다. 이 결과를 생성한 평가 실행에 사용된 구성입니다. |
goldenRunMethod |
출력 전용입니다. 골든 평가를 실행하는 데 사용된 방법입니다. |
통합 필드 result. 평가 결과입니다. execution_state가 COMPLETED인 경우에만 채워집니다. result은 다음 중 하나여야 합니다. |
|
goldenResult |
출력 전용입니다. 골든 평가의 결과입니다. |
scenarioResult |
출력 전용입니다. 시나리오 평가 결과입니다. |
GoldenResult
| JSON 표현 |
|---|
{ "turnReplayResults": [ { object ( |
| 필드 | |
|---|---|
turnReplayResults[] |
출력 전용입니다. 골든 대화의 각 차례를 실행한 결과입니다. |
evaluationExpectationResults[] |
출력 전용입니다. 평가 기대치의 결과입니다. |
TurnReplayResult
| JSON 표현 |
|---|
{ "conversation": string, "expectationOutcome": [ { object ( |
| 필드 | |
|---|---|
conversation |
출력 전용입니다. 이 턴에 대해 생성된 대화입니다. |
expectationOutcome[] |
출력 전용입니다. 각 기대치의 결과입니다. |
hallucinationResult |
출력 전용입니다. 과장된 표현 확인 결과입니다. |
toolInvocationScore |
출력 전용입니다. 지원 중단되었습니다. 대신 OverallToolInvocationResult를 사용하세요. |
turnLatency |
출력 전용입니다. 턴의 지속 시간입니다. 소수점 아래가 최대 9자리까지이고 ' |
toolCallLatencies[] |
출력 전용입니다. 턴의 각 도구 호출의 지연 시간입니다. |
semanticSimilarityResult |
출력 전용입니다. 시맨틱 유사성 확인 결과입니다. |
overallToolInvocationResult |
출력 전용입니다. 전체 도구 호출 확인 결과입니다. |
errorInfo |
출력 전용입니다. 이 턴 중에 발생한 오류에 관한 정보입니다. |
spanLatencies[] |
출력 전용입니다. 턴의 스팬 지연 시간입니다. |
통합 필드
|
|
toolOrderedInvocationScore |
출력 전용입니다. 이 턴의 전체 도구 호출 점수입니다. 예상 턴에서 실제로 호출된 도구의 전체 비율을 예상 순서대로 나타냅니다. |
GoldenExpectationOutcome
| JSON 표현 |
|---|
{ "expectation": { object ( |
| 필드 | |
|---|---|
expectation |
출력 전용입니다. 평가된 기대치입니다. |
outcome |
출력 전용입니다. 기대의 결과입니다. |
semanticSimilarityResult |
출력 전용입니다. 시맨틱 유사성 확인 결과입니다. |
toolInvocationResult |
출력 전용입니다. 도구 호출 확인 결과입니다. |
통합 필드 result. 기대의 결과입니다. result은 다음 중 하나여야 합니다. |
|
observedToolCall |
출력 전용입니다. 도구 호출 기대치의 결과입니다. |
observedToolResponse |
출력 전용입니다. 도구 응답 기대치의 결과입니다. |
observedAgentResponse |
출력 전용입니다. 에이전트 응답 기대치의 결과입니다. |
observedAgentTransfer |
출력 전용입니다. 상담사 트랜스퍼 기대치의 결과입니다. |
SemanticSimilarityResult
| JSON 표현 |
|---|
{ "label": string, "explanation": string, "outcome": enum ( |
| 필드 | |
|---|---|
label |
출력 전용입니다. 각 점수와 연결된 라벨입니다. 점수 4: 완전히 일관됨 점수 3: 대부분 일관됨 점수 2: 부분적으로 일관됨 (사소한 누락) 점수 1: 대부분 일관되지 않음 (심각한 누락) 점수 0: 완전히 일관되지 않음 / 모순됨 |
explanation |
출력 전용입니다. 의미 유사도 점수에 대한 설명입니다. |
outcome |
출력 전용입니다. 시맨틱 유사성 확인 결과입니다. 이는 점수를 semantic_similarity_success_threshold와 비교하여 결정됩니다. 점수가 기준점 이상이면 결과는 '합격'입니다. 그렇지 않으면 결과는 FAIL입니다. |
통합 필드
|
|
score |
출력 전용입니다. 의미론적 유사성 점수입니다. 0, 1, 2, 3, 4일 수 있습니다. |
ToolInvocationResult
| JSON 표현 |
|---|
{ "outcome": enum ( |
| 필드 | |
|---|---|
outcome |
출력 전용입니다. 도구 호출 확인 결과입니다. 이는 parameter_correctness_score를 기준과 비교하여 결정됩니다. 점수가 기준점 이상이면 결과는 '합격'입니다. 그렇지 않으면 결과는 FAIL입니다. |
explanation |
출력 전용입니다. 도구 호출 결과에 대한 자유 텍스트 설명입니다. |
통합 필드
|
|
parameterCorrectnessScore |
출력 전용입니다. 도구 호출 파라미터 정확성 점수입니다. 이는 예상 도구 호출의 파라미터 중 실제 도구 호출에도 있는 파라미터의 비율을 나타냅니다. |
HallucinationResult
| JSON 표현 |
|---|
{ "label": string, "explanation": string, // Union field |
| 필드 | |
|---|---|
label |
출력 전용입니다. 각 점수와 연결된 라벨입니다. 점수 1: 근거 있음 점수 0: 근거 없음 점수 -1: 평가할 클레임 없음 |
explanation |
출력 전용입니다. 환각 점수에 대한 설명입니다. |
통합 필드
|
|
score |
출력 전용입니다. 할루시네이션 점수입니다. -1, 0, 1일 수 있습니다. |
ToolCallLatency
| JSON 표현 |
|---|
{ "tool": string, "displayName": string, "startTime": string, "endTime": string, "executionLatency": string } |
| 필드 | |
|---|---|
tool |
출력 전용입니다. 실행된 도구의 이름입니다. 형식은 |
displayName |
출력 전용입니다. 도구의 표시 이름입니다. |
startTime |
출력 전용입니다. 도구 호출 실행의 시작 시간입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
endTime |
출력 전용입니다. 도구 호출 실행의 종료 시간입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
executionLatency |
출력 전용입니다. 도구 호출 실행의 지연 시간입니다. 소수점 아래가 최대 9자리까지이고 ' |
OverallToolInvocationResult
| JSON 표현 |
|---|
{ "outcome": enum ( |
| 필드 | |
|---|---|
outcome |
출력 전용입니다. 도구 호출 확인 결과입니다. 이는 tool_invocation_score를 overall_tool_invocation_correctness_threshold와 비교하여 결정됩니다. 점수가 기준점 이상이면 결과는 '합격'입니다. 그렇지 않으면 결과는 FAIL입니다. |
통합 필드
|
|
toolInvocationScore |
이 턴의 전체 도구 호출 점수입니다. 이는 예상된 턴에서 실제로 호출된 도구의 전체 비율을 나타냅니다. |
EvaluationErrorInfo
| JSON 표현 |
|---|
{
"errorType": enum ( |
| 필드 | |
|---|---|
errorType |
출력 전용입니다. 오류 유형입니다. |
errorMessage |
출력 전용입니다. 오류 메시지. |
sessionId |
출력 전용입니다. 오류를 일으킨 대화의 세션 ID입니다. |
SpanLatency
| JSON 표현 |
|---|
{ "type": enum ( |
| 필드 | |
|---|---|
type |
출력 전용입니다. 스팬 유형입니다. |
displayName |
출력 전용입니다. 스팬의 표시 이름입니다. 도구 및 가드레일 범위에 적용됩니다. |
startTime |
출력 전용입니다. 스팬의 시작 시간입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
endTime |
출력 전용입니다. 스팬의 종료 시간입니다. 생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 |
executionLatency |
출력 전용입니다. 스팬의 지연 시간입니다. 소수점 아래가 최대 9자리까지이고 ' |
통합 필드 identifier. 유형에 따른 특정 항목의 식별자입니다. identifier은 다음 중 하나여야 합니다. |
|
resource |
출력 전용입니다. 가드레일 또는 도구 스팬의 리소스 이름입니다. |
toolset |
출력 전용입니다. 툴셋 도구 식별자입니다. |
model |
출력 전용입니다. LLM 스팬의 이름입니다. |
callback |
출력 전용입니다. 사용자 콜백 스팬의 이름입니다. |
EvaluationExpectationResult
| JSON 표현 |
|---|
{
"evaluationExpectation": string,
"prompt": string,
"outcome": enum ( |
| 필드 | |
|---|---|
evaluationExpectation |
출력 전용입니다. 평가 기대치입니다. 형식: |
prompt |
출력 전용입니다. 평가에 사용된 프롬프트입니다. |
outcome |
출력 전용입니다. 평가 기대치의 결과입니다. |
explanation |
출력 전용입니다. 결과에 대한 설명입니다. |
ScenarioResult
| JSON 표현 |
|---|
{ "conversation": string, "task": string, "userFacts": [ { object ( |
| 필드 | |
|---|---|
conversation |
출력 전용입니다. 시나리오에서 생성된 대화입니다. |
task |
출력 전용입니다. 이 결과의 시나리오를 실행할 때 사용된 작업입니다. |
userFacts[] |
출력 전용입니다. 이 결과에 대한 시나리오에서 사용된 사용자 사실입니다. |
expectationOutcomes[] |
출력 전용입니다. 각 기대치의 결과입니다. |
rubricOutcomes[] |
출력 전용입니다. 루브릭의 결과입니다. |
hallucinationResult[] |
출력 전용입니다. 과장된 표현 확인 결과입니다. 대화의 각 턴에 대해 하나의 그릇된 정보 결과가 표시됩니다. |
taskCompletionResult |
출력 전용입니다. 작업 완료 확인 결과입니다. |
toolCallLatencies[] |
출력 전용입니다. 대화에서 각 도구 호출 실행의 지연 시간입니다. |
userGoalSatisfactionResult |
출력 전용입니다. 사용자 목표 만족도 확인 결과입니다. |
spanLatencies[] |
출력 전용입니다. 대화의 스팬 지연 시간입니다. |
evaluationExpectationResults[] |
출력 전용입니다. 평가 기대치의 결과입니다. |
통합 필드
|
|
allExpectationsSatisfied |
출력 전용입니다. 이 턴에 대한 모든 기대치가 충족되었는지 여부입니다. |
통합 필드
|
|
taskCompleted |
출력 전용입니다. 이 턴에서 작업이 완료되었는지 여부입니다. 이는 충족된 모든 기대치, 환각 없음, 사용자 목표 만족도의 복합입니다. |
ScenarioExpectationOutcome
| JSON 표현 |
|---|
{ "expectation": { object ( |
| 필드 | |
|---|---|
expectation |
출력 전용입니다. 평가된 기대치입니다. |
outcome |
출력 전용입니다. ScenarioExpectation의 결과입니다. |
통합 필드 result. 기대의 결과입니다. result은 다음 중 하나여야 합니다. |
|
observedToolCall |
출력 전용입니다. 관찰된 도구 호출입니다. |
observedAgentResponse |
출력 전용입니다. 관찰된 에이전트 응답입니다. |
ObservedToolCall
| JSON 표현 |
|---|
{ "toolCall": { object ( |
| 필드 | |
|---|---|
toolCall |
출력 전용입니다. 관찰된 도구 호출입니다. |
toolResponse |
출력 전용입니다. 관찰된 도구 응답입니다. |
ScenarioRubricOutcome
| JSON 표현 |
|---|
{ "rubric": string, "scoreExplanation": string, // Union field |
| 필드 | |
|---|---|
rubric |
출력 전용입니다. 대화를 평가하는 데 사용된 루브릭입니다. |
scoreExplanation |
출력 전용입니다. 평가자의 루브릭에 대한 응답입니다. |
통합 필드
|
|
score |
출력 전용입니다. 기준표에 따른 대화 점수입니다. |
TaskCompletionResult
| JSON 표현 |
|---|
{ "label": string, "explanation": string, // Union field |
| 필드 | |
|---|---|
label |
출력 전용입니다. 각 점수와 연결된 라벨입니다. 점수 1: 작업 완료 점수 0: 작업 미완료 점수 -1: 사용자 목표 미정의 |
explanation |
출력 전용입니다. 작업 완료 점수에 대한 설명입니다. |
통합 필드
|
|
score |
출력 전용입니다. 작업 완료 점수입니다. -1, 0, 1일 수 있습니다. |
UserGoalSatisfactionResult
| JSON 표현 |
|---|
{ "label": string, "explanation": string, // Union field |
| 필드 | |
|---|---|
label |
출력 전용입니다. 각 점수와 연결된 라벨입니다. 점수 1: 사용자 작업 만족 점수 0: 사용자 작업 불만족 점수 -1: 사용자 작업 미지정 |
explanation |
출력 전용입니다. 사용자 작업 만족도 점수에 대한 설명입니다. |
통합 필드
|
|
score |
출력 전용입니다. 사용자 작업 만족도 점수입니다. -1, 0, 1일 수 있습니다. |
EvaluationPersona
| JSON 표현 |
|---|
{
"name": string,
"description": string,
"displayName": string,
"personality": string,
"speechConfig": {
object ( |
| 필드 | |
|---|---|
name |
필수 항목입니다. 페르소나의 고유 식별자입니다. 형식: |
description |
선택사항입니다. 페르소나에 대한 설명입니다. |
displayName |
필수 항목입니다. 페르소나의 표시 이름입니다. 앱 내에서 고유합니다. |
personality |
필수 항목입니다. 평가에서 에이전트가 어떻게 행동해야 하는지에 관한 안내입니다. |
speechConfig |
선택사항입니다. 페르소나의 소리 (TTS 설정)에 관한 구성입니다. |
SpeechConfig
| JSON 표현 |
|---|
{
"speakingRate": number,
"environment": enum ( |
| 필드 | |
|---|---|
speakingRate |
선택사항입니다. 말하기 속도입니다. 1.0이 정상입니다. 낮은 값은 속도가 느립니다 (예: 0.8)일수록 속도가 빠릅니다 (예: 1.5). 상담사가 빠른 속도로 말하는 고객을 어떻게 처리하는지 테스트하는 데 유용합니다. |
environment |
선택사항입니다. 시뮬레이션된 오디오 환경입니다. |
voiceId |
선택사항입니다. 사용할 특정 음성 식별자/억양입니다. 예: 'en-US-Wavenet-D' 또는 'en-GB-Standard-A' |
상태
| JSON 표현 |
|---|
{ "code": integer, "message": string, "details": [ { "@type": string, field1: ..., ... } ] } |
| 필드 | |
|---|---|
code |
상태 코드로, |
message |
개발자에게 정보를 제공하는 오류 메시지로, 영어로 작성되어야 합니다. 사용자에게 표시되는 모든 오류 메시지는 현지화되어 |
details[] |
오류 세부정보를 설명하는 메시지 목록입니다. API에서 사용할 일반적인 메시지 유형 집합이 있습니다. 임의 유형의 필드를 포함하는 객체입니다. 추가 필드 |
모두
| JSON 표현 |
|---|
{ "typeUrl": string, "value": string } |
| 필드 | |
|---|---|
typeUrl |
슬래시로 끝나는 접두사와 정규화된 유형 이름으로 구성된 URI 참조를 사용하여 직렬화된 Protobuf 메시지의 유형을 식별합니다. 예: type.googleapis.com/google.protobuf.StringValue 이 문자열에는 접두사는 임의적이며 Protobuf 구현은 유형을 식별하기 위해 마지막 모든 유형 URL 문자열은 참조의 콘텐츠가 영숫자, 퍼센트 인코딩된 이스케이프, 다음 집합의 문자 (외부 백틱 제외)로만 구성되어야 한다는 추가 제한사항 (텍스트 형식의 경우)이 있는 합법적인 URI 참조여야 합니다.
|
value |
type_url로 설명된 유형의 Protobuf 직렬화를 보유합니다. base64 인코딩 문자열입니다. |
EvaluationMetricsThresholds
| JSON 표현 |
|---|
{ "goldenEvaluationMetricsThresholds": { object ( |
| 필드 | |
|---|---|
goldenEvaluationMetricsThresholds |
선택사항입니다. 핵심 평가 측정항목 기준입니다. |
hallucinationMetricBehavior |
선택사항입니다. 지원 중단됨: 대신 |
goldenHallucinationMetricBehavior |
선택사항입니다. 골든 평가의 허위 정보 측정항목 동작입니다. |
scenarioHallucinationMetricBehavior |
선택사항입니다. 시나리오 평가의 허위 정보 측정항목 동작입니다. |
GoldenEvaluationMetricsThresholds
| JSON 표현 |
|---|
{ "turnLevelMetricsThresholds": { object ( |
| 필드 | |
|---|---|
turnLevelMetricsThresholds |
선택사항입니다. 턴 수준 측정항목 기준점입니다. |
expectationLevelMetricsThresholds |
선택사항입니다. 기대 수준 측정항목 기준점입니다. |
toolMatchingSettings |
선택사항입니다. 도구 매칭 설정입니다. 추가 도구 호출은 실행에 있지만 골든 기대치에 있는 도구 호출과 일치하지 않는 도구 호출입니다. |
TurnLevelMetricsThresholds
| JSON 표현 |
|---|
{ "semanticSimilarityChannel": enum ( |
| 필드 | |
|---|---|
semanticSimilarityChannel |
선택사항입니다. 평가에 사용할 시맨틱 유사성 채널입니다. |
통합 필드
|
|
semanticSimilaritySuccessThreshold |
선택사항입니다. 의미론적 유사성의 성공 기준입니다. 0에서 4 사이의 정수여야 합니다. 기본값은 3 이상입니다. |
통합 필드
|
|
overallToolInvocationCorrectnessThreshold |
선택사항입니다. 전반적인 도구 호출 정확성의 성공 기준입니다. 0과 1 사이의 부동 소수점이어야 합니다. 기본값은 1.0입니다. |
ExpectationLevelMetricsThresholds
| JSON 표현 |
|---|
{ // Union field |
| 필드 | |
|---|---|
통합 필드
|
|
toolInvocationParameterCorrectnessThreshold |
선택사항입니다. 개별 도구 호출 매개변수 정확성의 성공 기준입니다. 0과 1 사이의 부동 소수점이어야 합니다. 기본값은 1.0입니다. |
ToolMatchingSettings
| JSON 표현 |
|---|
{
"extraToolCallBehavior": enum ( |
| 필드 | |
|---|---|
extraToolCallBehavior |
선택사항입니다. 추가 도구 호출의 동작입니다. 기본값은 FAIL입니다. |
EvaluationConfig
| JSON 표현 |
|---|
{ "inputAudioConfig": { object ( |
| 필드 | |
|---|---|
inputAudioConfig |
선택사항입니다. 입력 오디오 처리 구성입니다. |
outputAudioConfig |
선택사항입니다. 출력 오디오를 생성하기 위한 구성입니다. |
evaluationChannel |
선택사항입니다. 평가할 채널입니다. |
toolCallBehaviour |
선택사항입니다. 평가에서 실제 도구 호출을 사용할지 아니면 가짜 도구를 사용할지 지정합니다. |
InputAudioConfig
| JSON 표현 |
|---|
{
"audioEncoding": enum ( |
| 필드 | |
|---|---|
audioEncoding |
필수 항목입니다. 입력 오디오 데이터의 인코딩입니다. |
sampleRateHertz |
필수 항목입니다. 입력 오디오 데이터의 샘플링 레이트 (Hz)입니다. |
noiseSuppressionLevel |
선택사항입니다. 입력 오디오에서 주변 소음 제거를 사용 설정할지 여부입니다. 사용 가능한 값은 'low', 'moderate', 'high', 'very_high'입니다. |
OutputAudioConfig
| JSON 표현 |
|---|
{
"audioEncoding": enum ( |
| 필드 | |
|---|---|
audioEncoding |
필수 항목입니다. 출력 오디오 데이터의 인코딩입니다. |
sampleRateHertz |
필수 항목입니다. 출력 오디오 데이터의 샘플링 레이트 (Hz)입니다. |
도구 주석
파괴적 힌트: ❌ | 동일한 힌트: ❌ | 읽기 전용 힌트: ❌ | 오픈 월드 힌트: ❌