工具:get_evaluation
获取指定评估的详细信息。
以下示例演示了如何使用 curl 调用 get_evaluation MCP 工具。
| Curl 请求 |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "get_evaluation", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
输入架构
EvaluationService.GetEvaluation 的请求消息。
GetEvaluationRequest
| JSON 表示法 |
|---|
{ "name": string } |
| 字段 | |
|---|---|
name |
必需。要检索的评估的资源名称。 |
输出架构
评估表示模拟和评估代理所需的所有信息。
评估
| JSON 表示法 |
|---|
{ "name": string, "displayName": string, "description": string, "tags": [ string ], "evaluationDatasets": [ string ], "createTime": string, "createdBy": string, "updateTime": string, "lastUpdatedBy": string, "evaluationRuns": [ string ], "etag": string, "aggregatedMetrics": { object ( |
| 字段 | |
|---|---|
name |
标识符。相应评估的唯一标识符。格式: |
displayName |
必需。用户定义的评估显示名称。在应用内是唯一的。 |
description |
可选。用户定义的评估说明。 |
tags[] |
可选。用于对评估进行分类的用户定义标记。 |
evaluationDatasets[] |
仅限输出。相应评估所属的评估数据集的列表。格式: |
createTime |
仅限输出。创建评估时的时间戳。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
createdBy |
仅限输出。创建评估的用户。 |
updateTime |
仅限输出。上次更新评估时的时间戳。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
lastUpdatedBy |
仅限输出。上次更新评估的用户。 |
evaluationRuns[] |
仅限输出。相应评估所关联的 EvaluationRun。 |
etag |
仅限输出。用于确保对象在读取-修改-写入操作期间未发生更改的 ETag。如果 etag 为空,则更新会覆盖任何并发更改。 |
aggregatedMetrics |
仅限输出。相应评估在所有运行中的汇总指标。 |
lastCompletedResult |
仅限输出。相应评估的最新评估结果。 |
invalid |
仅限输出。评估是否无效。如果评估所引用的工具、工具集或代理已被删除,则可能会发生这种情况。 |
lastTenResults[] |
仅限输出。相应评估的最近 10 次评估结果。仅当在 ListEvaluationsRequest 或 GetEvaluationRequest 中将 include_last_ten_results 设置为 true 时,才会填充此字段。 |
联合字段 inputs。评估 inputs 的输入只能是以下值之一: |
|
golden |
可选。要评估的黄金步数。 |
scenario |
可选。相应场景的配置。 |
金色
| JSON 表示法 |
|---|
{
"turns": [
{
object ( |
| 字段 | |
|---|---|
turns[] |
必需。重放黄金对话所需的黄金回合数。 |
evaluationExpectations[] |
可选。用于评估重放对话的评估预期。格式: |
GoldenTurn
| JSON 表示法 |
|---|
{ "steps": [ { object ( |
| 字段 | |
|---|---|
steps[] |
必需。重放黄金对话所需的步骤。 |
rootSpan |
可选。用于处理和维护音频信息的黄金周期的根 span。 |
步骤
| JSON 表示法 |
|---|
{ // Union field |
| 字段 | |
|---|---|
联合字段 step。要执行的步骤。step 只能是下列其中一项: |
|
userInput |
可选。对话的用户输入。 |
agentTransfer |
可选。将对话转接给其他客服人员。 |
expectation |
可选。在当前回合中执行预期。 |
SessionInput
| JSON 表示法 |
|---|
{ "willContinue": boolean, // Union field |
| 字段 | |
|---|---|
willContinue |
可选。一个标志,用于指示当前消息是否是双向流式会话中较大输入的片段。 如果设置为 注意:此字段不适用于音频和 DTMF 输入,因为它们始终会根据端点信号自动处理。 |
联合字段 input_type。输入的类型。input_type 只能是下列其中一项: |
|
text |
可选。最终用户的文本数据。 |
dtmf |
可选。来自最终用户的 DTMF 数字。 |
audio |
可选。最终用户的音频数据。 使用 base64 编码的字符串。 |
toolResponses |
可选。来自客户端的工具调用的执行结果。 |
image |
可选。最终用户的图片数据。 |
blob |
可选。来自最终用户的 Blob 数据。 |
variables |
可选。会话的上下文变量,按名称键控。CES 代理只会使用在应用中声明的变量。 无法识别的变量仍会作为额外的会话参数发送到 [Dialogflow 代理][Agent.RemoteDialogflowAgent]。 |
event |
可选。活动输入。 |
ToolResponses
| JSON 表示法 |
|---|
{
"toolResponses": [
{
object ( |
| 字段 | |
|---|---|
toolResponses[] |
可选。工具执行结果列表。 |
ToolResponse
| JSON 表示法 |
|---|
{ "id": string, "displayName": string, "response": { object }, // Union field |
| 字段 | |
|---|---|
id |
可选。相应回答所针对的匹配项的 ID。 |
displayName |
仅限输出。工具的显示名称。 |
response |
必需。以 JSON 对象格式表示的工具执行结果。使用“output”键指定工具响应,使用“error”键指定错误详情(如有)。如果未指定“output”和“error”键,则整个“response”都被视为工具执行结果。 |
联合字段 tool_identifier。已执行的工具的标识符。它可以是持久化工具,也可以是工具集中的工具。tool_identifier 只能是下列其中一项: |
|
tool |
可选。要执行的工具的名称。格式: |
toolsetTool |
可选。已执行的工具集工具。 |
ToolsetTool
| JSON 表示法 |
|---|
{ "toolset": string, "toolId": string } |
| 字段 | |
|---|---|
toolset |
必需。相应工具所源自的 Toolset 的资源名称。格式: |
toolId |
可选。用于过滤工具的工具 ID,以检索相应工具的架构。 |
结构体
| JSON 表示法 |
|---|
{ "fields": { string: value, ... } } |
| 字段 | |
|---|---|
fields |
无序的动态类型值映射。 包含一系列 |
FieldsEntry
| JSON 表示法 |
|---|
{ "key": string, "value": value } |
| 字段 | |
|---|---|
key |
|
value |
|
值
| JSON 表示法 |
|---|
{ // Union field |
| 字段 | |
|---|---|
联合字段 kind。值的类型。kind 只能是下列其中一项: |
|
nullValue |
表示 null 值。 |
numberValue |
表示双精度值。 |
stringValue |
表示字符串值。 |
boolValue |
表示布尔值。 |
structValue |
表示结构化值。 |
listValue |
表示重复的 |
ListValue
| JSON 表示法 |
|---|
{ "values": [ value ] } |
| 字段 | |
|---|---|
values[] |
动态类型值的重复字段。 |
图片
| JSON 表示法 |
|---|
{ "mimeType": string, "data": string } |
| 字段 | |
|---|---|
mimeType |
必需。来源数据的 IANA 标准 MIME 类型。支持的图片类型包括: * image/png * image/jpeg * image/webp |
data |
必需。图片的原始字节。 使用 base64 编码的字符串。 |
Blob
| JSON 表示法 |
|---|
{ "mimeType": string, "data": string } |
| 字段 | |
|---|---|
mimeType |
必需。来源数据的 IANA 标准 MIME 类型。 |
data |
必需。相应 blob 的原始字节。 使用 base64 编码的字符串。 |
事件
| JSON 表示法 |
|---|
{ "event": string } |
| 字段 | |
|---|---|
event |
必需。事件的名称。 |
AgentTransfer
| JSON 表示法 |
|---|
{ "targetAgent": string, "displayName": string } |
| 字段 | |
|---|---|
targetAgent |
必需。对话要转移到的代理。智能体将从这一刻起接管对话。格式: |
displayName |
仅限输出。代理的显示名称。 |
GoldenExpectation
| JSON 表示法 |
|---|
{ "note": string, // Union field |
| 字段 | |
|---|---|
note |
可选。此要求的备注,在报告特定检查失败时很有用。例如,"Check_Payment_Tool_Called". |
联合字段 condition。要执行的实际检查。condition 只能是下列其中一项: |
|
toolCall |
可选。检查是否已使用参数调用特定工具。 |
toolResponse |
可选。检查特定工具是否具有预期响应。 |
agentResponse |
可选。检查代理是否回答了正确的响应。角色“agent”是隐含的。 |
agentTransfer |
可选。检查客服人员是否已将对话转给其他客服人员。 |
updatedVariables |
可选。检查代理是否已将会话变量更新为预期值。用于捕获代理变量更新以进行黄金评估。 |
mockToolResponse |
可选。要模拟的工具响应,其中指定了相关参数。任何未指定的参数都将由 LLM 编造。 |
ToolCall
| JSON 表示法 |
|---|
{ "id": string, "displayName": string, "args": { object }, // Union field |
| 字段 | |
|---|---|
id |
可选。工具调用的唯一标识符。如果填充了此字段,客户端应返回执行结果,并在 |
displayName |
仅限输出。工具的显示名称。 |
args |
可选。以 JSON 对象格式表示的工具的输入参数和值。 |
联合字段 tool_identifier。要执行的工具的标识符。它可以是持久化工具,也可以是工具集中的工具。tool_identifier 只能是下列其中一项: |
|
tool |
可选。要执行的工具的名称。格式: |
toolsetTool |
可选。要执行的工具集工具。 |
消息
| JSON 表示法 |
|---|
{
"role": string,
"chunks": [
{
object ( |
| 字段 | |
|---|---|
role |
可选。对话中的角色,例如用户、代理。 |
chunks[] |
可选。消息的内容,以一系列块的形式呈现。 |
eventTime |
可选。消息的发送或接收时间。如果消息是 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
块
| JSON 表示法 |
|---|
{ // Union field |
| 字段 | |
|---|---|
联合字段 data。数据块数据。data 只能是下列其中一项: |
|
text |
可选。文本数据。 |
transcript |
可选。与音频关联的转写内容。 |
blob |
可选。Blob 数据。 |
payload |
可选。自定义载荷数据。 |
image |
可选。图片数据。 |
toolCall |
可选。工具执行请求。 |
toolResponse |
可选。工具执行响应。 |
agentTransfer |
可选。代理转移事件。 |
updatedVariables |
一个结构体,表示对话中更新的变量,按变量名称键控。 |
defaultVariables |
结构体表示对话开始时的默认变量,按变量名称键控。 |
时间戳
| JSON 表示法 |
|---|
{ "seconds": string, "nanos": integer } |
| 字段 | |
|---|---|
seconds |
表示世界协调时间 (UTC) 的秒数(从 Unix 纪元 1970-01-01T00:00:00Z 开始算起)。必须介于 -62135596800 到 253402300799 之间(含边界值),对应于 0001-01-01T00:00:00Z 到 9999-12-31T23:59:59Z。 |
nanos |
秒数的非负小数部分(以纳秒为单位)。此字段是时长的纳秒部分,而不是秒的替代项。对于含小数部分的负秒数,仍必须包含按时间递升的非负纳秒值。必须在 0 到 999,999,999 之间(含边界值)。 |
span
| JSON 表示法 |
|---|
{
"name": string,
"startTime": string,
"endTime": string,
"duration": string,
"attributes": {
object
},
"childSpans": [
{
object ( |
| 字段 | |
|---|---|
name |
仅限输出。span 的名称。 |
startTime |
仅限输出。时间段的开始时间。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
endTime |
仅限输出。时间段的结束时间。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
duration |
仅限输出。Span 的时长。 该时长以秒为单位,最多包含九个小数位,以“ |
attributes |
仅限输出。与 span 关联的键值对属性。 |
childSpans[] |
仅限输出。嵌套在此 span 下的子 span。 |
时长
| JSON 表示法 |
|---|
{ "seconds": string, "nanos": integer } |
| 字段 | |
|---|---|
seconds |
时间段的带符号秒数。必须介于 -315,576,000,000 到 +315,576,000,000 之间(含边界值)。注意:这些界限的计算依据是:60 秒/分钟 * 60 分钟/小时 * 24 小时/天 * 365.25 天/年 * 10000 年 |
nanos |
时间跨度的有符号秒数小数部分(以纳秒为单位)。时长不足 1 秒时, |
场景
| JSON 表示法 |
|---|
{ "task": string, "userFacts": [ { object ( |
| 字段 | |
|---|---|
task |
必需。相应场景所针对的任务。 |
userFacts[] |
可选。供场景使用的用户事实。 |
maxTurns |
可选。要模拟的最大回合数。如果未指定,模拟将继续进行,直到任务完成。 |
rubrics[] |
必需。用于对方案进行评分的评分标准。 |
scenarioExpectations[] |
必需。用于评估用户模拟生成的对话的 ScenarioExpectations。 |
variableOverrides |
可选。作为会话上下文的变量 / 会话参数,按变量名称键控。此结构体的成员将替换系统设置的任何默认值。 请注意,这些与用户已知的事实(即用户事实)不同。变量是代理已知的参数:即由手机系统传递的 MDN(手机号码)。 |
taskCompletionBehavior |
可选。已弃用。请改用 user_goal_behavior。 |
userGoalBehavior |
可选。用户目标的预期行为。 |
evaluationExpectations[] |
可选。用于评估模拟生成的对话的评估预期。格式: |
UserFact
| JSON 表示法 |
|---|
{ "name": string, "value": string } |
| 字段 | |
|---|---|
name |
必需。用户事实的名称。 |
value |
必需。用户事实的值。 |
ScenarioExpectation
| JSON 表示法 |
|---|
{ // Union field |
| 字段 | |
|---|---|
联合字段 expectation。用于评估模拟生成的对话的预期结果。expectation 只能是下列其中一项: |
|
toolExpectation |
可选。要评估的工具调用和响应对。 |
agentResponse |
可选。待评估的代理回答。 |
ToolExpectation
| JSON 表示法 |
|---|
{ "expectedToolCall": { object ( |
| 字段 | |
|---|---|
expectedToolCall |
必需。预期工具调用,其中指定了感兴趣的参数。任何未指定的参数都将由 LLM 编造。 |
mockToolResponse |
必需。要模拟的工具响应,其中指定了相关参数。任何未指定的参数都将由 LLM 编造。 |
AggregatedMetrics
| JSON 表示法 |
|---|
{
"metricsByAppVersion": [
{
object ( |
| 字段 | |
|---|---|
metricsByAppVersion[] |
仅限输出。按应用版本 ID 分组的汇总指标。 |
MetricsByAppVersion
| JSON 表示法 |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| 字段 | |
|---|---|
appVersionId |
仅限输出。应用版本 ID。 |
toolMetrics[] |
仅限输出。相应应用版本中每个工具的指标。 |
semanticSimilarityMetrics[] |
仅限输出。相应应用版本内的语义相似度指标。 |
hallucinationMetrics[] |
仅限输出。相应应用版本中出现幻觉的指标。 |
toolCallLatencyMetrics[] |
仅限输出。相应应用版本中工具调用延迟时间的指标。 |
turnLatencyMetrics[] |
仅限输出。相应应用版本中对话延迟时间的指标。 |
passCount |
仅限输出。评估通过的次数。 |
failCount |
仅限输出。评估失败的次数。 |
metricsByTurn[] |
仅限输出。此应用版本中每个回合的汇总指标。 |
ToolMetrics
| JSON 表示法 |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| 字段 | |
|---|---|
tool |
仅限输出。工具的名称。 |
passCount |
仅限输出。工具通过的次数。 |
failCount |
仅限输出。工具失败的次数。 |
SemanticSimilarityMetrics
| JSON 表示法 |
|---|
{ "score": number } |
| 字段 | |
|---|---|
score |
仅限输出。平均语义相似度得分(0-4)。 |
HallucinationMetrics
| JSON 表示法 |
|---|
{ "score": number } |
| 字段 | |
|---|---|
score |
仅限输出。平均幻觉分数(0 到 1)。 |
ToolCallLatencyMetrics
| JSON 表示法 |
|---|
{ "tool": string, "averageLatency": string } |
| 字段 | |
|---|---|
tool |
仅限输出。工具的名称。 |
averageLatency |
仅限输出。工具调用的平均延迟时间。 该时长以秒为单位,最多包含九个小数位,以“ |
TurnLatencyMetrics
| JSON 表示法 |
|---|
{ "averageLatency": string } |
| 字段 | |
|---|---|
averageLatency |
仅限输出。对话轮次的平均延迟时间。 该时长以秒为单位,最多包含九个小数位,以“ |
MetricsByTurn
| JSON 表示法 |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| 字段 | |
|---|---|
turnIndex |
仅限输出。回合指数(从 0 开始)。 |
toolMetrics[] |
仅限输出。相应回合中每个工具的指标。 |
semanticSimilarityMetrics[] |
仅限输出。相应轮次内的语义相似度指标。 |
hallucinationMetrics[] |
仅限输出。相应轮次中出现幻觉的指标。 |
toolCallLatencyMetrics[] |
仅限输出。相应回合中工具调用延迟时间的指标。 |
turnLatencyMetrics[] |
仅限输出。相应轮次中轮次延迟时间的指标。 |
EvaluationResult
| JSON 表示法 |
|---|
{ "name": string, "displayName": string, "createTime": string, "evaluationStatus": enum ( |
| 字段 | |
|---|---|
name |
标识符。评估结果的唯一标识符。格式: |
displayName |
必需。评估结果的显示名称。在评估中是唯一的。默认情况下,其格式如下:“ |
createTime |
仅限输出。创建评估结果时的时间戳。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
evaluationStatus |
仅限输出。评估结果。仅在 execution_state 为 COMPLETE 时填充。 |
evaluationRun |
仅限输出。生成相应结果的评估运行。格式: |
persona |
仅限输出。用于生成对话以评估结果的角色。 |
errorInfo |
仅限输出。评估结果的错误信息。 |
error |
仅限输出。已弃用:请改用 |
initiatedBy |
仅限输出。发起评估运行的用户,该评估运行产生了相应结果。 |
appVersion |
仅限输出。用于生成对话的应用版本,该对话最终产生了此结果。格式: |
appVersionDisplayName |
仅限输出。评估所针对的 |
changelog |
仅限输出。评估所针对的应用版本的更改日志。如果用户在最新版本/草稿上运行评估,则会填充此字段。 |
changelogCreateTime |
仅限输出。评估所针对的应用版本的更改日志的创建时间。如果用户在最新版本/草稿上运行评估,则会填充此字段。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
executionState |
仅限输出。评估结果执行的状态。 |
evaluationMetricsThresholds |
仅限输出。结果的评估阈值。 |
config |
仅限输出。在生成此结果的评估运行中使用的配置。 |
goldenRunMethod |
仅限输出。用于运行黄金评估的方法。 |
联合字段 result。评估结果。仅当 execution_state 为 COMPLETED 时填充。result 只能是下列其中一项: |
|
goldenResult |
仅限输出。黄金评估的结果。 |
scenarioResult |
仅限输出。情景评估的结果。 |
GoldenResult
| JSON 表示法 |
|---|
{ "turnReplayResults": [ { object ( |
| 字段 | |
|---|---|
turnReplayResults[] |
仅限输出。运行黄金对话的每一轮的结果。 |
evaluationExpectationResults[] |
仅限输出。评估预期结果。 |
TurnReplayResult
| JSON 表示法 |
|---|
{ "conversation": string, "expectationOutcome": [ { object ( |
| 字段 | |
|---|---|
conversation |
仅限输出。为相应对话轮次生成的对话。 |
expectationOutcome[] |
仅限输出。每项预期结果。 |
hallucinationResult |
仅限输出。幻觉检查的结果。 |
toolInvocationScore |
仅限输出。已弃用。请改用 OverallToolInvocationResult。 |
turnLatency |
仅限输出。回合时长。 该时长以秒为单位,最多包含九个小数位,以“ |
toolCallLatencies[] |
仅限输出。相应回合中每次工具调用的延迟时间。 |
semanticSimilarityResult |
仅限输出。语义相似性检查的结果。 |
overallToolInvocationResult |
仅限输出。整个工具调用检查的结果。 |
errorInfo |
仅限输出。有关此回合期间发生的错误的信息。 |
spanLatencies[] |
仅限输出。相应轮次中 span 的延迟时间。 |
联合字段
|
|
toolOrderedInvocationScore |
仅限输出。相应对话轮次的总体工具调用得分。这表示预期轮次中实际按预期顺序调用的工具占总工具数的百分比。 |
GoldenExpectationOutcome
| JSON 表示法 |
|---|
{ "expectation": { object ( |
| 字段 | |
|---|---|
expectation |
仅限输出。已评估的预期。 |
outcome |
仅限输出。预期结果。 |
semanticSimilarityResult |
仅限输出。语义相似性检查的结果。 |
toolInvocationResult |
仅限输出。工具调用检查的结果。 |
联合字段 result。预期结果。result 只能是下列其中一项: |
|
observedToolCall |
仅限输出。工具调用预期结果。 |
observedToolResponse |
仅限输出。工具响应预期结果。 |
observedAgentResponse |
仅限输出。代理回答预期结果。 |
observedAgentTransfer |
仅限输出。代理转移预期结果。 |
SemanticSimilarityResult
| JSON 表示法 |
|---|
{ "label": string, "explanation": string, "outcome": enum ( |
| 字段 | |
|---|---|
label |
仅限输出。与每个得分相关联的标签。得分 4:完全一致得分 3:基本一致得分 2:部分一致(略有遗漏)得分 1:基本不一致(严重遗漏)得分 0:完全不一致 / 矛盾 |
explanation |
仅限输出。语义相似度得分的说明。 |
outcome |
仅限输出。语义相似度检查的结果。这是通过将得分与 semantic_similarity_success_threshold 进行比较来确定的。如果得分等于或高于阈值,结果将为“通过”。否则,结果将为 FAIL。 |
联合字段
|
|
score |
仅限输出。语义相似度得分。可以是 0、1、2、3 或 4。 |
ToolInvocationResult
| JSON 表示法 |
|---|
{ "outcome": enum ( |
| 字段 | |
|---|---|
outcome |
仅限输出。工具调用检查的结果。这是通过将 parameter_correctness_score 与阈值进行比较来确定的。如果得分等于或高于阈值,结果将为“通过”。否则,结果将为 FAIL。 |
explanation |
仅限输出。工具调用结果的自由文本说明。 |
联合字段
|
|
parameterCorrectnessScore |
仅限输出。工具调用参数正确性得分。这表示预期工具调用中也出现在实际工具调用中的参数所占的百分比。 |
HallucinationResult
| JSON 表示法 |
|---|
{ "label": string, "explanation": string, // Union field |
| 字段 | |
|---|---|
label |
仅限输出。与每个得分相关联的标签。得分 1:合理得分 0:不合理得分 -1:无声明可评估 |
explanation |
仅限输出。幻觉得分的说明。 |
联合字段
|
|
score |
仅限输出。出现幻觉的得分。可以是 -1、0、1。 |
ToolCallLatency
| JSON 表示法 |
|---|
{ "tool": string, "displayName": string, "startTime": string, "endTime": string, "executionLatency": string } |
| 字段 | |
|---|---|
tool |
仅限输出。已执行的工具的名称。格式: |
displayName |
仅限输出。工具的显示名称。 |
startTime |
仅限输出。工具调用执行的开始时间。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
endTime |
仅限输出。工具调用执行的结束时间。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
executionLatency |
仅限输出。工具调用执行的延迟时间。 该时长以秒为单位,最多包含九个小数位,以“ |
OverallToolInvocationResult
| JSON 表示法 |
|---|
{ "outcome": enum ( |
| 字段 | |
|---|---|
outcome |
仅限输出。工具调用检查的结果。这是通过将 tool_invocation_score 与 overall_tool_invocation_correctness_threshold 进行比较来确定的。如果得分等于或高于阈值,结果将为“通过”。否则,结果将为 FAIL。 |
联合字段
|
|
toolInvocationScore |
相应对话轮次的总体工具调用得分。此指标表示实际调用的工具占预期回合中工具总数的百分比。 |
EvaluationErrorInfo
| JSON 表示法 |
|---|
{
"errorType": enum ( |
| 字段 | |
|---|---|
errorType |
仅限输出。错误类型。 |
errorMessage |
仅限输出。错误消息。 |
sessionId |
仅限输出。导致错误的对话的会话 ID。 |
SpanLatency
| JSON 表示法 |
|---|
{ "type": enum ( |
| 字段 | |
|---|---|
type |
仅限输出。跨度的类型。 |
displayName |
仅限输出。span 的显示名称。适用于工具和保护措施范围。 |
startTime |
仅限输出。span 的开始时间。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
endTime |
仅限输出。时间段的结束时间。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
executionLatency |
仅限输出。span 的延迟时间。 该时长以秒为单位,最多包含九个小数位,以“ |
联合字段 identifier。特定商品的标识符(取决于商品类型)。identifier 只能是下列其中一项: |
|
resource |
仅限输出。防护栏或工具 span 的资源名称。 |
toolset |
仅限输出。工具集工具标识符。 |
model |
仅限输出。LLM span 的名称。 |
callback |
仅限输出。用户回调 span 的名称。 |
EvaluationExpectationResult
| JSON 表示法 |
|---|
{
"evaluationExpectation": string,
"prompt": string,
"outcome": enum ( |
| 字段 | |
|---|---|
evaluationExpectation |
仅限输出。评估预期。格式: |
prompt |
仅限输出。用于评估的提示。 |
outcome |
仅限输出。评估预期结果。 |
explanation |
仅限输出。结果的说明。 |
ScenarioResult
| JSON 表示法 |
|---|
{ "conversation": string, "task": string, "userFacts": [ { object ( |
| 字段 | |
|---|---|
conversation |
仅限输出。相应场景中生成的对话。 |
task |
仅限输出。运行相应结果的场景时所用的任务。 |
userFacts[] |
仅限输出。相应结果所对应的方案使用的用户事实。 |
expectationOutcomes[] |
仅限输出。每项预期结果。 |
rubricOutcomes[] |
仅限输出。评分准则的结果。 |
hallucinationResult[] |
仅限输出。幻觉检查的结果。对话中的每一轮都会有一个幻觉结果。 |
taskCompletionResult |
仅限输出。任务完成情况检查的结果。 |
toolCallLatencies[] |
仅限输出。对话中每次工具调用执行的延迟时间。 |
userGoalSatisfactionResult |
仅限输出。用户目标达成情况检查的结果。 |
spanLatencies[] |
仅限输出。对话中 span 的延迟时间。 |
evaluationExpectationResults[] |
仅限输出。评估预期结果。 |
联合字段
|
|
allExpectationsSatisfied |
仅限输出。相应回合是否满足了所有预期。 |
联合字段
|
|
taskCompleted |
仅限输出。相应任务是否已在此回合中完成。这是所有已满足的期望、无幻觉和用户目标达成情况的综合体现。 |
ScenarioExpectationOutcome
| JSON 表示法 |
|---|
{ "expectation": { object ( |
| 字段 | |
|---|---|
expectation |
仅限输出。已评估的预期。 |
outcome |
仅限输出。ScenarioExpectation 的结果。 |
联合字段 result。预期结果。result 只能是下列其中一项: |
|
observedToolCall |
仅限输出。观测到的工具调用。 |
observedAgentResponse |
仅限输出。观察到的智能体回答。 |
ObservedToolCall
| JSON 表示法 |
|---|
{ "toolCall": { object ( |
| 字段 | |
|---|---|
toolCall |
仅限输出。观测到的工具调用。 |
toolResponse |
仅限输出。观察到的工具响应。 |
ScenarioRubricOutcome
| JSON 表示法 |
|---|
{ "rubric": string, "scoreExplanation": string, // Union field |
| 字段 | |
|---|---|
rubric |
仅限输出。用于评估对话的评分标准。 |
scoreExplanation |
仅限输出。评分者对评分准则的回答。 |
联合字段
|
|
score |
仅限输出。对话根据评分准则得出的分数。 |
TaskCompletionResult
| JSON 表示法 |
|---|
{ "label": string, "explanation": string, // Union field |
| 字段 | |
|---|---|
label |
仅限输出。与每个得分相关联的标签。得分 1:任务已完成得分 0:任务未完成得分 -1:用户目标未定义 |
explanation |
仅限输出。任务完成得分的说明。 |
联合字段
|
|
score |
仅限输出。任务完成得分。可以是 -1、0、1 |
UserGoalSatisfactionResult
| JSON 表示法 |
|---|
{ "label": string, "explanation": string, // Union field |
| 字段 | |
|---|---|
label |
仅限输出。与每个得分相关联的标签。得分 1:用户任务已完成得分 0:用户任务未完成得分 -1:用户任务未指定 |
explanation |
仅限输出。用户任务完成度得分的说明。 |
联合字段
|
|
score |
仅限输出。用户任务完成满意度得分。可以是 -1、0、1。 |
EvaluationPersona
| JSON 表示法 |
|---|
{
"name": string,
"description": string,
"displayName": string,
"personality": string,
"speechConfig": {
object ( |
| 字段 | |
|---|---|
name |
必需。角色的唯一标识符。格式: |
description |
可选。角色的说明。 |
displayName |
必需。角色的显示名称。在应用内是唯一的。 |
personality |
必需。有关代理在评估中应如何表现的指令。 |
speechConfig |
可选。角色声音的配置(文字转语音设置)。 |
SpeechConfig
| JSON 表示法 |
|---|
{
"speakingRate": number,
"environment": enum ( |
| 字段 | |
|---|---|
speakingRate |
可选。语速。1.0 为正常值。值越低,速度越慢(例如 0.8),值越高速度越快(例如 1.5)。有助于测试代理如何处理语速较快的用户。 |
environment |
可选。模拟音频环境。 |
voiceId |
可选。要使用的特定语音标识符/口音。示例:“en-US-Wavenet-D”或“en-GB-Standard-A” |
状态
| JSON 表示法 |
|---|
{ "code": integer, "message": string, "details": [ { "@type": string, field1: ..., ... } ] } |
| 字段 | |
|---|---|
code |
状态代码,应为 |
message |
面向开发者的错误消息(应采用英语)。任何向用户显示的错误消息都应进行本地化并通过 |
details[] |
包含错误详细信息的消息列表。有一组通用的消息类型可供 API 使用。 可以包含任意类型字段的对象。附加字段 |
不限
| JSON 表示法 |
|---|
{ "typeUrl": string, "value": string } |
| 字段 | |
|---|---|
typeUrl |
通过 URI 引用(包含以斜杠结尾的前缀和完全限定的类型名称)来标识序列化 Protobuf 消息的类型。 示例:type.googleapis.com/google.protobuf.StringValue 此字符串必须包含至少一个 前缀是任意的,Protobuf 实现应仅剥离最后一个 所有类型网址字符串都必须是合法的 URI 引用,并且(对于文本格式)还必须满足以下额外限制:引用的内容只能包含字母数字字符、百分号编码的转义字符以及以下集合中的字符(不包括外侧的反引号): 在 |
value |
包含由 type_url 描述的类型的 Protobuf 序列化。 使用 base64 编码的字符串。 |
EvaluationMetricsThresholds
| JSON 表示法 |
|---|
{ "goldenEvaluationMetricsThresholds": { object ( |
| 字段 | |
|---|---|
goldenEvaluationMetricsThresholds |
可选。黄金评估指标阈值。 |
hallucinationMetricBehavior |
可选。已弃用:请改用 |
goldenHallucinationMetricBehavior |
可选。黄金评估的幻觉指标行为。 |
scenarioHallucinationMetricBehavior |
可选。用于评估方案的幻觉指标行为。 |
GoldenEvaluationMetricsThresholds
| JSON 表示法 |
|---|
{ "turnLevelMetricsThresholds": { object ( |
| 字段 | |
|---|---|
turnLevelMetricsThresholds |
可选。对话轮次级指标阈值。 |
expectationLevelMetricsThresholds |
可选。预期级别指标阈值。 |
toolMatchingSettings |
可选。工具匹配设置。额外的工具调用是指在执行中存在但在黄金预期中没有任何匹配的工具调用。 |
TurnLevelMetricsThresholds
| JSON 表示法 |
|---|
{ "semanticSimilarityChannel": enum ( |
| 字段 | |
|---|---|
semanticSimilarityChannel |
可选。用于评估的语义相似度渠道。 |
联合字段
|
|
semanticSimilaritySuccessThreshold |
可选。语义相似度的成功阈值。必须是介于 0 到 4 之间的整数。默认值为 >= 3。 |
联合字段
|
|
overallToolInvocationCorrectnessThreshold |
可选。工具调用的总体正确性成功阈值。必须是介于 0 到 1 之间的浮点数。默认值为 1.0。 |
ExpectationLevelMetricsThresholds
| JSON 表示法 |
|---|
{ // Union field |
| 字段 | |
|---|---|
联合字段
|
|
toolInvocationParameterCorrectnessThreshold |
可选。单个工具调用参数正确性的成功阈值。必须是介于 0 到 1 之间的浮点数。默认值为 1.0。 |
ToolMatchingSettings
| JSON 表示法 |
|---|
{
"extraToolCallBehavior": enum ( |
| 字段 | |
|---|---|
extraToolCallBehavior |
可选。针对额外工具调用的行为。默认值为 FAIL。 |
EvaluationConfig
| JSON 表示法 |
|---|
{ "inputAudioConfig": { object ( |
| 字段 | |
|---|---|
inputAudioConfig |
可选。用于处理输入音频的配置。 |
outputAudioConfig |
可选。用于生成输出音频的配置。 |
evaluationChannel |
可选。要评估的渠道。 |
toolCallBehaviour |
可选。指定评估应使用真实的工具调用还是虚假的工具。 |
InputAudioConfig
| JSON 表示法 |
|---|
{
"audioEncoding": enum ( |
| 字段 | |
|---|---|
audioEncoding |
必需。输入音频数据的编码。 |
sampleRateHertz |
必需。输入音频数据的采样率(以赫兹为单位)。 |
noiseSuppressionLevel |
可选。是否对输入音频启用噪声抑制。可选的值包括“low”“moderate”“high”“very_high”。 |
OutputAudioConfig
| JSON 表示法 |
|---|
{
"audioEncoding": enum ( |
| 字段 | |
|---|---|
audioEncoding |
必需。输出音频数据的编码。 |
sampleRateHertz |
必需。输出音频数据的采样率(以赫兹为单位)。 |
工具注释
破坏性提示:❌ | 等幂性提示:✅ | 只读提示:✅ | 开放世界提示:❌