工具:get_evaluation_run
获取指定评估运行的详细信息。
以下示例演示了如何使用 curl 调用 get_evaluation_run MCP 工具。
| Curl 请求 |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "get_evaluation_run", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
输入架构
EvaluationService.GetEvaluationRun 的请求消息。
GetEvaluationRunRequest
| JSON 表示法 |
|---|
{ "name": string } |
| 字段 | |
|---|---|
name |
必需。要检索的评估运行的资源名称。 |
输出架构
评估运行是指评估执行中的所有评估结果。
EvaluationRun
| JSON 表示法 |
|---|
{ "name": string, "displayName": string, "evaluationResults": [ string ], "createTime": string, "initiatedBy": string, "appVersion": string, "appVersionDisplayName": string, "changelog": string, "changelogCreateTime": string, "evaluations": [ string ], "evaluationDataset": string, "evaluationType": enum ( |
| 字段 | |
|---|---|
name |
标识符。评估运行的唯一标识符。格式: |
displayName |
可选。评估运行的用户定义显示名。默认值:“ |
evaluationResults[] |
仅限输出。相应运行的评估结果。格式: |
createTime |
仅限输出。创建评估运行时的时间戳。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
initiatedBy |
仅限输出。发起评估运行的用户。 |
appVersion |
仅限输出。要评估的应用版本。格式: |
appVersionDisplayName |
仅限输出。评估所针对的 |
changelog |
仅限输出。评估所针对的应用版本的更改日志。如果用户在最新版本/草稿上运行评估,则会填充此字段。 |
changelogCreateTime |
仅限输出。评估所针对的应用版本的更改日志的创建时间。如果用户在最新版本/草稿上运行评估,则会填充此字段。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
evaluations[] |
仅限输出。相应运行中包含的评估。该列表可以包含任一类型的评估。此字段与 |
evaluationDataset |
仅限输出。相应运行所关联的评估数据集。此字段与 |
evaluationType |
仅限输出。相应运行中的评估类型。 |
state |
仅限输出。评估运行的状态。 |
progress |
仅限输出。评估运行的进度。 |
config |
仅限输出。运行中使用的配置。 |
error |
仅限输出。已弃用:请改用 error_info。执行期间遇到的错误。 |
errorInfo |
仅限输出。评估运行的错误信息。 |
evaluationRunSummaries |
仅限输出。从评估名称到 EvaluationRunSummary 的映射。 包含一系列 |
latencyReport |
仅限输出。评估运行的延迟报告。 |
runCount |
仅限输出。运行中评估的运行次数。 |
personaRunConfigs[] |
仅限输出。每次运行时使用的配置(按角色)。 |
optimizationConfig |
可选。用于在评估运行后运行优化步骤的配置。如果未设置,则不会运行优化步骤。 |
scheduledEvaluationRun |
仅限输出。创建相应评估运行的已安排评估运行的资源名称。仅当评估运行是由预定的评估运行创建时,才会设置此字段。格式: |
goldenRunMethod |
仅限输出。用于运行评估的方法。 |
时间戳
| JSON 表示法 |
|---|
{ "seconds": string, "nanos": integer } |
| 字段 | |
|---|---|
seconds |
表示世界协调时间 (UTC) 的秒数(从 Unix 纪元 1970-01-01T00:00:00Z 开始算起)。必须介于 -62135596800 到 253402300799 之间(含边界值),对应于 0001-01-01T00:00:00Z 到 9999-12-31T23:59:59Z。 |
nanos |
秒数的非负小数部分(以纳秒为单位)。此字段是时长的纳秒部分,而不是秒的替代项。对于含小数部分的负秒数,仍必须包含按时间递升的非负纳秒值。必须在 0 到 999,999,999 之间(含边界值)。 |
进度
| JSON 表示法 |
|---|
{ "totalCount": integer, "failedCount": integer, "errorCount": integer, "completedCount": integer, "passedCount": integer } |
| 字段 | |
|---|---|
totalCount |
仅限输出。相应运行中的评估结果总数。 |
failedCount |
仅限输出。结果为“失败”的已完成评估结果的数量。(EvaluationResult.execution_state 为 COMPLETED,且 EvaluationResult.evaluation_status 为 FAIL)。 |
errorCount |
仅限输出。未能执行的评估结果数量。(EvaluationResult.execution_state 为 ERROR)。 |
completedCount |
仅限输出。已成功完成的评估结果数。(EvaluationResult.execution_state 为 COMPLETED)。 |
passedCount |
仅限输出。结果为“通过”的已完成评估结果的数量。(EvaluationResult.execution_state 为 COMPLETED,且 EvaluationResult.evaluation_status 为 PASS)。 |
EvaluationConfig
| JSON 表示法 |
|---|
{ "inputAudioConfig": { object ( |
| 字段 | |
|---|---|
inputAudioConfig |
可选。用于处理输入音频的配置。 |
outputAudioConfig |
可选。用于生成输出音频的配置。 |
evaluationChannel |
可选。要评估的渠道。 |
toolCallBehaviour |
可选。指定评估应使用真实的工具调用还是虚假的工具。 |
InputAudioConfig
| JSON 表示法 |
|---|
{
"audioEncoding": enum ( |
| 字段 | |
|---|---|
audioEncoding |
必需。输入音频数据的编码。 |
sampleRateHertz |
必需。输入音频数据的采样率(以赫兹为单位)。 |
noiseSuppressionLevel |
可选。是否对输入音频启用噪声抑制。可选的值包括“low”“moderate”“high”“very_high”。 |
OutputAudioConfig
| JSON 表示法 |
|---|
{
"audioEncoding": enum ( |
| 字段 | |
|---|---|
audioEncoding |
必需。输出音频数据的编码。 |
sampleRateHertz |
必需。输出音频数据的采样率(以赫兹为单位)。 |
状态
| JSON 表示法 |
|---|
{ "code": integer, "message": string, "details": [ { "@type": string, field1: ..., ... } ] } |
| 字段 | |
|---|---|
code |
状态代码,应为 |
message |
面向开发者的错误消息(应采用英语)。任何向用户显示的错误消息都应进行本地化并通过 |
details[] |
包含错误详细信息的消息列表。有一组通用的消息类型可供 API 使用。 可以包含任意类型字段的对象。附加字段 |
不限
| JSON 表示法 |
|---|
{ "typeUrl": string, "value": string } |
| 字段 | |
|---|---|
typeUrl |
通过 URI 引用(包含以斜杠结尾的前缀和完全限定的类型名称)来标识序列化 Protobuf 消息的类型。 示例:type.googleapis.com/google.protobuf.StringValue 此字符串必须包含至少一个 前缀是任意的,Protobuf 实现应仅剥离最后一个 所有类型网址字符串都必须是合法的 URI 引用,并且(对于文本格式)还必须满足以下额外限制:引用的内容只能包含字母数字字符、百分号编码的转义字符以及以下集合中的字符(不包括外侧的反引号): 在 |
value |
包含由 type_url 描述的类型的 Protobuf 序列化。 使用 base64 编码的字符串。 |
EvaluationErrorInfo
| JSON 表示法 |
|---|
{
"errorType": enum ( |
| 字段 | |
|---|---|
errorType |
仅限输出。错误类型。 |
errorMessage |
仅限输出。错误消息。 |
sessionId |
仅限输出。导致错误的对话的会话 ID。 |
EvaluationRunSummariesEntry
| JSON 表示法 |
|---|
{
"key": string,
"value": {
object ( |
| 字段 | |
|---|---|
key |
|
value |
|
EvaluationRunSummary
| JSON 表示法 |
|---|
{ "passedCount": integer, "failedCount": integer, "errorCount": integer } |
| 字段 | |
|---|---|
passedCount |
仅限输出。相应评估在此次运行中通过的结果数。 |
failedCount |
仅限输出。相应评估在此运行中的失败结果数。 |
errorCount |
仅限输出。相应评估在此运行中的错误结果数。 |
LatencyReport
| JSON 表示法 |
|---|
{ "toolLatencies": [ { object ( |
| 字段 | |
|---|---|
toolLatencies[] |
仅限输出。无序列表。每个工具的延迟时间指标。 |
callbackLatencies[] |
仅限输出。无序列表。每个回调的延迟时间指标。 |
guardrailLatencies[] |
仅限输出。无序列表。每个安全措施的延迟时间指标。 |
llmCallLatencies[] |
仅限输出。无序列表。每次 LLM 调用的延迟时间指标。 |
sessionCount |
仅限输出。延迟时间报告中考虑的会话总数。 |
ToolLatency
| JSON 表示法 |
|---|
{ "toolDisplayName": string, "latencyMetrics": { object ( |
| 字段 | |
|---|---|
toolDisplayName |
仅限输出。工具的显示名称。 |
latencyMetrics |
仅限输出。工具的延迟时间指标。 |
联合字段 tool_identifier。工具的标识符。tool_identifier 只能是下列其中一项: |
|
tool |
仅限输出。格式: |
toolsetTool |
仅限输出。工具集工具标识符。 |
ToolsetTool
| JSON 表示法 |
|---|
{ "toolset": string, "toolId": string } |
| 字段 | |
|---|---|
toolset |
必需。相应工具所源自的 Toolset 的资源名称。格式: |
toolId |
可选。用于过滤工具的工具 ID,以检索相应工具的架构。 |
LatencyMetrics
| JSON 表示法 |
|---|
{ "p50Latency": string, "p90Latency": string, "p99Latency": string, "callCount": integer } |
| 字段 | |
|---|---|
p50Latency |
仅限输出。第 50 百分位的延迟时间。 该时长以秒为单位,最多包含九个小数位,以“ |
p90Latency |
仅限输出。第 90 百分位的延迟时间。 该时长以秒为单位,最多包含九个小数位,以“ |
p99Latency |
仅限输出。第 99 百分位的延迟时间。 该时长以秒为单位,最多包含九个小数位,以“ |
callCount |
仅限输出。资源的调用次数。 |
时长
| JSON 表示法 |
|---|
{ "seconds": string, "nanos": integer } |
| 字段 | |
|---|---|
seconds |
时间段的带符号秒数。必须介于 -315,576,000,000 到 +315,576,000,000 之间(含边界值)。注意:这些界限的计算依据是:60 秒/分钟 * 60 分钟/小时 * 24 小时/天 * 365.25 天/年 * 10000 年 |
nanos |
时间跨度的有符号秒数小数部分(以纳秒为单位)。小于 1 秒的时长用 0 |
CallbackLatency
| JSON 表示法 |
|---|
{
"stage": string,
"latencyMetrics": {
object ( |
| 字段 | |
|---|---|
stage |
仅限输出。回调的阶段。 |
latencyMetrics |
仅限输出。回调的延迟时间指标。 |
GuardrailLatency
| JSON 表示法 |
|---|
{
"guardrail": string,
"guardrailDisplayName": string,
"latencyMetrics": {
object ( |
| 字段 | |
|---|---|
guardrail |
仅限输出。安全屏障的名称。格式: |
guardrailDisplayName |
仅限输出。安全防护措施的显示名称。 |
latencyMetrics |
仅限输出。护栏的延迟时间指标。 |
LlmCallLatency
| JSON 表示法 |
|---|
{
"model": string,
"latencyMetrics": {
object ( |
| 字段 | |
|---|---|
model |
仅限输出。模型的名称。 |
latencyMetrics |
仅限输出。LLM 调用的延迟时间指标。 |
PersonaRunConfig
| JSON 表示法 |
|---|
{ "persona": string, "taskCount": integer } |
| 字段 | |
|---|---|
persona |
可选。用于评估的角色。格式: |
taskCount |
可选。要为角色运行的任务数量。 |
OptimizationConfig
| JSON 表示法 |
|---|
{
"generateLossReport": boolean,
"assistantSession": string,
"reportSummary": string,
"shouldSuggestFix": boolean,
"status": enum ( |
| 字段 | |
|---|---|
generateLossReport |
可选。是否生成损失报告。 |
assistantSession |
仅限输出。用于根据此评估运行结果进行优化的助理会话。格式: |
reportSummary |
仅限输出。丢失报告的摘要。 |
shouldSuggestFix |
仅限输出。是否建议修复损失。 |
status |
仅限输出。优化运行的状态。 |
errorMessage |
仅限输出。如果优化运行失败,则返回错误消息。 |
lossReport |
仅限输出。生成的损失报告。 |
结构体
| JSON 表示法 |
|---|
{ "fields": { string: value, ... } } |
| 字段 | |
|---|---|
fields |
无序的动态类型值映射。 包含一系列 |
FieldsEntry
| JSON 表示法 |
|---|
{ "key": string, "value": value } |
| 字段 | |
|---|---|
key |
|
value |
|
值
| JSON 表示法 |
|---|
{ // Union field |
| 字段 | |
|---|---|
联合字段 kind。值的类型。kind 只能是下列其中一项: |
|
nullValue |
表示 null 值。 |
numberValue |
表示双精度值。 |
stringValue |
表示字符串值。 |
boolValue |
表示布尔值。 |
structValue |
表示结构化值。 |
listValue |
表示重复的 |
ListValue
| JSON 表示法 |
|---|
{ "values": [ value ] } |
| 字段 | |
|---|---|
values[] |
动态类型值的重复字段。 |
工具注释
破坏性提示:❌ | 等幂性提示:✅ | 只读提示:✅ | 开放世界提示:❌