Tool: list_evaluation_runs
Listet Bewertungsausführungen auf.
Im folgenden Beispiel wird gezeigt, wie Sie mit curl das MCP-Tool list_evaluation_runs aufrufen.
| Curl-Anfrage |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "list_evaluation_runs", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
Eingabeschema
Anfragenachricht für EvaluationService.ListEvaluationRuns.
ListEvaluationRunsRequest
| JSON-Darstellung |
|---|
{ "parent": string, "pageSize": integer, "pageToken": string, "filter": string, "orderBy": string } |
| Felder | |
|---|---|
parent |
Erforderlich. Der Ressourcenname der App, für die die Ausführungen von Bewertungen aufgeführt werden sollen. |
pageSize |
Optional. Angeforderte Seitengröße. Der Server gibt möglicherweise weniger Elemente als angefordert zurück. Wenn kein Wert angegeben wurde, wählt der Server einen geeigneten Standardwert aus. |
pageToken |
Optional. Der Wert |
filter |
Optional. Filter, der beim Auflisten der Ausführungen der Auswertung angewendet werden soll. Weitere Informationen finden Sie unter https://google.aip.dev/160. |
orderBy |
Optional. Feld, nach dem sortiert werden soll. Nur „name“, „create_time“ und „update_time“ werden unterstützt. Zeitfelder werden in absteigender Reihenfolge und das Namensfeld in aufsteigender Reihenfolge sortiert. Wenn nichts angegeben ist, wird standardmäßig „update_time“ verwendet. Weitere Informationen finden Sie unter https://google.aip.dev/132#ordering. |
Ausgabeschema
Antwortnachricht für EvaluationService.ListEvaluationRuns.
ListEvaluationRunsResponse
| JSON-Darstellung |
|---|
{
"evaluationRuns": [
{
object ( |
| Felder | |
|---|---|
evaluationRuns[] |
Die Liste der Bewertungsausführungen. |
nextPageToken |
Ein Token, das als |
EvaluationRun
| JSON-Darstellung |
|---|
{ "name": string, "displayName": string, "evaluationResults": [ string ], "createTime": string, "initiatedBy": string, "appVersion": string, "appVersionDisplayName": string, "changelog": string, "changelogCreateTime": string, "evaluations": [ string ], "evaluationDataset": string, "evaluationType": enum ( |
| Felder | |
|---|---|
name |
ID. Die eindeutige ID des Testlaufs. Format: |
displayName |
Optional. Benutzerdefinierter Anzeigename des Bewertungsdurchlaufs. Standard: „ |
evaluationResults[] |
Nur Ausgabe. Die Bewertungsergebnisse, die Teil dieses Laufs sind. Format: |
createTime |
Nur Ausgabe. Zeitstempel für die Erstellung des Testlaufs. Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: |
initiatedBy |
Nur Ausgabe. Der Nutzer, der den Bewertungsdurchlauf initiiert hat. |
appVersion |
Nur Ausgabe. Die zu bewertende App-Version. Format: |
appVersionDisplayName |
Nur Ausgabe. Der Anzeigename der |
changelog |
Nur Ausgabe. Das Änderungsprotokoll der App-Version, für die die Überprüfung ausgeführt wurde. Dieses Feld wird ausgefüllt, wenn der Nutzer eine Auswertung für die aktuelle Version oder den Entwurf ausführt. |
changelogCreateTime |
Nur Ausgabe. Die Erstellungszeit des Changelogs der App-Version, für die die Bewertung ausgeführt wurde. Dieses Feld wird ausgefüllt, wenn der Nutzer eine Auswertung für die aktuelle Version oder den Entwurf ausführt. Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: |
evaluations[] |
Nur Ausgabe. Die Bewertungen, die Teil dieses Laufs sind. Die Liste kann Bewertungen beider Typen enthalten. Dieses Feld und |
evaluationDataset |
Nur Ausgabe. Das Bewertungs-Dataset, mit dem dieser Lauf verknüpft ist. Dieses Feld und |
evaluationType |
Nur Ausgabe. Der Typ der Auswertungen in diesem Lauf. |
state |
Nur Ausgabe. Der Status des Bewertungsdurchlaufs. |
progress |
Nur Ausgabe. Der Fortschritt des Bewertungsdurchlaufs. |
config |
Nur Ausgabe. Die im Lauf verwendete Konfiguration. |
error |
Nur Ausgabe. Eingestellt: Verwenden Sie stattdessen „error_info“. Bei der Ausführung sind Fehler aufgetreten. |
errorInfo |
Nur Ausgabe. Fehlerinformationen für die Bewertungsausführung. |
evaluationRunSummaries |
Nur Ausgabe. Zuordnung des Bewertungsnamens zu EvaluationRunSummary. Ein Objekt, das eine Liste von |
latencyReport |
Nur Ausgabe. Latenzbericht für den Bewertungsdurchlauf. |
runCount |
Nur Ausgabe. Die Anzahl der Ausführungen der Bewertungen im Lauf. |
personaRunConfigs[] |
Nur Ausgabe. Die Konfiguration, die für den Lauf pro Persona verwendet werden soll. |
optimizationConfig |
Optional. Konfiguration für die Ausführung des Optimierungsschritts nach dem Auswertungsdurchlauf. Wenn nicht festgelegt, wird der Optimierungsschritt nicht ausgeführt. |
scheduledEvaluationRun |
Nur Ausgabe. Der Ressourcenname des geplanten Bewertungslaufs, mit dem dieser Bewertungslauf erstellt wurde. Dieses Feld wird nur festgelegt, wenn der Bewertungsdurchlauf durch einen geplanten Bewertungsdurchlauf erstellt wurde. Format: |
goldenRunMethod |
Nur Ausgabe. Die Methode, mit der die Bewertung durchgeführt wurde. |
Zeitstempel
| JSON-Darstellung |
|---|
{ "seconds": string, "nanos": integer } |
| Felder | |
|---|---|
seconds |
Stellt Sekunden der UTC-Zeit seit Unix-Epoche 1970-01-01T00:00:00Z dar. Muss einschließlich zwischen -62135596800 und 253402300799 liegen (entspricht 0001-01-01T00:00:00Z bis 9999-12-31T23:59:59Z). |
nanos |
Nicht negative Sekundenbruchteile Nanosekunden-Auflösung. Dieses Feld enthält den Nanosekundenanteil der Dauer und ist keine Alternative zu Sekunden. Negative Sekundenwerte mit Bruchteilen müssen weiterhin nicht negative Nano-Werte haben, die zeitlich vorwärts gezählt werden. Muss zwischen 0 und 999.999.999 liegen. |
Fortschritt
| JSON-Darstellung |
|---|
{ "totalCount": integer, "failedCount": integer, "errorCount": integer, "completedCount": integer, "passedCount": integer } |
| Felder | |
|---|---|
totalCount |
Nur Ausgabe. Gesamtzahl der Bewertungsergebnisse in diesem Lauf. |
failedCount |
Nur Ausgabe. Anzahl der abgeschlossenen Bewertungsergebnisse mit dem Ergebnis „FEHLER“. (EvaluationResult.execution_state ist COMPLETED und EvaluationResult.evaluation_status ist FAIL). |
errorCount |
Nur Ausgabe. Anzahl der Auswertungsergebnisse, die nicht ausgeführt werden konnten. (EvaluationResult.execution_state ist ERROR). |
completedCount |
Nur Ausgabe. Anzahl der Bewertungsdurchläufe, die erfolgreich abgeschlossen wurden. (EvaluationResult.execution_state ist COMPLETED). |
passedCount |
Nur Ausgabe. Anzahl der abgeschlossenen Bewertungsergebnisse mit dem Ergebnis „BESTANDEN“. (EvaluationResult.execution_state ist COMPLETED und EvaluationResult.evaluation_status ist PASS). |
EvaluationConfig
| JSON-Darstellung |
|---|
{ "inputAudioConfig": { object ( |
| Felder | |
|---|---|
inputAudioConfig |
Optional. Konfiguration für die Verarbeitung des Audioeingangs. |
outputAudioConfig |
Optional. Konfiguration zum Generieren der Audioausgabe. |
evaluationChannel |
Optional. Der auszuwertende Channel. |
toolCallBehaviour |
Optional. Gibt an, ob bei der Auswertung echte Tool-Aufrufe oder gefälschte Tools verwendet werden sollen. |
InputAudioConfig
| JSON-Darstellung |
|---|
{
"audioEncoding": enum ( |
| Felder | |
|---|---|
audioEncoding |
Erforderlich. Die Codierung der Audioeingabedaten. |
sampleRateHertz |
Erforderlich. Die Abtastrate (in Hertz) der Audioeingabedaten. |
noiseSuppressionLevel |
Optional. Gibt an, ob die Rauschunterdrückung für das eingegebene Audio aktiviert werden soll. Verfügbare Werte sind „low“, „moderate“, „high“ und „very_high“. |
OutputAudioConfig
| JSON-Darstellung |
|---|
{
"audioEncoding": enum ( |
| Felder | |
|---|---|
audioEncoding |
Erforderlich. Die Codierung der Audioausgabedaten. |
sampleRateHertz |
Erforderlich. Die Abtastrate (in Hertz) der Ausgabedaten. |
Status
| JSON-Darstellung |
|---|
{ "code": integer, "message": string, "details": [ { "@type": string, field1: ..., ... } ] } |
| Felder | |
|---|---|
code |
Der Statuscode, der idealerweise ein ENUM-Wert von |
message |
Eine an Entwickler gerichtete Fehlermeldung, die englischsprachig sein sollte. Jede für Nutzer sichtbare Fehlermeldung sollte lokalisiert und im Feld |
details[] |
Eine Auflistung aller Meldungen, die die Fehlerdetails enthalten. Es gibt einen gemeinsamen Satz von Nachrichtentypen, die APIs verwenden können. Ein Objekt, das Felder eines beliebigen Typs enthält. Ein zusätzliches Feld |
Beliebig
| JSON-Darstellung |
|---|
{ "typeUrl": string, "value": string } |
| Felder | |
|---|---|
typeUrl |
Gibt den Typ der serialisierten Protobuf-Nachricht mit einem URI-Verweis an, der aus einem Präfix, das mit einem Schrägstrich endet, und dem vollständig qualifizierten Typnamen besteht. Beispiel: type.googleapis.com/google.protobuf.StringValue Dieser String muss mindestens ein Das Präfix ist beliebig und Protobuf-Implementierungen sollen einfach alles bis zum letzten Alle Typ-URL-Strings müssen gültige URI-Referenzen sein. Für das Textformat gilt die zusätzliche Einschränkung, dass der Inhalt der Referenz nur aus alphanumerischen Zeichen, prozentual codierten Escape-Sequenzen und Zeichen aus der folgenden Menge bestehen darf (ohne die äußeren Backticks): Im ursprünglichen Design von |
value |
Enthält eine Protobuf-Serialisierung des Typs, der durch „type_url“ beschrieben wird. Ein base64-codierter String. |
EvaluationErrorInfo
| JSON-Darstellung |
|---|
{
"errorType": enum ( |
| Felder | |
|---|---|
errorType |
Nur Ausgabe. Der Fehlertyp. |
errorMessage |
Nur Ausgabe. Die Fehlermeldung. |
sessionId |
Nur Ausgabe. Die Sitzungs-ID für die Unterhaltung, die den Fehler verursacht hat. |
EvaluationRunSummariesEntry
| JSON-Darstellung |
|---|
{
"key": string,
"value": {
object ( |
| Felder | |
|---|---|
key |
|
value |
|
EvaluationRunSummary
| JSON-Darstellung |
|---|
{ "passedCount": integer, "failedCount": integer, "errorCount": integer } |
| Felder | |
|---|---|
passedCount |
Nur Ausgabe. Anzahl der bestandenen Ergebnisse für die zugehörige Bewertung in diesem Lauf. |
failedCount |
Nur Ausgabe. Anzahl der fehlgeschlagenen Ergebnisse für die zugehörige Bewertung in diesem Lauf. |
errorCount |
Nur Ausgabe. Anzahl der Fehlerergebnisse für die zugehörige Bewertung in diesem Lauf. |
LatencyReport
| JSON-Darstellung |
|---|
{ "toolLatencies": [ { object ( |
| Felder | |
|---|---|
toolLatencies[] |
Nur Ausgabe. Unsortierte Liste. Latenzmesswerte für jedes Tool. |
callbackLatencies[] |
Nur Ausgabe. Unsortierte Liste. Latenzmesswerte für jeden Callback. |
guardrailLatencies[] |
Nur Ausgabe. Unsortierte Liste. Latenzmesswerte für jede Schutzvorrichtung. |
llmCallLatencies[] |
Nur Ausgabe. Unsortierte Liste. Latenzmesswerte für jeden LLM-Aufruf. |
sessionCount |
Nur Ausgabe. Die Gesamtzahl der Sitzungen, die im Latenzbericht berücksichtigt werden. |
ToolLatency
| JSON-Darstellung |
|---|
{ "toolDisplayName": string, "latencyMetrics": { object ( |
| Felder | |
|---|---|
toolDisplayName |
Nur Ausgabe. Der Anzeigename des Tools |
latencyMetrics |
Nur Ausgabe. Die Latenzmesswerte für das Tool. |
Union-Feld tool_identifier. Die Kennung des Tools. Für tool_identifier ist nur einer der folgenden Werte zulässig: |
|
tool |
Nur Ausgabe. Format: |
toolsetTool |
Nur Ausgabe. Die Tool-ID des Toolsets. |
ToolsetTool
| JSON-Darstellung |
|---|
{ "toolset": string, "toolId": string } |
| Felder | |
|---|---|
toolset |
Erforderlich. Der Ressourcenname des Toolsets, aus dem dieses Tool abgeleitet wird. Format: |
toolId |
Optional. Die Tool-ID, nach der die Tools gefiltert werden sollen, um das Schema abzurufen. |
LatencyMetrics
| JSON-Darstellung |
|---|
{ "p50Latency": string, "p90Latency": string, "p99Latency": string, "callCount": integer } |
| Felder | |
|---|---|
p50Latency |
Nur Ausgabe. Die Latenz des 50. Perzentils. Die Dauer in Sekunden mit bis zu neun Nachkommastellen und am Ende mit „ |
p90Latency |
Nur Ausgabe. Die Latenz für das 90. Perzentil. Die Dauer in Sekunden mit bis zu neun Nachkommastellen und am Ende mit „ |
p99Latency |
Nur Ausgabe. Die Latenz für das 99. Perzentil. Die Dauer in Sekunden mit bis zu neun Nachkommastellen und am Ende mit „ |
callCount |
Nur Ausgabe. Gibt an, wie oft die Ressource aufgerufen wurde. |
Dauer
| JSON-Darstellung |
|---|
{ "seconds": string, "nanos": integer } |
| Felder | |
|---|---|
seconds |
Vorzeichenbehaftete Sekunden des Zeitraums. Muss zwischen -315.576.000.000 und +315.576.000.000 (einschließlich) liegen. Hinweis: Diese Grenzen werden so berechnet: 60 Sek./Min. × 60 Min./Std. × 24 Std./Tag × 365,25 Tage/Jahr × 10.000 Jahre |
nanos |
Signierte Sekundenbruchteile mit Nanosekunden-Auflösung des Zeitraums. Dauern von weniger als einer Sekunde werden mit dem Feld „0“ |
CallbackLatency
| JSON-Darstellung |
|---|
{
"stage": string,
"latencyMetrics": {
object ( |
| Felder | |
|---|---|
stage |
Nur Ausgabe. Die Phase des Rückrufs. |
latencyMetrics |
Nur Ausgabe. Die Latenzmesswerte für den Callback. |
GuardrailLatency
| JSON-Darstellung |
|---|
{
"guardrail": string,
"guardrailDisplayName": string,
"latencyMetrics": {
object ( |
| Felder | |
|---|---|
guardrail |
Nur Ausgabe. Der Name der Richtlinie. Format: |
guardrailDisplayName |
Nur Ausgabe. Der Anzeigename der Richtlinie. |
latencyMetrics |
Nur Ausgabe. Die Latenzmesswerte für die Schutzvorrichtung. |
LlmCallLatency
| JSON-Darstellung |
|---|
{
"model": string,
"latencyMetrics": {
object ( |
| Felder | |
|---|---|
model |
Nur Ausgabe. Der Name des Modells. |
latencyMetrics |
Nur Ausgabe. Die Latenzmesswerte für den LLM-Aufruf. |
PersonaRunConfig
| JSON-Darstellung |
|---|
{ "persona": string, "taskCount": integer } |
| Felder | |
|---|---|
persona |
Optional. Die Persona, die für die Bewertung verwendet werden soll. Format: |
taskCount |
Optional. Die Anzahl der Aufgaben, die für die Persona ausgeführt werden sollen. |
OptimizationConfig
| JSON-Darstellung |
|---|
{
"generateLossReport": boolean,
"assistantSession": string,
"reportSummary": string,
"shouldSuggestFix": boolean,
"status": enum ( |
| Felder | |
|---|---|
generateLossReport |
Optional. Gibt an, ob ein Verlustbericht generiert werden soll. |
assistantSession |
Nur Ausgabe. Die Assistentensitzung, die für die Optimierung auf Grundlage dieses Testlaufs verwendet werden soll. Format: |
reportSummary |
Nur Ausgabe. Die Zusammenfassung des Verlustberichts. |
shouldSuggestFix |
Nur Ausgabe. Gibt an, ob eine Korrektur für die Verluste vorgeschlagen werden soll. |
status |
Nur Ausgabe. Der Status des Optimierungslaufs. |
errorMessage |
Nur Ausgabe. Die Fehlermeldung, wenn die Optimierung fehlgeschlagen ist. |
lossReport |
Nur Ausgabe. Der generierte Verlustbericht. |
Struct
| JSON-Darstellung |
|---|
{ "fields": { string: value, ... } } |
| Felder | |
|---|---|
fields |
Ungeordnete Zuordnung von dynamisch typisierten Werten. Ein Objekt, das eine Liste von |
FieldsEntry
| JSON-Darstellung |
|---|
{ "key": string, "value": value } |
| Felder | |
|---|---|
key |
|
value |
|
Wert
| JSON-Darstellung |
|---|
{ // Union field |
| Felder | |
|---|---|
Union-Feld kind. Die Art des Werts. Für kind ist nur einer der folgenden Werte zulässig: |
|
nullValue |
Stellt einen Nullwert dar. |
numberValue |
Stellt einen Double-Wert dar. |
stringValue |
Stellt einen Stringwert dar. |
boolValue |
Stellt einen booleschen Wert dar. |
structValue |
Stellt einen strukturierten Wert dar. |
listValue |
Stellt eine wiederholte |
ListValue
| JSON-Darstellung |
|---|
{ "values": [ value ] } |
| Felder | |
|---|---|
values[] |
Wiederholtes Feld mit dynamisch typisierten Werten. |
Tool-Annotationen
Destruktiver Hinweis: ❌ | Idempotenter Hinweis: ✅ | Nur-Lese-Hinweis: ✅ | Open-World-Hinweis: ❌