Tool: get_evaluation_result
Ruft Details zum angegebenen Bewertungsergebnis ab.
Im folgenden Beispiel wird gezeigt, wie Sie mit curl das MCP-Tool get_evaluation_result aufrufen.
| Curl-Anfrage |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "get_evaluation_result", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
Eingabeschema
Anfragenachricht für EvaluationService.GetEvaluationResult.
GetEvaluationResultRequest
| JSON-Darstellung |
|---|
{ "name": string } |
| Felder | |
|---|---|
name |
Erforderlich. Der Ressourcenname des abzurufenden Bewertungsergebnisses. |
Ausgabeschema
Ein Bewertungsergebnis stellt die Ausgabe der Ausführung einer Bewertung dar.
EvaluationResult
| JSON-Darstellung |
|---|
{ "name": string, "displayName": string, "createTime": string, "evaluationStatus": enum ( |
| Felder | |
|---|---|
name |
ID. Die eindeutige Kennung des Auswertungsergebnisses. Format: |
displayName |
Erforderlich. Anzeigename des Bewertungsergebnisses. Eindeutig innerhalb einer Bewertung. Standardmäßig hat sie das folgende Format: „ |
createTime |
Nur Ausgabe. Zeitstempel für die Erstellung des Bewertungsergebnisses. Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: |
evaluationStatus |
Nur Ausgabe. Das Ergebnis der Bewertung. Wird nur ausgefüllt, wenn „execution_state“ COMPLETE ist. |
evaluationRun |
Nur Ausgabe. Der Bewertungsdurchlauf, der dieses Ergebnis erzeugt hat. Format: |
persona |
Nur Ausgabe. Die Persona, die zum Generieren der Unterhaltung für das Bewertungsergebnis verwendet wurde. |
errorInfo |
Nur Ausgabe. Fehlerinformationen für das Bewertungsergebnis. |
error |
Nur Ausgabe. Nicht mehr unterstützt: Verwenden Sie stattdessen |
initiatedBy |
Nur Ausgabe. Der Nutzer, der den Testlauf initiiert hat, der zu diesem Ergebnis geführt hat. |
appVersion |
Nur Ausgabe. Die App-Version, die zum Generieren der Konversation verwendet wurde, die zu diesem Ergebnis geführt hat. Format: |
appVersionDisplayName |
Nur Ausgabe. Der Anzeigename von |
changelog |
Nur Ausgabe. Das Änderungsprotokoll der App-Version, für die die Überprüfung ausgeführt wurde. Dieses Feld wird ausgefüllt, wenn der Nutzer eine Auswertung für die aktuelle Version oder den Entwurf ausführt. |
changelogCreateTime |
Nur Ausgabe. Die Erstellungszeit des Changelogs der App-Version, für die die Bewertung ausgeführt wurde. Dieses Feld wird ausgefüllt, wenn der Nutzer eine Auswertung für die aktuelle Version oder den Entwurf ausführt. Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: |
executionState |
Nur Ausgabe. Der Status der Ausführung des Bewertungsergebnisses. |
evaluationMetricsThresholds |
Nur Ausgabe. Die Auswertungsschwellen für das Ergebnis. |
config |
Nur Ausgabe. Die Konfiguration, die im Auswertungsdurchlauf verwendet wurde, der zu diesem Ergebnis geführt hat. |
goldenRunMethod |
Nur Ausgabe. Die Methode, mit der die Golden-Bewertung durchgeführt wurde. |
Union-Feld result. Das Ergebnis der Bewertung. Wird nur ausgefüllt, wenn der execution_state COMPLETED ist. Für result ist nur einer der folgenden Werte zulässig: |
|
goldenResult |
Nur Ausgabe. Das Ergebnis einer Golden-Evaluation. |
scenarioResult |
Nur Ausgabe. Das Ergebnis einer Szenariobewertung. |
GoldenResult
| JSON-Darstellung |
|---|
{ "turnReplayResults": [ { object ( |
| Felder | |
|---|---|
turnReplayResults[] |
Nur Ausgabe. Das Ergebnis der Ausführung jeder Runde der Golden-Unterhaltung. |
evaluationExpectationResults[] |
Nur Ausgabe. Die Ergebnisse der erwarteten Auswertung. |
TurnReplayResult
| JSON-Darstellung |
|---|
{ "conversation": string, "expectationOutcome": [ { object ( |
| Felder | |
|---|---|
conversation |
Nur Ausgabe. Die Unterhaltung, die für diesen Zug generiert wurde. |
expectationOutcome[] |
Nur Ausgabe. Das Ergebnis jeder Erwartung. |
hallucinationResult |
Nur Ausgabe. Das Ergebnis der Halluzinationsprüfung. |
toolInvocationScore |
Nur Ausgabe. Verworfen Verwenden Sie stattdessen „OverallToolInvocationResult“. |
turnLatency |
Nur Ausgabe. Dauer des Zugs. Die Dauer in Sekunden mit bis zu neun Nachkommastellen und am Ende mit „ |
toolCallLatencies[] |
Nur Ausgabe. Die Latenz jedes Tool-Aufrufs in der Runde. |
semanticSimilarityResult |
Nur Ausgabe. Das Ergebnis der Prüfung der semantischen Ähnlichkeit. |
overallToolInvocationResult |
Nur Ausgabe. Das Ergebnis der Prüfung des gesamten Tool-Aufrufs. |
errorInfo |
Nur Ausgabe. Informationen zum Fehler, der während dieses Zuges aufgetreten ist. |
spanLatencies[] |
Nur Ausgabe. Die Latenz von Spans im Turn. |
Union-Feld Für |
|
toolOrderedInvocationScore |
Nur Ausgabe. Die Gesamtbewertung für den Toolaufruf für diesen Zug. Dieser Wert gibt den Gesamtprozentsatz der Tools aus dem erwarteten Zug an, die tatsächlich in der erwarteten Reihenfolge aufgerufen wurden. |
GoldenExpectationOutcome
| JSON-Darstellung |
|---|
{ "expectation": { object ( |
| Felder | |
|---|---|
expectation |
Nur Ausgabe. Die Erwartung, die ausgewertet wurde. |
outcome |
Nur Ausgabe. Das Ergebnis der Erwartung. |
semanticSimilarityResult |
Nur Ausgabe. Das Ergebnis der Prüfung der semantischen Ähnlichkeit. |
toolInvocationResult |
Nur Ausgabe. Das Ergebnis der Überprüfung des Tool-Aufrufs. |
Union-Feld result. Das Ergebnis der Erwartung. Für result ist nur einer der folgenden Werte zulässig: |
|
observedToolCall |
Nur Ausgabe. Das Ergebnis der Erwartung für den Tool-Aufruf. |
observedToolResponse |
Nur Ausgabe. Das Ergebnis der Erwartung der Tool-Antwort. |
observedAgentResponse |
Nur Ausgabe. Das Ergebnis der Erwartung der Agentenantwort. |
observedAgentTransfer |
Nur Ausgabe. Das Ergebnis der Erwartung der Agentenübertragung. |
ToolCall
| JSON-Darstellung |
|---|
{ "id": string, "displayName": string, "args": { object }, // Union field |
| Felder | |
|---|---|
id |
Optional. Die eindeutige ID des Tool-Aufrufs. Wenn das Feld ausgefüllt ist, sollte der Client das Ausführungsergebnis mit der entsprechenden ID in |
displayName |
Nur Ausgabe. Anzeigename des Tools. |
args |
Optional. Die Eingabeparameter und ‑werte für das Tool im JSON-Objektformat. |
Union-Feld tool_identifier. Die Kennung des auszuführenden Tools. Es kann sich entweder um ein dauerhaftes Tool oder um ein Tool aus einem Toolset handeln. Für tool_identifier ist nur einer der folgenden Werte zulässig: |
|
tool |
Optional. Der Name des auszuführenden Tools. Format: |
toolsetTool |
Optional. Das Toolset-Tool, das ausgeführt werden soll. |
ToolsetTool
| JSON-Darstellung |
|---|
{ "toolset": string, "toolId": string } |
| Felder | |
|---|---|
toolset |
Erforderlich. Der Ressourcenname des Toolsets, aus dem dieses Tool abgeleitet wird. Format: |
toolId |
Optional. Die Tool-ID, nach der die Tools gefiltert werden sollen, um das Schema abzurufen. |
Struct
| JSON-Darstellung |
|---|
{ "fields": { string: value, ... } } |
| Felder | |
|---|---|
fields |
Ungeordnete Zuordnung von dynamisch typisierten Werten. Ein Objekt, das eine Liste von |
FieldsEntry
| JSON-Darstellung |
|---|
{ "key": string, "value": value } |
| Felder | |
|---|---|
key |
|
value |
|
Wert
| JSON-Darstellung |
|---|
{ // Union field |
| Felder | |
|---|---|
Union-Feld kind. Die Art des Werts. Für kind ist nur einer der folgenden Werte zulässig: |
|
nullValue |
Stellt einen Nullwert dar. |
numberValue |
Stellt einen Double-Wert dar. |
stringValue |
Stellt einen Stringwert dar. |
boolValue |
Stellt einen booleschen Wert dar. |
structValue |
Stellt einen strukturierten Wert dar. |
listValue |
Stellt eine wiederholte |
ListValue
| JSON-Darstellung |
|---|
{ "values": [ value ] } |
| Felder | |
|---|---|
values[] |
Wiederholtes Feld mit dynamisch typisierten Werten. |
ToolResponse
| JSON-Darstellung |
|---|
{ "id": string, "displayName": string, "response": { object }, // Union field |
| Felder | |
|---|---|
id |
Optional. Die übereinstimmende ID des |
displayName |
Nur Ausgabe. Anzeigename des Tools. |
response |
Erforderlich. Das Ergebnis der Tool-Ausführung im JSON-Objektformat. Verwenden Sie den Schlüssel „output“, um die Tool-Antwort anzugeben, und den Schlüssel „error“, um Fehlerdetails anzugeben (falls vorhanden). Wenn die Schlüssel „output“ und „error“ nicht angegeben sind, wird die gesamte „response“ als Ergebnis der Tool-Ausführung behandelt. |
Union-Feld tool_identifier. Die Kennung des ausgeführten Tools. Es kann sich entweder um ein dauerhaftes Tool oder um ein Tool aus einem Toolset handeln. Für tool_identifier ist nur einer der folgenden Werte zulässig: |
|
tool |
Optional. Der Name des auszuführenden Tools. Format: |
toolsetTool |
Optional. Das Toolset-Tool, das ausgeführt wurde. |
Nachricht
| JSON-Darstellung |
|---|
{
"role": string,
"chunks": [
{
object ( |
| Felder | |
|---|---|
role |
Optional. Die Rolle in der Unterhaltung, z.B. „Nutzer“ oder „Agent“. |
chunks[] |
Optional. Inhalt der Nachricht als Reihe von Chunks. |
eventTime |
Optional. Zeitstempel für das Senden oder Empfangen der Nachricht. Sollte nicht verwendet werden, wenn die Nachricht Teil einer Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: |
Chunk
| JSON-Darstellung |
|---|
{ // Union field |
| Felder | |
|---|---|
Union-Feld data. Daten in Blöcke aufteilen. Für data ist nur einer der folgenden Werte zulässig: |
|
text |
Optional. Textdaten. |
transcript |
Optional. Transkript, das mit dem Audio verknüpft ist. |
blob |
Optional. Blob-Daten. |
payload |
Optional. Benutzerdefinierte Nutzlastdaten. |
image |
Optional. Bilddaten. |
toolCall |
Optional. Anfrage zur Tool-Ausführung. |
toolResponse |
Optional. Antwort auf die Tool-Ausführung. |
agentTransfer |
Optional. Ereignis für die Übertragung von Agenten. |
updatedVariables |
Ein Struct stellt Variablen dar, die in der Unterhaltung aktualisiert wurden, wobei die Variablennamen als Schlüssel verwendet werden. |
defaultVariables |
Ein Struct stellt Standardvariablen zu Beginn der Unterhaltung dar, die nach Variablennamen sortiert sind. |
Blob
| JSON-Darstellung |
|---|
{ "mimeType": string, "data": string } |
| Felder | |
|---|---|
mimeType |
Erforderlich. Der IANA-Standard-MIME-Typ der Quelldaten. |
data |
Erforderlich. Rohbyte des Blobs. Ein base64-codierter String. |
Bild
| JSON-Darstellung |
|---|
{ "mimeType": string, "data": string } |
| Felder | |
|---|---|
mimeType |
Erforderlich. Der IANA-Standard-MIME-Typ der Quelldaten. Unterstützte Bildtypen: * image/png * image/jpeg * image/webp |
data |
Erforderlich. Rohbyte des Bildes. Ein base64-codierter String. |
AgentTransfer
| JSON-Darstellung |
|---|
{ "targetAgent": string, "displayName": string } |
| Felder | |
|---|---|
targetAgent |
Erforderlich. Der Kundenservicemitarbeiter, an den die Unterhaltung weitergeleitet wird. Der Kundenservicemitarbeiter übernimmt die Unterhaltung ab diesem Punkt. Format: |
displayName |
Nur Ausgabe. Anzeigename des KI-Agenten. |
Zeitstempel
| JSON-Darstellung |
|---|
{ "seconds": string, "nanos": integer } |
| Felder | |
|---|---|
seconds |
Stellt Sekunden der UTC-Zeit seit Unix-Epoche 1970-01-01T00:00:00Z dar. Muss einschließlich zwischen -62135596800 und 253402300799 liegen (entspricht 0001-01-01T00:00:00Z bis 9999-12-31T23:59:59Z). |
nanos |
Nicht negative Sekundenbruchteile Nanosekunden-Auflösung. Dieses Feld enthält den Nanosekundenanteil der Dauer und ist keine Alternative zu Sekunden. Negative Sekundenwerte mit Bruchteilen müssen weiterhin nicht negative Nano-Werte haben, die zeitlich vorwärts gezählt werden. Muss zwischen 0 und 999.999.999 liegen. |
GoldenExpectation
| JSON-Darstellung |
|---|
{ "note": string, // Union field |
| Felder | |
|---|---|
note |
Optional. Eine Anmerkung zu dieser Anforderung, die beim Melden hilfreich ist, wenn bestimmte Prüfungen fehlschlagen. Beispiel: "Check_Payment_Tool_Called". |
Union-Feld condition. Die tatsächlich durchzuführende Prüfung. Für condition ist nur einer der folgenden Werte zulässig: |
|
toolCall |
Optional. Prüfen Sie, ob ein bestimmtes Tool mit den Parametern aufgerufen wurde. |
toolResponse |
Optional. Prüfen Sie, ob ein bestimmtes Tool die erwartete Antwort gegeben hat. |
agentResponse |
Optional. Prüfen Sie, ob der Agent mit der richtigen Antwort reagiert hat. Die Rolle „Agent“ ist impliziert. |
agentTransfer |
Optional. Prüfen Sie, ob der Kundenservicemitarbeiter die Unterhaltung an einen anderen Kundenservicemitarbeiter weitergeleitet hat. |
updatedVariables |
Optional. Prüfen Sie, ob der Agent die Sitzungsvariablen auf die erwarteten Werte aktualisiert hat. Wird verwendet, um auch Agent-Variablen-Updates für Golden Evals zu erfassen. |
mockToolResponse |
Optional. Die Tool-Antwort auf den Mock mit den angegebenen Parametern. Alle nicht angegebenen Parameter werden vom LLM erfunden. |
SemanticSimilarityResult
| JSON-Darstellung |
|---|
{ "label": string, "explanation": string, "outcome": enum ( |
| Felder | |
|---|---|
label |
Nur Ausgabe. Das Label, das mit jeder Punktzahl verknüpft ist. Punktzahl 4: Vollständig konsistent Punktzahl 3: Weitgehend konsistent Punktzahl 2: Teilweise konsistent (geringfügige Auslassungen) Punktzahl 1: Weitgehend inkonsistent (erhebliche Auslassungen) Punktzahl 0: Völlig inkonsistent / widersprüchlich |
explanation |
Nur Ausgabe. Die Erklärung für den Wert für die semantische Ähnlichkeit. |
outcome |
Nur Ausgabe. Das Ergebnis der Prüfung der semantischen Ähnlichkeit. Dazu wird der Wert mit dem semantic_similarity_success_threshold verglichen. Wenn der Wert gleich oder höher als der Schwellenwert ist, lautet das Ergebnis „Bestanden“. Andernfalls lautet das Ergebnis FAIL. |
Union-Feld Für |
|
score |
Nur Ausgabe. Der Wert für die semantische Ähnlichkeit. Kann 0, 1, 2, 3 oder 4 sein. |
ToolInvocationResult
| JSON-Darstellung |
|---|
{ "outcome": enum ( |
| Felder | |
|---|---|
outcome |
Nur Ausgabe. Das Ergebnis der Prüfung des Tool-Aufrufs. Dies wird durch den Vergleich des parameter_correctness_score mit dem Schwellenwert bestimmt. Wenn der Wert gleich oder höher als der Schwellenwert ist, lautet das Ergebnis „Bestanden“. Andernfalls lautet das Ergebnis FAIL. |
explanation |
Nur Ausgabe. Eine Freitext-Erklärung für das Ergebnis des Tool-Aufrufs. |
Union-Feld Für |
|
parameterCorrectnessScore |
Nur Ausgabe. Die Korrektheitsbewertung für den Parameteraufruf des Tools. Dies gibt den Prozentsatz der Parameter aus dem erwarteten Tool-Aufruf an, die auch im tatsächlichen Tool-Aufruf vorhanden waren. |
HallucinationResult
| JSON-Darstellung |
|---|
{ "label": string, "explanation": string, // Union field |
| Felder | |
|---|---|
label |
Nur Ausgabe. Das Label, das mit jeder Punktzahl verknüpft ist. Punktzahl 1: Berechtigte Punktzahl 0: Nicht berechtigte Punktzahl –1: Kein Anspruch zur Bewertung |
explanation |
Nur Ausgabe. Die Erklärung für den Halluzinationswert. |
Union-Feld Für |
|
score |
Nur Ausgabe. Der Halluzinationswert. Kann -1, 0 oder 1 sein. |
Dauer
| JSON-Darstellung |
|---|
{ "seconds": string, "nanos": integer } |
| Felder | |
|---|---|
seconds |
Vorzeichenbehaftete Sekunden des Zeitraums. Muss zwischen -315.576.000.000 und +315.576.000.000 (einschließlich) liegen. Hinweis: Diese Grenzen werden so berechnet: 60 Sek./Min. × 60 Min./Std. × 24 Std./Tag × 365,25 Tage/Jahr × 10.000 Jahre |
nanos |
Signierte Sekundenbruchteile mit Nanosekunden-Auflösung des Zeitraums. Dauern von weniger als einer Sekunde werden mit dem Feld |
ToolCallLatency
| JSON-Darstellung |
|---|
{ "tool": string, "displayName": string, "startTime": string, "endTime": string, "executionLatency": string } |
| Felder | |
|---|---|
tool |
Nur Ausgabe. Der Name des ausgeführten Tools. Format: |
displayName |
Nur Ausgabe. Der Anzeigename des Tools |
startTime |
Nur Ausgabe. Der Beginn der Ausführung des Tool-Aufrufs. Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: |
endTime |
Nur Ausgabe. Die Endzeit der Ausführung des Tool-Aufrufs. Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: |
executionLatency |
Nur Ausgabe. Die Latenz der Tool-Aufrufausführung. Die Dauer in Sekunden mit bis zu neun Nachkommastellen und am Ende mit „ |
OverallToolInvocationResult
| JSON-Darstellung |
|---|
{ "outcome": enum ( |
| Felder | |
|---|---|
outcome |
Nur Ausgabe. Das Ergebnis der Prüfung des Tool-Aufrufs. Dies wird durch den Vergleich des tool_invocation_score mit dem overall_tool_invocation_correctness_threshold bestimmt. Wenn der Wert gleich oder höher als der Schwellenwert ist, lautet das Ergebnis „Bestanden“. Andernfalls lautet das Ergebnis FAIL. |
Union-Feld Für |
|
toolInvocationScore |
Die Gesamtbewertung für den Toolaufruf für diesen Turn. Dies gibt den Gesamtprozentsatz der Tools an, die tatsächlich aufgerufen wurden, im Vergleich zu den erwarteten Tools. |
EvaluationErrorInfo
| JSON-Darstellung |
|---|
{
"errorType": enum ( |
| Felder | |
|---|---|
errorType |
Nur Ausgabe. Der Fehlertyp. |
errorMessage |
Nur Ausgabe. Die Fehlermeldung. |
sessionId |
Nur Ausgabe. Die Sitzungs-ID für die Unterhaltung, die den Fehler verursacht hat. |
SpanLatency
| JSON-Darstellung |
|---|
{ "type": enum ( |
| Felder | |
|---|---|
type |
Nur Ausgabe. Der Typ des Zeitraums. |
displayName |
Nur Ausgabe. Der Anzeigename des Spans. Gilt für Tool- und Schutzmaßnahmenbereiche. |
startTime |
Nur Ausgabe. Die Startzeit des Zeitraums. Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: |
endTime |
Nur Ausgabe. Die Endzeit des Zeitraums. Verwendet RFC 3339, wobei die generierte Ausgabe immer Z-normalisiert ist und 0, 3, 6 oder 9 Nachkommastellen verwendet. Andere Offsets als „Z“ werden ebenfalls akzeptiert. Beispiele: |
executionLatency |
Nur Ausgabe. Die Latenz des Spans. Die Dauer in Sekunden mit bis zu neun Nachkommastellen und am Ende mit „ |
Union-Feld identifier. Die Kennzeichnung des jeweiligen Artikels basierend auf seinem Typ. Für identifier ist nur einer der folgenden Werte zulässig: |
|
resource |
Nur Ausgabe. Der Ressourcenname der Guardrail- oder Tool-Spans. |
toolset |
Nur Ausgabe. Die Tool-ID des Toolsets. |
model |
Nur Ausgabe. Der Name des LLM-Spans. |
callback |
Nur Ausgabe. Der Name des Zeitraums für den Nutzer-Callback. |
EvaluationExpectationResult
| JSON-Darstellung |
|---|
{
"evaluationExpectation": string,
"prompt": string,
"outcome": enum ( |
| Felder | |
|---|---|
evaluationExpectation |
Nur Ausgabe. Die Erwartung an die Bewertung. Format: |
prompt |
Nur Ausgabe. Der Prompt, der für die Auswertung verwendet wurde. |
outcome |
Nur Ausgabe. Das Ergebnis der erwarteten Bewertung. |
explanation |
Nur Ausgabe. Die Erklärung für das Ergebnis. |
ScenarioResult
| JSON-Darstellung |
|---|
{ "conversation": string, "task": string, "userFacts": [ { object ( |
| Felder | |
|---|---|
conversation |
Nur Ausgabe. Die Unterhaltung, die im Szenario generiert wurde. |
task |
Nur Ausgabe. Die Aufgabe, die beim Ausführen des Szenarios für dieses Ergebnis verwendet wurde. |
userFacts[] |
Nur Ausgabe. Die Nutzerinformationen, die vom Szenario für dieses Ergebnis verwendet wurden. |
expectationOutcomes[] |
Nur Ausgabe. Das Ergebnis jeder Erwartung. |
rubricOutcomes[] |
Nur Ausgabe. Das Ergebnis des Bewertungsschemas. |
hallucinationResult[] |
Nur Ausgabe. Das Ergebnis der Halluzinationsprüfung. Für jede Runde in der Unterhaltung wird ein Halluzinationsergebnis angezeigt. |
taskCompletionResult |
Nur Ausgabe. Das Ergebnis der Überprüfung des Aufgabenabschlusses. |
toolCallLatencies[] |
Nur Ausgabe. Die Latenz der Ausführung jedes Tool-Aufrufs in der Unterhaltung. |
userGoalSatisfactionResult |
Nur Ausgabe. Das Ergebnis der Prüfung der Nutzerzielerreichung. |
spanLatencies[] |
Nur Ausgabe. Die Latenz von Spans in der Unterhaltung. |
evaluationExpectationResults[] |
Nur Ausgabe. Die Ergebnisse der erwarteten Auswertung. |
Union-Feld Für |
|
allExpectationsSatisfied |
Nur Ausgabe. Gibt an, ob alle Erwartungen für diesen Zug erfüllt wurden. |
Union-Feld Für |
|
taskCompleted |
Nur Ausgabe. Gibt an, ob die Aufgabe in dieser Runde erledigt wurde. Dies ist eine Kombination aus allen erfüllten Erwartungen, keinen Halluzinationen und der Erfüllung des Nutzerziels. |
UserFact
| JSON-Darstellung |
|---|
{ "name": string, "value": string } |
| Felder | |
|---|---|
name |
Erforderlich. Der Name der Nutzerinformation. |
value |
Erforderlich. Der Wert der Nutzerinformation. |
ScenarioExpectationOutcome
| JSON-Darstellung |
|---|
{ "expectation": { object ( |
| Felder | |
|---|---|
expectation |
Nur Ausgabe. Die Erwartung, die ausgewertet wurde. |
outcome |
Nur Ausgabe. Das Ergebnis der ScenarioExpectation. |
Union-Feld result. Das Ergebnis der Erwartung. Für result ist nur einer der folgenden Werte zulässig: |
|
observedToolCall |
Nur Ausgabe. Der beobachtete Toolaufruf. |
observedAgentResponse |
Nur Ausgabe. Die beobachtete Antwort des Agents. |
ObservedToolCall
| JSON-Darstellung |
|---|
{ "toolCall": { object ( |
| Felder | |
|---|---|
toolCall |
Nur Ausgabe. Der beobachtete Toolaufruf. |
toolResponse |
Nur Ausgabe. Die beobachtete Tool-Antwort. |
ScenarioExpectation
| JSON-Darstellung |
|---|
{ // Union field |
| Felder | |
|---|---|
Union-Feld expectation. Die Erwartung, die durch die Simulation erzeugte Unterhaltung zu bewerten. Für expectation ist nur einer der folgenden Werte zulässig: |
|
toolExpectation |
Optional. Das zu bewertende Tool-Aufruf- und Antwortpaar. |
agentResponse |
Optional. Die zu bewertende Antwort des Agents. |
ToolExpectation
| JSON-Darstellung |
|---|
{ "expectedToolCall": { object ( |
| Felder | |
|---|---|
expectedToolCall |
Erforderlich. Der erwartete Tool-Aufruf mit den angegebenen Parametern. Alle nicht angegebenen Parameter werden vom LLM erfunden. |
mockToolResponse |
Erforderlich. Die Tool-Antwort auf den Mock mit den angegebenen Parametern. Alle nicht angegebenen Parameter werden vom LLM erfunden. |
ScenarioRubricOutcome
| JSON-Darstellung |
|---|
{ "rubric": string, "scoreExplanation": string, // Union field |
| Felder | |
|---|---|
rubric |
Nur Ausgabe. Das Bewertungsschema, das zur Bewertung des Gesprächs verwendet wurde. |
scoreExplanation |
Nur Ausgabe. Die Antwort des Bewerters auf das Bewertungsschema. |
Union-Feld Für |
|
score |
Nur Ausgabe. Die Punktzahl der Unterhaltung im Vergleich zum Bewertungsschema. |
TaskCompletionResult
| JSON-Darstellung |
|---|
{ "label": string, "explanation": string, // Union field |
| Felder | |
|---|---|
label |
Nur Ausgabe. Das Label, das mit jeder Punktzahl verknüpft ist. Punktzahl 1: Aufgabe erledigt Punktzahl 0: Aufgabe nicht erledigt Punktzahl –1: Nutzerziel nicht definiert |
explanation |
Nur Ausgabe. Die Erklärung für den Wert für die Aufgabenerledigung. |
Union-Feld Für |
|
score |
Nur Ausgabe. Die Punktzahl für die Erledigung der Aufgabe. Kann -1, 0 oder 1 sein |
UserGoalSatisfactionResult
| JSON-Darstellung |
|---|
{ "label": string, "explanation": string, // Union field |
| Felder | |
|---|---|
label |
Nur Ausgabe. Das Label, das mit jeder Punktzahl verknüpft ist. Punkt 1: User Task Satisfied Punkt 0: User Task Not Satisfied Punkt –1: User Task Unspecified |
explanation |
Nur Ausgabe. Die Erklärung für den Zufriedenheitswert der Nutzeraufgabe. |
Union-Feld Für |
|
score |
Nur Ausgabe. Der Zufriedenheitswert für die Nutzeraufgabe. Kann -1, 0 oder 1 sein. |
EvaluationPersona
| JSON-Darstellung |
|---|
{
"name": string,
"description": string,
"displayName": string,
"personality": string,
"speechConfig": {
object ( |
| Felder | |
|---|---|
name |
Erforderlich. Die eindeutige ID der Persona. Format: |
description |
Optional. Die Beschreibung der Persona. |
displayName |
Erforderlich. Der Anzeigename der Persona. Eindeutig innerhalb einer App. |
personality |
Erforderlich. Eine Anleitung für den Agenten, wie er sich bei der Bewertung verhalten soll. |
speechConfig |
Optional. Konfiguration für die Stimme der Persona (TTS-Einstellungen). |
SpeechConfig
| JSON-Darstellung |
|---|
{
"speakingRate": number,
"environment": enum ( |
| Felder | |
|---|---|
speakingRate |
Optional. Die Sprechgeschwindigkeit. 1,0 ist normal. Je niedriger der Wert, desto langsamer (z.B. 0,8) – je höher, desto schneller (z. B. 1.5). Nützlich, um zu testen, wie der Kundenservicemitarbeiter mit schnellen Sprechern umgeht. |
environment |
Optional. Die simulierte Audio-Umgebung. |
voiceId |
Optional. Die spezifische Sprach-ID/der Akzent, der verwendet werden soll. Beispiel: „en-US-Wavenet-D“ oder „en-GB-Standard-A“ |
Status
| JSON-Darstellung |
|---|
{ "code": integer, "message": string, "details": [ { "@type": string, field1: ..., ... } ] } |
| Felder | |
|---|---|
code |
Der Statuscode, der idealerweise ein ENUM-Wert von |
message |
Eine an Entwickler gerichtete Fehlermeldung, die englischsprachig sein sollte. Jede für Nutzer sichtbare Fehlermeldung sollte lokalisiert und im Feld |
details[] |
Eine Auflistung aller Meldungen, die die Fehlerdetails enthalten. Es gibt einen gemeinsamen Satz von Nachrichtentypen, die APIs verwenden können. Ein Objekt, das Felder eines beliebigen Typs enthält. Ein zusätzliches Feld |
Beliebig
| JSON-Darstellung |
|---|
{ "typeUrl": string, "value": string } |
| Felder | |
|---|---|
typeUrl |
Gibt den Typ der serialisierten Protobuf-Nachricht mit einem URI-Verweis an, der aus einem Präfix, das mit einem Schrägstrich endet, und dem vollständig qualifizierten Typnamen besteht. Beispiel: type.googleapis.com/google.protobuf.StringValue Dieser String muss mindestens ein Das Präfix ist beliebig und Protobuf-Implementierungen sollen einfach alles bis zum letzten Alle Typ-URL-Strings müssen gültige URI-Referenzen sein. Für das Textformat gilt die zusätzliche Einschränkung, dass der Inhalt der Referenz nur aus alphanumerischen Zeichen, prozentual codierten Escape-Sequenzen und Zeichen aus der folgenden Menge bestehen darf (ohne die äußeren Backticks): Im ursprünglichen Design von |
value |
Enthält eine Protobuf-Serialisierung des Typs, der durch „type_url“ beschrieben wird. Ein base64-codierter String. |
EvaluationMetricsThresholds
| JSON-Darstellung |
|---|
{ "goldenEvaluationMetricsThresholds": { object ( |
| Felder | |
|---|---|
goldenEvaluationMetricsThresholds |
Optional. Die Grenzwerte für die Golden-Bewertungsmesswerte. |
hallucinationMetricBehavior |
Optional. Nicht mehr unterstützt: Verwenden Sie stattdessen |
goldenHallucinationMetricBehavior |
Optional. Das Verhalten des Messwerts für Halluzinationen bei Golden Evaluations. |
scenarioHallucinationMetricBehavior |
Optional. Das Verhalten des Messwerts für Halluzinationen bei Szenariobewertungen. |
GoldenEvaluationMetricsThresholds
| JSON-Darstellung |
|---|
{ "turnLevelMetricsThresholds": { object ( |
| Felder | |
|---|---|
turnLevelMetricsThresholds |
Optional. Die Schwellenwerte für Messwerte auf Kampagnenebene. |
expectationLevelMetricsThresholds |
Optional. Die Grenzwerte für die Messwerte für das Erwartungsniveau. |
toolMatchingSettings |
Optional. Die Einstellungen für den Tool-Abgleich. Ein zusätzlicher Tool-Aufruf ist ein Tool-Aufruf, der in der Ausführung vorhanden ist, aber nicht mit einem Tool-Aufruf in der Golden-Erwartung übereinstimmt. |
TurnLevelMetricsThresholds
| JSON-Darstellung |
|---|
{ "semanticSimilarityChannel": enum ( |
| Felder | |
|---|---|
semanticSimilarityChannel |
Optional. Der Channel für semantische Ähnlichkeit, der für die Bewertung verwendet werden soll. |
Union-Feld Für |
|
semanticSimilaritySuccessThreshold |
Optional. Der Erfolgsschwellenwert für die semantische Ähnlichkeit. Muss eine Ganzzahl zwischen 0 und 4 sein. Der Standardwert ist >= 3. |
Union-Feld Für |
|
overallToolInvocationCorrectnessThreshold |
Optional. Der Schwellenwert für die korrekte Tool-Aufrufe insgesamt. Muss eine Gleitkommazahl zwischen 0 und 1 sein. Der Standardwert ist 1,0. |
ExpectationLevelMetricsThresholds
| JSON-Darstellung |
|---|
{ // Union field |
| Felder | |
|---|---|
Union-Feld Für |
|
toolInvocationParameterCorrectnessThreshold |
Optional. Der Erfolgsschwellenwert für die Richtigkeit einzelner Parameter für den Tool-Aufruf. Muss eine Gleitkommazahl zwischen 0 und 1 sein. Der Standardwert ist 1,0. |
ToolMatchingSettings
| JSON-Darstellung |
|---|
{
"extraToolCallBehavior": enum ( |
| Felder | |
|---|---|
extraToolCallBehavior |
Optional. Verhalten bei zusätzlichen Tool-Aufrufen. Die Standardeinstellung ist FAIL. |
EvaluationConfig
| JSON-Darstellung |
|---|
{ "inputAudioConfig": { object ( |
| Felder | |
|---|---|
inputAudioConfig |
Optional. Konfiguration für die Verarbeitung des Audioeingangs. |
outputAudioConfig |
Optional. Konfiguration zum Generieren der Audioausgabe. |
evaluationChannel |
Optional. Der auszuwertende Channel. |
toolCallBehaviour |
Optional. Gibt an, ob bei der Auswertung echte Tool-Aufrufe oder gefälschte Tools verwendet werden sollen. |
InputAudioConfig
| JSON-Darstellung |
|---|
{
"audioEncoding": enum ( |
| Felder | |
|---|---|
audioEncoding |
Erforderlich. Die Codierung der Audioeingabedaten. |
sampleRateHertz |
Erforderlich. Die Abtastrate (in Hertz) der Audioeingabedaten. |
noiseSuppressionLevel |
Optional. Gibt an, ob die Rauschunterdrückung für das eingegebene Audio aktiviert werden soll. Verfügbare Werte sind „low“, „moderate“, „high“ und „very_high“. |
OutputAudioConfig
| JSON-Darstellung |
|---|
{
"audioEncoding": enum ( |
| Felder | |
|---|---|
audioEncoding |
Erforderlich. Die Codierung der Audioausgabedaten. |
sampleRateHertz |
Erforderlich. Die Abtastrate (in Hertz) der Ausgabedaten. |
Tool-Annotationen
Destruktiver Hinweis: ❌ | Idempotenter Hinweis: ✅ | Nur-Lese-Hinweis: ✅ | Open-World-Hinweis: ❌