Strumento: create_evaluation
Crea una nuova valutazione.
Il seguente esempio mostra come utilizzare curl per richiamare lo strumento MCP create_evaluation.
| Curl Request |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "create_evaluation", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
Schema di input
Messaggio di richiesta per EvaluationService.CreateEvaluation.
CreateEvaluationRequest
| Rappresentazione JSON |
|---|
{
"parent": string,
"evaluationId": string,
"evaluation": {
object ( |
| Campi | |
|---|---|
parent |
Obbligatorio. L'app per cui creare la valutazione. Formato: |
evaluationId |
Facoltativo. L'ID da utilizzare per la valutazione, che diventerà il componente finale del nome della risorsa della valutazione. Se non viene fornito, verrà assegnato automaticamente un ID univoco per la valutazione. |
evaluation |
Obbligatorio. La valutazione da creare. |
Valutazione
| Rappresentazione JSON |
|---|
{ "name": string, "displayName": string, "description": string, "tags": [ string ], "evaluationDatasets": [ string ], "createTime": string, "createdBy": string, "updateTime": string, "lastUpdatedBy": string, "evaluationRuns": [ string ], "etag": string, "aggregatedMetrics": { object ( |
| Campi | |
|---|---|
name |
Identificatore. L'identificatore univoco di questa valutazione. Formato: |
displayName |
Obbligatorio. Nome visualizzato definito dall'utente della valutazione. Unico all'interno di un'app. |
description |
Facoltativo. Descrizione definita dall'utente della valutazione. |
tags[] |
Facoltativo. Tag definiti dall'utente per classificare la valutazione. |
evaluationDatasets[] |
Solo output. Elenco dei set di dati di valutazione a cui appartiene la valutazione. Formato: |
createTime |
Solo output. Timestamp di creazione della valutazione. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
createdBy |
Solo output. L'utente che ha creato la valutazione. |
updateTime |
Solo output. Timestamp dell'ultimo aggiornamento della valutazione. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
lastUpdatedBy |
Solo output. L'utente che ha aggiornato per ultimo la valutazione. |
evaluationRuns[] |
Solo output. Le EvaluationRuns a cui è associata questa valutazione. |
etag |
Solo output. Etag utilizzato per garantire che l'oggetto non sia stato modificato durante un'operazione di lettura, modifica e scrittura. Se l'etag è vuoto, l'aggiornamento sovrascriverà eventuali modifiche simultanee. |
aggregatedMetrics |
Solo output. Le metriche aggregate per questa valutazione in tutte le esecuzioni. |
lastCompletedResult |
Solo output. Il risultato dell'ultima valutazione. |
invalid |
Solo output. Indica se la valutazione non è valida. Ciò può accadere se una valutazione fa riferimento a uno strumento, a un insieme di strumenti o a un agente che è stato eliminato. |
lastTenResults[] |
Solo output. Gli ultimi 10 risultati della valutazione. Questo campo viene compilato solo se include_last_ten_results è impostato su true in ListEvaluationsRequest o GetEvaluationRequest. |
Campo unione inputs. Gli input per la valutazione inputs possono essere solo uno dei seguenti: |
|
golden |
Facoltativo. I passaggi dorati da valutare. |
scenario |
Facoltativo. La configurazione di uno scenario. |
Golden
| Rappresentazione JSON |
|---|
{
"turns": [
{
object ( |
| Campi | |
|---|---|
turns[] |
Obbligatorio. Le svolte d'oro necessarie per riprodurre una conversazione d'oro. |
evaluationExpectations[] |
Facoltativo. Le aspettative di valutazione in base alle quali valutare la conversazione riprodotta. Formato: |
GoldenTurn
| Rappresentazione JSON |
|---|
{ "steps": [ { object ( |
| Campi | |
|---|---|
steps[] |
Obbligatorio. I passaggi necessari per riprodurre una conversazione di riferimento. |
rootSpan |
Facoltativo. Lo span radice della svolta d'oro per l'elaborazione e la manutenzione delle informazioni audio. |
Passaggio
| Rappresentazione JSON |
|---|
{ // Union field |
| Campi | |
|---|---|
Campo unione step. Il passaggio da eseguire. step può essere solo uno dei seguenti tipi: |
|
userInput |
Facoltativo. Input utente per la conversazione. |
agentTransfer |
Facoltativo. Trasferire la conversazione a un altro agente. |
expectation |
Facoltativo. Esegue un'aspettativa nel turno corrente. |
SessionInput
| Rappresentazione JSON |
|---|
{ "willContinue": boolean, // Union field |
| Campi | |
|---|---|
willContinue |
Facoltativo. Un flag che indica se il messaggio corrente è un frammento di un input più grande nella sessione di streaming bidirezionale. Se impostato su NOTA: questo campo non si applica agli input audio e DTMF, in quanto vengono sempre elaborati automaticamente in base al segnale di fine. |
Campo unione input_type. Il tipo di input. input_type può essere solo uno dei seguenti tipi: |
|
text |
Facoltativo. Dati di testo dell'utente finale. |
dtmf |
Facoltativo. Cifre DTMF dell'utente finale. |
audio |
Facoltativo. Dati audio dell'utente finale. Una stringa con codifica in base64. |
toolResponses |
Facoltativo. Risultati dell'esecuzione per le chiamate di strumenti dal client. |
image |
Facoltativo. Dati delle immagini dell'utente finale. |
blob |
Facoltativo. Dati blob dell'utente finale. |
variables |
Facoltativo. Variabili contestuali per la sessione, identificate per nome. L'agente CES utilizzerà solo le variabili dichiarate nell'app. Le variabili non riconosciute verranno comunque inviate all'[agente Dialogflow][Agent.RemoteDialogflowAgent] come parametri di sessione aggiuntivi. |
event |
Facoltativo. Input evento. |
ToolResponses
| Rappresentazione JSON |
|---|
{
"toolResponses": [
{
object ( |
| Campi | |
|---|---|
toolResponses[] |
Facoltativo. L'elenco dei risultati dell'esecuzione dello strumento. |
ToolResponse
| Rappresentazione JSON |
|---|
{ "id": string, "displayName": string, "response": { object }, // Union field |
| Campi | |
|---|---|
id |
Facoltativo. L'ID corrispondente di |
displayName |
Solo output. Nome visualizzato dello strumento. |
response |
Obbligatorio. Il risultato dell'esecuzione dello strumento in formato oggetto JSON. Utilizza la chiave "output" per specificare la risposta dello strumento e la chiave "error" per specificare i dettagli dell'errore (se presenti). Se le chiavi "output" ed "error" non sono specificate, l'intera "response" viene trattata come risultato dell'esecuzione dello strumento. |
Campo unione tool_identifier. L'identificatore dello strumento eseguito. Può trattarsi di uno strumento persistente o di uno strumento di un insieme di strumenti. tool_identifier può essere solo uno dei seguenti tipi: |
|
tool |
Facoltativo. Il nome dello strumento da eseguire. Formato: |
toolsetTool |
Facoltativo. Lo strumento del toolset che è stato eseguito. |
ToolsetTool
| Rappresentazione JSON |
|---|
{ "toolset": string, "toolId": string } |
| Campi | |
|---|---|
toolset |
Obbligatorio. Il nome della risorsa del Toolset da cui deriva questo strumento. Formato: |
toolId |
Facoltativo. L'ID dello strumento per filtrare gli strumenti per cui recuperare lo schema. |
Struct
| Rappresentazione JSON |
|---|
{ "fields": { string: value, ... } } |
| Campi | |
|---|---|
fields |
Mappa non ordinata di valori con tipo dinamico. Un oggetto contenente un elenco di coppie |
FieldsEntry
| Rappresentazione JSON |
|---|
{ "key": string, "value": value } |
| Campi | |
|---|---|
key |
|
value |
|
Valore
| Rappresentazione JSON |
|---|
{ // Union field |
| Campi | |
|---|---|
Campo unione kind. Il tipo di valore. kind può essere solo uno dei seguenti tipi: |
|
nullValue |
Rappresenta un valore null. |
numberValue |
Rappresenta un valore double. |
stringValue |
Rappresenta un valore stringa. |
boolValue |
Rappresenta un valore booleano. |
structValue |
Rappresenta un valore strutturato. |
listValue |
Rappresenta un |
ListValue
| Rappresentazione JSON |
|---|
{ "values": [ value ] } |
| Campi | |
|---|---|
values[] |
Campo ripetuto di valori con tipo dinamico. |
Immagine
| Rappresentazione JSON |
|---|
{ "mimeType": string, "data": string } |
| Campi | |
|---|---|
mimeType |
Obbligatorio. Il tipo MIME standard IANA dei dati di origine. I tipi di immagini supportati includono: * image/png * image/jpeg * image/webp |
data |
Obbligatorio. Byte non elaborati dell'immagine. Una stringa con codifica in base64. |
Blob
| Rappresentazione JSON |
|---|
{ "mimeType": string, "data": string } |
| Campi | |
|---|---|
mimeType |
Obbligatorio. Il tipo MIME standard IANA dei dati di origine. |
data |
Obbligatorio. Byte non elaborati del blob. Una stringa con codifica in base64. |
Evento
| Rappresentazione JSON |
|---|
{ "event": string } |
| Campi | |
|---|---|
event |
Obbligatorio. Il nome dell'evento. |
AgentTransfer
| Rappresentazione JSON |
|---|
{ "targetAgent": string, "displayName": string } |
| Campi | |
|---|---|
targetAgent |
Obbligatorio. L'agente a cui viene trasferita la conversazione. L'agente gestirà la conversazione da questo punto in poi. Formato: |
displayName |
Solo output. Il nome visualizzato dell'agente. |
GoldenExpectation
| Rappresentazione JSON |
|---|
{ "note": string, // Union field |
| Campi | |
|---|---|
note |
Facoltativo. Una nota per questo requisito, utile per la generazione di report quando controlli specifici non vanno a buon fine. Ad esempio, "Check_Payment_Tool_Called". |
Campo unione condition. Il controllo effettivo da eseguire. condition può essere solo uno dei seguenti tipi: |
|
toolCall |
Facoltativo. Verifica che sia stato chiamato uno strumento specifico con i parametri. |
toolResponse |
Facoltativo. Controlla che uno strumento specifico abbia dato la risposta prevista. |
agentResponse |
Facoltativo. Controlla che l'agente abbia risposto con la risposta corretta. Il ruolo "agente" è implicito. |
agentTransfer |
Facoltativo. Controlla che l'agente abbia trasferito la conversazione a un altro agente. |
updatedVariables |
Facoltativo. Verifica che l'agente abbia aggiornato le variabili di sessione ai valori previsti. Utilizzato anche per acquisire gli aggiornamenti delle variabili dell'agente per le valutazioni di riferimento. |
mockToolResponse |
Facoltativo. La risposta dello strumento alla simulazione, con i parametri di interesse specificati. Eventuali parametri non specificati verranno inventati dal LLM. |
ToolCall
| Rappresentazione JSON |
|---|
{ "id": string, "displayName": string, "args": { object }, // Union field |
| Campi | |
|---|---|
id |
Facoltativo. L'identificatore univoco della chiamata allo strumento. Se compilato, il client deve restituire il risultato dell'esecuzione con l'ID corrispondenza in |
displayName |
Solo output. Nome visualizzato dello strumento. |
args |
Facoltativo. I parametri e i valori di input per lo strumento in formato oggetto JSON. |
Campo unione tool_identifier. L'identificatore dello strumento da eseguire. Può trattarsi di uno strumento persistente o di uno strumento di un insieme di strumenti. tool_identifier può essere solo uno dei seguenti tipi: |
|
tool |
Facoltativo. Il nome dello strumento da eseguire. Formato: |
toolsetTool |
Facoltativo. Lo strumento del toolset da eseguire. |
Messaggio
| Rappresentazione JSON |
|---|
{
"role": string,
"chunks": [
{
object ( |
| Campi | |
|---|---|
role |
Facoltativo. Il ruolo all'interno della conversazione, ad esempio utente, agente. |
chunks[] |
Facoltativo. Contenuto del messaggio come una serie di blocchi. |
eventTime |
Facoltativo. Timestamp di invio o ricezione del messaggio. Non deve essere utilizzato se il messaggio fa parte di un Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
Chunk
| Rappresentazione JSON |
|---|
{ // Union field |
| Campi | |
|---|---|
Campo unione data. Dividi i dati in blocchi. data può essere solo uno dei seguenti tipi: |
|
text |
Facoltativo. Dati di testo. |
transcript |
Facoltativo. Trascrizione associata all'audio. |
blob |
Facoltativo. Dati blob. |
payload |
Facoltativo. Dati di payload personalizzati. |
image |
Facoltativo. Dati immagine. |
toolCall |
Facoltativo. Richiesta di esecuzione dello strumento. |
toolResponse |
Facoltativo. Risposta all'esecuzione dello strumento. |
agentTransfer |
Facoltativo. Evento di trasferimento dell'agente. |
updatedVariables |
Una struct rappresenta le variabili aggiornate nella conversazione, identificate dai nomi delle variabili. |
defaultVariables |
Una struct rappresenta le variabili predefinite all'inizio della conversazione, identificate dai nomi delle variabili. |
Timestamp
| Rappresentazione JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Campi | |
|---|---|
seconds |
Rappresenta i secondi di tempo UTC a partire dall'epoca Unix 1970-01-01T00:00:00Z. Deve essere compreso tra -62135596800 e 253402300799 inclusi (corrispondenti a 0001-01-01T00:00:00Z e 9999-12-31T23:59:59Z). |
nanos |
Frazioni di secondo non negative con risoluzione in nanosecondi. Questo campo è la parte in nanosecondi della durata, non un'alternativa ai secondi. I valori negativi dei secondi con frazioni devono comunque avere valori non negativi dei nanosecondi che vengono conteggiati in avanti nel tempo. Deve essere compreso tra 0 e 999.999.999 inclusi. |
Intervallo
| Rappresentazione JSON |
|---|
{
"name": string,
"startTime": string,
"endTime": string,
"duration": string,
"attributes": {
object
},
"childSpans": [
{
object ( |
| Campi | |
|---|---|
name |
Solo output. Il nome dello span. |
startTime |
Solo output. L'ora di inizio dell'intervallo. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
endTime |
Solo output. L'ora di fine dell'intervallo. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
duration |
Solo output. La durata dell'intervallo. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
attributes |
Solo output. Attributi chiave-valore associati allo span. |
childSpans[] |
Solo output. Gli intervalli secondari nidificati in questo intervallo. |
Durata
| Rappresentazione JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Campi | |
|---|---|
seconds |
Secondi firmati dell'intervallo di tempo. Deve essere compreso tra -315.576.000.000 e +315.576.000.000 inclusi. Nota: questi limiti vengono calcolati in base a: 60 sec/min * 60 min/ora * 24 ore/giorno * 365,25 giorni/anno * 10.000 anni |
nanos |
Frazioni di secondo con segno con risoluzione in nanosecondi dell'intervallo di tempo. Le durate inferiori a un secondo sono rappresentate con un campo |
Scenario
| Rappresentazione JSON |
|---|
{ "task": string, "userFacts": [ { object ( |
| Campi | |
|---|---|
task |
Obbligatorio. L'attività da prendere di mira nello scenario. |
userFacts[] |
Facoltativo. I fatti dell'utente da utilizzare nello scenario. |
maxTurns |
Facoltativo. Il numero massimo di turni da simulare. Se non specificata, la simulazione continuerà fino al completamento dell'attività. |
rubrics[] |
Obbligatorio. I criteri di valutazione in base ai quali valutare lo scenario. |
scenarioExpectations[] |
Obbligatorio. ScenarioExpectations per valutare la conversazione prodotta dalla simulazione dell'utente. |
variableOverrides |
Facoltativo. Variabili / parametri di sessione come contesto per la sessione, con chiave in base ai nomi delle variabili. I membri di questa struttura sostituiranno tutti i valori predefiniti impostati dal sistema. Tieni presente che questi sono diversi dai fatti dell'utente, ovvero i fatti noti all'utente. Le variabili sono parametri noti all'agente, ad esempio l'MDN (numero di telefono) trasmesso dal sistema di telefonia. |
taskCompletionBehavior |
Facoltativo. Deprecato. Utilizza invece user_goal_behavior. |
userGoalBehavior |
Facoltativo. Il comportamento previsto dell'obiettivo utente. |
evaluationExpectations[] |
Facoltativo. Le aspettative di valutazione in base alle quali valutare la conversazione prodotta dalla simulazione. Formato: |
UserFact
| Rappresentazione JSON |
|---|
{ "name": string, "value": string } |
| Campi | |
|---|---|
name |
Obbligatorio. Il nome del fatto relativo all'utente. |
value |
Obbligatorio. Il valore del fatto utente. |
ScenarioExpectation
| Rappresentazione JSON |
|---|
{ // Union field |
| Campi | |
|---|---|
Campo unione expectation. L'aspettativa di valutare la conversazione prodotta dalla simulazione. expectation può essere solo uno dei seguenti tipi: |
|
toolExpectation |
Facoltativo. La coppia di chiamata allo strumento e risposta da valutare. |
agentResponse |
Facoltativo. La risposta dell'agente da valutare. |
ToolExpectation
| Rappresentazione JSON |
|---|
{ "expectedToolCall": { object ( |
| Campi | |
|---|---|
expectedToolCall |
Obbligatorio. La chiamata allo strumento prevista, con i parametri di interesse specificati. Eventuali parametri non specificati verranno inventati dal LLM. |
mockToolResponse |
Obbligatorio. La risposta dello strumento alla simulazione, con i parametri di interesse specificati. Eventuali parametri non specificati verranno inventati dal LLM. |
AggregatedMetrics
| Rappresentazione JSON |
|---|
{
"metricsByAppVersion": [
{
object ( |
| Campi | |
|---|---|
metricsByAppVersion[] |
Solo output. Metriche aggregate, raggruppate per ID versione dell'app. |
MetricsByAppVersion
| Rappresentazione JSON |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| Campi | |
|---|---|
appVersionId |
Solo output. L'ID versione dell'app. |
toolMetrics[] |
Solo output. Metriche per ogni strumento all'interno di questa versione dell'app. |
semanticSimilarityMetrics[] |
Solo output. Metriche per la somiglianza semantica all'interno di questa versione dell'app. |
hallucinationMetrics[] |
Solo output. Metriche per le allucinazioni all'interno di questa versione dell'app. |
toolCallLatencyMetrics[] |
Solo output. Metriche per la latenza delle chiamate agli strumenti all'interno di questa versione dell'app. |
turnLatencyMetrics[] |
Solo output. Metriche per la latenza del turno all'interno di questa versione dell'app. |
passCount |
Solo output. Il numero di volte in cui la valutazione è stata superata. |
failCount |
Solo output. Il numero di volte in cui la valutazione non è riuscita. |
metricsByTurn[] |
Solo output. Metriche aggregate per turno all'interno di questa versione dell'app. |
ToolMetrics
| Rappresentazione JSON |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| Campi | |
|---|---|
tool |
Solo output. Il nome dello strumento. |
passCount |
Solo output. Il numero di volte in cui lo strumento è stato superato. |
failCount |
Solo output. Il numero di volte in cui lo strumento non ha funzionato. |
SemanticSimilarityMetrics
| Rappresentazione JSON |
|---|
{ "score": number } |
| Campi | |
|---|---|
score |
Solo output. Il punteggio medio di similarità semantica (0-4). |
HallucinationMetrics
| Rappresentazione JSON |
|---|
{ "score": number } |
| Campi | |
|---|---|
score |
Solo output. Il punteggio medio di allucinazione (da 0 a 1). |
ToolCallLatencyMetrics
| Rappresentazione JSON |
|---|
{ "tool": string, "averageLatency": string } |
| Campi | |
|---|---|
tool |
Solo output. Il nome dello strumento. |
averageLatency |
Solo output. La latenza media delle chiamate agli strumenti. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
TurnLatencyMetrics
| Rappresentazione JSON |
|---|
{ "averageLatency": string } |
| Campi | |
|---|---|
averageLatency |
Solo output. La latenza media dei turni. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
MetricsByTurn
| Rappresentazione JSON |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| Campi | |
|---|---|
turnIndex |
Solo output. L'indice del turno (a base 0). |
toolMetrics[] |
Solo output. Metriche per ogni strumento all'interno di questo turno. |
semanticSimilarityMetrics[] |
Solo output. Metriche per la similarità semantica all'interno di questo turno. |
hallucinationMetrics[] |
Solo output. Metriche per le allucinazioni in questo turno. |
toolCallLatencyMetrics[] |
Solo output. Metriche per la latenza della chiamata allo strumento all'interno di questo turno. |
turnLatencyMetrics[] |
Solo output. Metriche per la latenza del turno all'interno di questo turno. |
EvaluationResult
| Rappresentazione JSON |
|---|
{ "name": string, "displayName": string, "createTime": string, "evaluationStatus": enum ( |
| Campi | |
|---|---|
name |
Identificatore. L'identificatore univoco del risultato della valutazione. Formato: |
displayName |
Obbligatorio. Nome visualizzato del risultato della valutazione. Unico all'interno di una valutazione. Per impostazione predefinita, ha il seguente formato: " |
createTime |
Solo output. Timestamp di creazione del risultato della valutazione. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
evaluationStatus |
Solo output. L'esito della valutazione. Compilato solo se execution_state è COMPLETE. |
evaluationRun |
Solo output. L'esecuzione della valutazione che ha prodotto questo risultato. Formato: |
persona |
Solo output. La persona utilizzata per generare la conversazione per il risultato della valutazione. |
errorInfo |
Solo output. Informazioni sull'errore per il risultato della valutazione. |
error |
Solo output. Deprecato: utilizza |
initiatedBy |
Solo output. L'utente che ha avviato l'esecuzione della valutazione che ha generato questo risultato. |
appVersion |
Solo output. La versione dell'app utilizzata per generare la conversazione che ha prodotto questo risultato. Formato: |
appVersionDisplayName |
Solo output. Il nome visualizzato del |
changelog |
Solo output. Il log delle modifiche della versione dell'app su cui è stata eseguita la valutazione. Questo campo viene compilato se l'utente esegue la valutazione sull'ultima versione/bozza. |
changelogCreateTime |
Solo output. L'ora di creazione del log delle modifiche della versione dell'app su cui è stata eseguita la valutazione. Questo campo viene compilato se l'utente esegue la valutazione sull'ultima versione/bozza. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
executionState |
Solo output. Lo stato di esecuzione del risultato della valutazione. |
evaluationMetricsThresholds |
Solo output. Le soglie di valutazione per il risultato. |
config |
Solo output. La configurazione utilizzata nell'esecuzione della valutazione che ha generato questo risultato. |
goldenRunMethod |
Solo output. Il metodo utilizzato per eseguire la valutazione golden. |
Campo unione result. Il risultato della valutazione. Viene compilato solo quando execution_state è COMPLETED. result può essere solo uno dei seguenti tipi: |
|
goldenResult |
Solo output. Il risultato di una valutazione di riferimento. |
scenarioResult |
Solo output. Il risultato di una valutazione dello scenario. |
GoldenResult
| Rappresentazione JSON |
|---|
{ "turnReplayResults": [ { object ( |
| Campi | |
|---|---|
turnReplayResults[] |
Solo output. Il risultato dell'esecuzione di ogni turno della conversazione di riferimento. |
evaluationExpectationResults[] |
Solo output. I risultati delle aspettative di valutazione. |
TurnReplayResult
| Rappresentazione JSON |
|---|
{ "conversation": string, "expectationOutcome": [ { object ( |
| Campi | |
|---|---|
conversation |
Solo output. La conversazione generata per questo turno. |
expectationOutcome[] |
Solo output. Il risultato di ogni aspettativa. |
hallucinationResult |
Solo output. Il risultato del controllo delle allucinazioni. |
toolInvocationScore |
Solo output. Deprecato. Utilizza OverallToolInvocationResult. |
turnLatency |
Solo output. Durata del turno. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
toolCallLatencies[] |
Solo output. La latenza di ogni chiamata allo strumento nel turno. |
semanticSimilarityResult |
Solo output. Il risultato del controllo della somiglianza semantica. |
overallToolInvocationResult |
Solo output. Il risultato del controllo complessivo dell'invocazione dello strumento. |
errorInfo |
Solo output. Informazioni sull'errore che si è verificato durante questo turno. |
spanLatencies[] |
Solo output. La latenza degli span nel turno. |
Campo unione
|
|
toolOrderedInvocationScore |
Solo output. Il punteggio complessivo di chiamata dello strumento ordinato per questo turno. Indica la percentuale complessiva di strumenti della svolta prevista che sono stati effettivamente richiamati nell'ordine previsto. |
GoldenExpectationOutcome
| Rappresentazione JSON |
|---|
{ "expectation": { object ( |
| Campi | |
|---|---|
expectation |
Solo output. L'aspettativa che è stata valutata. |
outcome |
Solo output. Il risultato dell'aspettativa. |
semanticSimilarityResult |
Solo output. Il risultato del controllo della somiglianza semantica. |
toolInvocationResult |
Solo output. Il risultato del controllo di chiamata dello strumento. |
Campo unione result. Il risultato dell'aspettativa. result può essere solo uno dei seguenti tipi: |
|
observedToolCall |
Solo output. Il risultato dell'aspettativa di chiamata allo strumento. |
observedToolResponse |
Solo output. Il risultato dell'aspettativa di risposta dello strumento. |
observedAgentResponse |
Solo output. Il risultato dell'aspettativa di risposta dell'agente. |
observedAgentTransfer |
Solo output. Il risultato dell'aspettativa di trasferimento dell'agente. |
SemanticSimilarityResult
| Rappresentazione JSON |
|---|
{ "label": string, "explanation": string, "outcome": enum ( |
| Campi | |
|---|---|
label |
Solo output. L'etichetta associata a ogni punteggio. Punteggio 4: completamente coerente Punteggio 3: per lo più coerente Punteggio 2: parzialmente coerente (omissioni minori) Punteggio 1: in gran parte incoerente (omissioni maggiori) Punteggio 0: completamente incoerente / contraddittorio |
explanation |
Solo output. La spiegazione del punteggio di similarità semantica. |
outcome |
Solo output. Il risultato del controllo della somiglianza semantica. Questo valore viene determinato confrontando il punteggio con semantic_similarity_success_threshold. Se il punteggio è uguale o superiore alla soglia, il risultato sarà PASS. In caso contrario, il risultato sarà FAIL. |
Campo unione
|
|
score |
Solo output. Il punteggio di similarità semantica. Può essere 0, 1, 2, 3 o 4. |
ToolInvocationResult
| Rappresentazione JSON |
|---|
{ "outcome": enum ( |
| Campi | |
|---|---|
outcome |
Solo output. Il risultato del controllo di chiamata dello strumento. Questo valore viene determinato confrontando il punteggio di correttezza dei parametri con la soglia. Se il punteggio è uguale o superiore alla soglia, il risultato sarà PASS. In caso contrario, il risultato sarà FAIL. |
explanation |
Solo output. Una spiegazione in formato libero del risultato dell'invocazione dello strumento. |
Campo unione
|
|
parameterCorrectnessScore |
Solo output. Il punteggio di correttezza del parametro di chiamata dello strumento. Indica la percentuale di parametri della chiamata allo strumento prevista che erano presenti anche nella chiamata allo strumento effettiva. |
HallucinationResult
| Rappresentazione JSON |
|---|
{ "label": string, "explanation": string, // Union field |
| Campi | |
|---|---|
label |
Solo output. L'etichetta associata a ogni punteggio. Punteggio 1: Punteggio giustificato Punteggio 0: Punteggio non giustificato Punteggio -1: Nessuna rivendicazione da valutare |
explanation |
Solo output. La spiegazione del punteggio di allucinazione. |
Campo unione
|
|
score |
Solo output. Il punteggio di allucinazione. Può essere -1, 0, 1. |
ToolCallLatency
| Rappresentazione JSON |
|---|
{ "tool": string, "displayName": string, "startTime": string, "endTime": string, "executionLatency": string } |
| Campi | |
|---|---|
tool |
Solo output. Il nome dello strumento eseguito. Formato: |
displayName |
Solo output. Il nome visualizzato dello strumento. |
startTime |
Solo output. L'ora di inizio dell'esecuzione della chiamata allo strumento. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
endTime |
Solo output. L'ora di fine dell'esecuzione della chiamata allo strumento. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
executionLatency |
Solo output. La latenza dell'esecuzione della chiamata di funzione. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
OverallToolInvocationResult
| Rappresentazione JSON |
|---|
{ "outcome": enum ( |
| Campi | |
|---|---|
outcome |
Solo output. Il risultato del controllo di chiamata dello strumento. Questo valore viene determinato confrontando tool_invocation_score con overall_tool_invocation_correctness_threshold. Se il punteggio è uguale o superiore alla soglia, il risultato sarà PASS. In caso contrario, il risultato sarà FAIL. |
Campo unione
|
|
toolInvocationScore |
Il punteggio complessivo di invocazione dello strumento per questo turno. Indica la percentuale complessiva di strumenti dell'azione prevista che sono stati effettivamente richiamati. |
EvaluationErrorInfo
| Rappresentazione JSON |
|---|
{
"errorType": enum ( |
| Campi | |
|---|---|
errorType |
Solo output. Il tipo di errore. |
errorMessage |
Solo output. Il messaggio di errore. |
sessionId |
Solo output. L'ID sessione della conversazione che ha causato l'errore. |
SpanLatency
| Rappresentazione JSON |
|---|
{ "type": enum ( |
| Campi | |
|---|---|
type |
Solo output. Il tipo di intervallo. |
displayName |
Solo output. Il nome visualizzato dello span. Valido per gli intervalli di strumenti e sistemi di protezione. |
startTime |
Solo output. L'ora di inizio dell'intervallo. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
endTime |
Solo output. L'ora di fine dell'intervallo. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
executionLatency |
Solo output. La latenza dello span. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
Campo unione identifier. L'identificatore dell'elemento specifico in base al suo tipo. identifier può essere solo uno dei seguenti tipi: |
|
resource |
Solo output. Il nome della risorsa degli intervalli di guardrail o strumenti. |
toolset |
Solo output. L'identificatore dello strumento del toolset. |
model |
Solo output. Il nome dello span LLM. |
callback |
Solo output. Il nome dello span di callback dell'utente. |
EvaluationExpectationResult
| Rappresentazione JSON |
|---|
{
"evaluationExpectation": string,
"prompt": string,
"outcome": enum ( |
| Campi | |
|---|---|
evaluationExpectation |
Solo output. L'aspettativa di valutazione. Formato: |
prompt |
Solo output. Il prompt utilizzato per la valutazione. |
outcome |
Solo output. Il risultato dell'aspettativa di valutazione. |
explanation |
Solo output. La spiegazione del risultato. |
ScenarioResult
| Rappresentazione JSON |
|---|
{ "conversation": string, "task": string, "userFacts": [ { object ( |
| Campi | |
|---|---|
conversation |
Solo output. La conversazione generata nello scenario. |
task |
Solo output. L'attività utilizzata durante l'esecuzione dello scenario per questo risultato. |
userFacts[] |
Solo output. I fatti sull'utente utilizzati dallo scenario per questo risultato. |
expectationOutcomes[] |
Solo output. Il risultato di ogni aspettativa. |
rubricOutcomes[] |
Solo output. Il risultato della griglia. |
hallucinationResult[] |
Solo output. Il risultato del controllo delle allucinazioni. Verrà visualizzato un risultato di allucinazione per ogni turno della conversazione. |
taskCompletionResult |
Solo output. Il risultato del controllo del completamento dell'attività. |
toolCallLatencies[] |
Solo output. La latenza di ogni esecuzione della chiamata allo strumento nella conversazione. |
userGoalSatisfactionResult |
Solo output. Il risultato del controllo della soddisfazione dell'obiettivo dell'utente. |
spanLatencies[] |
Solo output. La latenza degli intervalli nella conversazione. |
evaluationExpectationResults[] |
Solo output. I risultati delle aspettative di valutazione. |
Campo unione
|
|
allExpectationsSatisfied |
Solo output. Indica se tutte le aspettative sono state soddisfatte per questo turno. |
Campo unione
|
|
taskCompleted |
Solo output. Se l'attività è stata completata per questo turno. Si tratta di un insieme di tutte le aspettative soddisfatte, senza allucinazioni e con la soddisfazione dell'obiettivo dell'utente. |
ScenarioExpectationOutcome
| Rappresentazione JSON |
|---|
{ "expectation": { object ( |
| Campi | |
|---|---|
expectation |
Solo output. L'aspettativa che è stata valutata. |
outcome |
Solo output. Il risultato di ScenarioExpectation. |
Campo unione result. Il risultato dell'aspettativa. result può essere solo uno dei seguenti tipi: |
|
observedToolCall |
Solo output. La chiamata allo strumento osservata. |
observedAgentResponse |
Solo output. La risposta dell'agente osservata. |
ObservedToolCall
| Rappresentazione JSON |
|---|
{ "toolCall": { object ( |
| Campi | |
|---|---|
toolCall |
Solo output. La chiamata allo strumento osservata. |
toolResponse |
Solo output. La risposta dello strumento osservata. |
ScenarioRubricOutcome
| Rappresentazione JSON |
|---|
{ "rubric": string, "scoreExplanation": string, // Union field |
| Campi | |
|---|---|
rubric |
Solo output. La rubrica utilizzata per valutare la conversazione. |
scoreExplanation |
Solo output. La risposta del valutatore alla rubrica. |
Campo unione
|
|
score |
Solo output. Il punteggio della conversazione rispetto alla griglia. |
TaskCompletionResult
| Rappresentazione JSON |
|---|
{ "label": string, "explanation": string, // Union field |
| Campi | |
|---|---|
label |
Solo output. L'etichetta associata a ogni punteggio. Punteggio 1: attività completata. Punteggio 0: attività non completata. Punteggio -1: obiettivo utente non definito. |
explanation |
Solo output. La spiegazione del punteggio di completamento dell'attività. |
Campo unione
|
|
score |
Solo output. Il punteggio di completamento dell'attività. Può essere -1, 0, 1 |
UserGoalSatisfactionResult
| Rappresentazione JSON |
|---|
{ "label": string, "explanation": string, // Union field |
| Campi | |
|---|---|
label |
Solo output. L'etichetta associata a ogni punteggio. Punteggio 1: attività utente soddisfatta Punteggio 0: attività utente non soddisfatta Punteggio -1: attività utente non specificata |
explanation |
Solo output. La spiegazione del punteggio di soddisfazione dell'attività dell'utente. |
Campo unione
|
|
score |
Solo output. Il punteggio di soddisfazione dell'attività dell'utente. Può essere -1, 0, 1. |
EvaluationPersona
| Rappresentazione JSON |
|---|
{
"name": string,
"description": string,
"displayName": string,
"personality": string,
"speechConfig": {
object ( |
| Campi | |
|---|---|
name |
Obbligatorio. L'identificatore univoco della persona. Formato: |
description |
Facoltativo. La descrizione della persona. |
displayName |
Obbligatorio. Il nome visualizzato della persona. Unico all'interno di un'app. |
personality |
Obbligatorio. Un'istruzione per l'agente su come comportarsi nella valutazione. |
speechConfig |
Facoltativo. Configurazione del suono della persona (impostazioni TTS). |
SpeechConfig
| Rappresentazione JSON |
|---|
{
"speakingRate": number,
"environment": enum ( |
| Campi | |
|---|---|
speakingRate |
Facoltativo. La velocità del parlato. 1,0 è il valore normale. I valori più bassi sono più lenti (ad es. 0,8), più alto è il valore, più veloce è la risposta (ad es. 1.5). Utile per testare il modo in cui l'agente gestisce le persone che parlano velocemente. |
environment |
Facoltativo. L'ambiente audio simulato. |
voiceId |
Facoltativo. L'identificatore/l'accento della voce specifico da utilizzare. Esempio: "en-US-Wavenet-D" o "en-GB-Standard-A" |
Stato
| Rappresentazione JSON |
|---|
{ "code": integer, "message": string, "details": [ { "@type": string, field1: ..., ... } ] } |
| Campi | |
|---|---|
code |
Il codice di stato, che deve essere un valore enum di |
message |
Un messaggio di errore rivolto agli sviluppatori, che deve essere in inglese. Qualsiasi messaggio di errore rivolto agli utenti deve essere localizzato e inviato nel campo |
details[] |
Un elenco di messaggi contenenti i dettagli dell'errore. Esiste un insieme comune di tipi di messaggi da utilizzare per le API. Un oggetto contenente campi di tipo arbitrario. Un campo aggiuntivo |
Qualsiasi
| Rappresentazione JSON |
|---|
{ "typeUrl": string, "value": string } |
| Campi | |
|---|---|
typeUrl |
Identifica il tipo di messaggio Protobuf serializzato con un riferimento URI costituito da un prefisso che termina con una barra e il nome del tipo completo. Esempio: type.googleapis.com/google.protobuf.StringValue Questa stringa deve contenere almeno un carattere Il prefisso è arbitrario e le implementazioni di Protobuf devono semplicemente rimuovere tutto fino all'ultimo Tutte le stringhe URL di tipo devono essere riferimenti URI validi con l'ulteriore limitazione (per il formato di testo) che il contenuto del riferimento deve essere costituito solo da caratteri alfanumerici, sequenze di escape codificate in percentuale e caratteri del seguente insieme (esclusi i backtick esterni): Nella progettazione originale di |
value |
Contiene una serializzazione Protobuf del tipo descritto da type_url. Una stringa con codifica in base64. |
EvaluationMetricsThresholds
| Rappresentazione JSON |
|---|
{ "goldenEvaluationMetricsThresholds": { object ( |
| Campi | |
|---|---|
goldenEvaluationMetricsThresholds |
Facoltativo. Le soglie delle metriche di valutazione secondo regole d'oro. |
hallucinationMetricBehavior |
Facoltativo. Deprecato: utilizza |
goldenHallucinationMetricBehavior |
Facoltativo. Il comportamento della metrica delle allucinazioni per le valutazioni di riferimento. |
scenarioHallucinationMetricBehavior |
Facoltativo. Il comportamento della metrica di allucinazione per le valutazioni degli scenari. |
GoldenEvaluationMetricsThresholds
| Rappresentazione JSON |
|---|
{ "turnLevelMetricsThresholds": { object ( |
| Campi | |
|---|---|
turnLevelMetricsThresholds |
Facoltativo. Le soglie delle metriche a livello di turno. |
expectationLevelMetricsThresholds |
Facoltativo. Le soglie delle metriche del livello di aspettativa. |
toolMatchingSettings |
Facoltativo. Le impostazioni di corrispondenza dello strumento. Una chiamata allo strumento aggiuntiva è una chiamata allo strumento presente nell'esecuzione, ma che non corrisponde ad alcuna chiamata allo strumento nell'aspettativa di riferimento. |
TurnLevelMetricsThresholds
| Rappresentazione JSON |
|---|
{ "semanticSimilarityChannel": enum ( |
| Campi | |
|---|---|
semanticSimilarityChannel |
Facoltativo. Il canale di similarità semantica da utilizzare per la valutazione. |
Campo unione
|
|
semanticSimilaritySuccessThreshold |
Facoltativo. La soglia di successo per la somiglianza semantica. Deve essere un numero intero compreso tra 0 e 4. Il valore predefinito è >= 3. |
Campo unione
|
|
overallToolInvocationCorrectnessThreshold |
Facoltativo. La soglia di successo per la correttezza complessiva dell'invocazione dello strumento. Deve essere un numero in virgola mobile compreso tra 0 e 1. Il valore predefinito è 1.0. |
ExpectationLevelMetricsThresholds
| Rappresentazione JSON |
|---|
{ // Union field |
| Campi | |
|---|---|
Campo unione
|
|
toolInvocationParameterCorrectnessThreshold |
Facoltativo. La soglia di successo per la correttezza dei parametri di chiamata dei singoli strumenti. Deve essere un numero in virgola mobile compreso tra 0 e 1. Il valore predefinito è 1.0. |
ToolMatchingSettings
| Rappresentazione JSON |
|---|
{
"extraToolCallBehavior": enum ( |
| Campi | |
|---|---|
extraToolCallBehavior |
Facoltativo. Comportamento per le chiamate di strumenti aggiuntivi. Il valore predefinito è FAIL. |
EvaluationConfig
| Rappresentazione JSON |
|---|
{ "inputAudioConfig": { object ( |
| Campi | |
|---|---|
inputAudioConfig |
Facoltativo. Configurazione per l'elaborazione dell'audio di input. |
outputAudioConfig |
Facoltativo. Configurazione per la generazione dell'audio di output. |
evaluationChannel |
Facoltativo. Il canale da valutare. |
toolCallBehaviour |
Facoltativo. Specifica se la valutazione deve utilizzare chiamate di strumenti reali o fittizi. |
InputAudioConfig
| Rappresentazione JSON |
|---|
{
"audioEncoding": enum ( |
| Campi | |
|---|---|
audioEncoding |
Obbligatorio. La codifica dei dati audio di input. |
sampleRateHertz |
Obbligatorio. La frequenza di campionamento (in hertz) dei dati audio di input. |
noiseSuppressionLevel |
Facoltativo. Indica se attivare la soppressione del rumore nell'audio di input. I valori disponibili sono "low", "moderate", "high", "very_high". |
OutputAudioConfig
| Rappresentazione JSON |
|---|
{
"audioEncoding": enum ( |
| Campi | |
|---|---|
audioEncoding |
Obbligatorio. La codifica dei dati audio di output. |
sampleRateHertz |
Obbligatorio. La frequenza di campionamento (in hertz) dei dati audio di output. |
Schema di output
Una valutazione rappresenta tutte le informazioni necessarie per simulare e valutare un agente.
Valutazione
| Rappresentazione JSON |
|---|
{ "name": string, "displayName": string, "description": string, "tags": [ string ], "evaluationDatasets": [ string ], "createTime": string, "createdBy": string, "updateTime": string, "lastUpdatedBy": string, "evaluationRuns": [ string ], "etag": string, "aggregatedMetrics": { object ( |
| Campi | |
|---|---|
name |
Identificatore. L'identificatore univoco di questa valutazione. Formato: |
displayName |
Obbligatorio. Nome visualizzato definito dall'utente della valutazione. Unico all'interno di un'app. |
description |
Facoltativo. Descrizione definita dall'utente della valutazione. |
tags[] |
Facoltativo. Tag definiti dall'utente per classificare la valutazione. |
evaluationDatasets[] |
Solo output. Elenco dei set di dati di valutazione a cui appartiene la valutazione. Formato: |
createTime |
Solo output. Timestamp di creazione della valutazione. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
createdBy |
Solo output. L'utente che ha creato la valutazione. |
updateTime |
Solo output. Timestamp dell'ultimo aggiornamento della valutazione. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
lastUpdatedBy |
Solo output. L'utente che ha aggiornato per ultimo la valutazione. |
evaluationRuns[] |
Solo output. Le EvaluationRuns a cui è associata questa valutazione. |
etag |
Solo output. Etag utilizzato per garantire che l'oggetto non sia stato modificato durante un'operazione di lettura, modifica e scrittura. Se l'etag è vuoto, l'aggiornamento sovrascriverà eventuali modifiche simultanee. |
aggregatedMetrics |
Solo output. Le metriche aggregate per questa valutazione in tutte le esecuzioni. |
lastCompletedResult |
Solo output. Il risultato dell'ultima valutazione. |
invalid |
Solo output. Indica se la valutazione non è valida. Ciò può accadere se una valutazione fa riferimento a uno strumento, a un insieme di strumenti o a un agente che è stato eliminato. |
lastTenResults[] |
Solo output. Gli ultimi 10 risultati della valutazione. Questo campo viene compilato solo se include_last_ten_results è impostato su true in ListEvaluationsRequest o GetEvaluationRequest. |
Campo unione inputs. Gli input per la valutazione inputs possono essere solo uno dei seguenti: |
|
golden |
Facoltativo. I passaggi dorati da valutare. |
scenario |
Facoltativo. La configurazione di uno scenario. |
Golden
| Rappresentazione JSON |
|---|
{
"turns": [
{
object ( |
| Campi | |
|---|---|
turns[] |
Obbligatorio. Le svolte d'oro necessarie per riprodurre una conversazione d'oro. |
evaluationExpectations[] |
Facoltativo. Le aspettative di valutazione in base alle quali valutare la conversazione riprodotta. Formato: |
GoldenTurn
| Rappresentazione JSON |
|---|
{ "steps": [ { object ( |
| Campi | |
|---|---|
steps[] |
Obbligatorio. I passaggi necessari per riprodurre una conversazione di riferimento. |
rootSpan |
Facoltativo. Lo span radice della svolta d'oro per l'elaborazione e la manutenzione delle informazioni audio. |
Passaggio
| Rappresentazione JSON |
|---|
{ // Union field |
| Campi | |
|---|---|
Campo unione step. Il passaggio da eseguire. step può essere solo uno dei seguenti tipi: |
|
userInput |
Facoltativo. Input utente per la conversazione. |
agentTransfer |
Facoltativo. Trasferire la conversazione a un altro agente. |
expectation |
Facoltativo. Esegue un'aspettativa nel turno corrente. |
SessionInput
| Rappresentazione JSON |
|---|
{ "willContinue": boolean, // Union field |
| Campi | |
|---|---|
willContinue |
Facoltativo. Un flag che indica se il messaggio corrente è un frammento di un input più grande nella sessione di streaming bidirezionale. Se impostato su NOTA: questo campo non si applica agli input audio e DTMF, in quanto vengono sempre elaborati automaticamente in base al segnale di fine. |
Campo unione input_type. Il tipo di input. input_type può essere solo uno dei seguenti tipi: |
|
text |
Facoltativo. Dati di testo dell'utente finale. |
dtmf |
Facoltativo. Cifre DTMF dell'utente finale. |
audio |
Facoltativo. Dati audio dell'utente finale. Una stringa con codifica in base64. |
toolResponses |
Facoltativo. Risultati dell'esecuzione per le chiamate di strumenti dal client. |
image |
Facoltativo. Dati delle immagini dell'utente finale. |
blob |
Facoltativo. Dati blob dell'utente finale. |
variables |
Facoltativo. Variabili contestuali per la sessione, identificate per nome. L'agente CES utilizzerà solo le variabili dichiarate nell'app. Le variabili non riconosciute verranno comunque inviate all'[agente Dialogflow][Agent.RemoteDialogflowAgent] come parametri di sessione aggiuntivi. |
event |
Facoltativo. Input evento. |
ToolResponses
| Rappresentazione JSON |
|---|
{
"toolResponses": [
{
object ( |
| Campi | |
|---|---|
toolResponses[] |
Facoltativo. L'elenco dei risultati dell'esecuzione dello strumento. |
ToolResponse
| Rappresentazione JSON |
|---|
{ "id": string, "displayName": string, "response": { object }, // Union field |
| Campi | |
|---|---|
id |
Facoltativo. L'ID corrispondente di |
displayName |
Solo output. Nome visualizzato dello strumento. |
response |
Obbligatorio. Il risultato dell'esecuzione dello strumento in formato oggetto JSON. Utilizza la chiave "output" per specificare la risposta dello strumento e la chiave "error" per specificare i dettagli dell'errore (se presenti). Se le chiavi "output" ed "error" non sono specificate, l'intera "response" viene trattata come risultato dell'esecuzione dello strumento. |
Campo unione tool_identifier. L'identificatore dello strumento eseguito. Può trattarsi di uno strumento persistente o di uno strumento di un insieme di strumenti. tool_identifier può essere solo uno dei seguenti tipi: |
|
tool |
Facoltativo. Il nome dello strumento da eseguire. Formato: |
toolsetTool |
Facoltativo. Lo strumento del toolset che è stato eseguito. |
ToolsetTool
| Rappresentazione JSON |
|---|
{ "toolset": string, "toolId": string } |
| Campi | |
|---|---|
toolset |
Obbligatorio. Il nome della risorsa del Toolset da cui deriva questo strumento. Formato: |
toolId |
Facoltativo. L'ID dello strumento per filtrare gli strumenti per cui recuperare lo schema. |
Struct
| Rappresentazione JSON |
|---|
{ "fields": { string: value, ... } } |
| Campi | |
|---|---|
fields |
Mappa non ordinata di valori con tipo dinamico. Un oggetto contenente un elenco di coppie |
FieldsEntry
| Rappresentazione JSON |
|---|
{ "key": string, "value": value } |
| Campi | |
|---|---|
key |
|
value |
|
Valore
| Rappresentazione JSON |
|---|
{ // Union field |
| Campi | |
|---|---|
Campo unione kind. Il tipo di valore. kind può essere solo uno dei seguenti tipi: |
|
nullValue |
Rappresenta un valore null. |
numberValue |
Rappresenta un valore double. |
stringValue |
Rappresenta un valore stringa. |
boolValue |
Rappresenta un valore booleano. |
structValue |
Rappresenta un valore strutturato. |
listValue |
Rappresenta un |
ListValue
| Rappresentazione JSON |
|---|
{ "values": [ value ] } |
| Campi | |
|---|---|
values[] |
Campo ripetuto di valori con tipo dinamico. |
Immagine
| Rappresentazione JSON |
|---|
{ "mimeType": string, "data": string } |
| Campi | |
|---|---|
mimeType |
Obbligatorio. Il tipo MIME standard IANA dei dati di origine. I tipi di immagini supportati includono: * image/png * image/jpeg * image/webp |
data |
Obbligatorio. Byte non elaborati dell'immagine. Una stringa con codifica in base64. |
Blob
| Rappresentazione JSON |
|---|
{ "mimeType": string, "data": string } |
| Campi | |
|---|---|
mimeType |
Obbligatorio. Il tipo MIME standard IANA dei dati di origine. |
data |
Obbligatorio. Byte non elaborati del blob. Una stringa con codifica in base64. |
Evento
| Rappresentazione JSON |
|---|
{ "event": string } |
| Campi | |
|---|---|
event |
Obbligatorio. Il nome dell'evento. |
AgentTransfer
| Rappresentazione JSON |
|---|
{ "targetAgent": string, "displayName": string } |
| Campi | |
|---|---|
targetAgent |
Obbligatorio. L'agente a cui viene trasferita la conversazione. L'agente gestirà la conversazione da questo punto in poi. Formato: |
displayName |
Solo output. Il nome visualizzato dell'agente. |
GoldenExpectation
| Rappresentazione JSON |
|---|
{ "note": string, // Union field |
| Campi | |
|---|---|
note |
Facoltativo. Una nota per questo requisito, utile per la generazione di report quando controlli specifici non vanno a buon fine. Ad esempio, "Check_Payment_Tool_Called". |
Campo unione condition. Il controllo effettivo da eseguire. condition può essere solo uno dei seguenti tipi: |
|
toolCall |
Facoltativo. Verifica che sia stato chiamato uno strumento specifico con i parametri. |
toolResponse |
Facoltativo. Controlla che uno strumento specifico abbia dato la risposta prevista. |
agentResponse |
Facoltativo. Controlla che l'agente abbia risposto con la risposta corretta. Il ruolo "agente" è implicito. |
agentTransfer |
Facoltativo. Controlla che l'agente abbia trasferito la conversazione a un altro agente. |
updatedVariables |
Facoltativo. Verifica che l'agente abbia aggiornato le variabili di sessione ai valori previsti. Utilizzato anche per acquisire gli aggiornamenti delle variabili dell'agente per le valutazioni di riferimento. |
mockToolResponse |
Facoltativo. La risposta dello strumento alla simulazione, con i parametri di interesse specificati. Eventuali parametri non specificati verranno inventati dal LLM. |
ToolCall
| Rappresentazione JSON |
|---|
{ "id": string, "displayName": string, "args": { object }, // Union field |
| Campi | |
|---|---|
id |
Facoltativo. L'identificatore univoco della chiamata allo strumento. Se compilato, il client deve restituire il risultato dell'esecuzione con l'ID corrispondenza in |
displayName |
Solo output. Nome visualizzato dello strumento. |
args |
Facoltativo. I parametri e i valori di input per lo strumento in formato oggetto JSON. |
Campo unione tool_identifier. L'identificatore dello strumento da eseguire. Può trattarsi di uno strumento persistente o di uno strumento di un insieme di strumenti. tool_identifier può essere solo uno dei seguenti tipi: |
|
tool |
Facoltativo. Il nome dello strumento da eseguire. Formato: |
toolsetTool |
Facoltativo. Lo strumento del toolset da eseguire. |
Messaggio
| Rappresentazione JSON |
|---|
{
"role": string,
"chunks": [
{
object ( |
| Campi | |
|---|---|
role |
Facoltativo. Il ruolo all'interno della conversazione, ad esempio utente, agente. |
chunks[] |
Facoltativo. Contenuto del messaggio come una serie di blocchi. |
eventTime |
Facoltativo. Timestamp di invio o ricezione del messaggio. Non deve essere utilizzato se il messaggio fa parte di un Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
Chunk
| Rappresentazione JSON |
|---|
{ // Union field |
| Campi | |
|---|---|
Campo unione data. Dividi i dati in blocchi. data può essere solo uno dei seguenti tipi: |
|
text |
Facoltativo. Dati di testo. |
transcript |
Facoltativo. Trascrizione associata all'audio. |
blob |
Facoltativo. Dati blob. |
payload |
Facoltativo. Dati di payload personalizzati. |
image |
Facoltativo. Dati immagine. |
toolCall |
Facoltativo. Richiesta di esecuzione dello strumento. |
toolResponse |
Facoltativo. Risposta all'esecuzione dello strumento. |
agentTransfer |
Facoltativo. Evento di trasferimento dell'agente. |
updatedVariables |
Una struct rappresenta le variabili aggiornate nella conversazione, identificate dai nomi delle variabili. |
defaultVariables |
Una struct rappresenta le variabili predefinite all'inizio della conversazione, identificate dai nomi delle variabili. |
Timestamp
| Rappresentazione JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Campi | |
|---|---|
seconds |
Rappresenta i secondi di tempo UTC a partire dall'epoca Unix 1970-01-01T00:00:00Z. Deve essere compreso tra -62135596800 e 253402300799 inclusi (corrispondenti a 0001-01-01T00:00:00Z e 9999-12-31T23:59:59Z). |
nanos |
Frazioni di secondo non negative con risoluzione in nanosecondi. Questo campo è la parte in nanosecondi della durata, non un'alternativa ai secondi. I valori negativi dei secondi con frazioni devono comunque avere valori non negativi dei nanosecondi che vengono conteggiati in avanti nel tempo. Deve essere compreso tra 0 e 999.999.999 inclusi. |
Intervallo
| Rappresentazione JSON |
|---|
{
"name": string,
"startTime": string,
"endTime": string,
"duration": string,
"attributes": {
object
},
"childSpans": [
{
object ( |
| Campi | |
|---|---|
name |
Solo output. Il nome dello span. |
startTime |
Solo output. L'ora di inizio dell'intervallo. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
endTime |
Solo output. L'ora di fine dell'intervallo. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
duration |
Solo output. La durata dell'intervallo. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
attributes |
Solo output. Attributi chiave-valore associati allo span. |
childSpans[] |
Solo output. Gli intervalli secondari nidificati in questo intervallo. |
Durata
| Rappresentazione JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Campi | |
|---|---|
seconds |
Secondi firmati dell'intervallo di tempo. Deve essere compreso tra -315.576.000.000 e +315.576.000.000 inclusi. Nota: questi limiti vengono calcolati in base a: 60 sec/min * 60 min/ora * 24 ore/giorno * 365,25 giorni/anno * 10.000 anni |
nanos |
Frazioni di secondo con segno con risoluzione in nanosecondi dell'intervallo di tempo. Le durate inferiori a un secondo sono rappresentate con un campo |
Scenario
| Rappresentazione JSON |
|---|
{ "task": string, "userFacts": [ { object ( |
| Campi | |
|---|---|
task |
Obbligatorio. L'attività da prendere di mira nello scenario. |
userFacts[] |
Facoltativo. I fatti dell'utente da utilizzare nello scenario. |
maxTurns |
Facoltativo. Il numero massimo di turni da simulare. Se non specificata, la simulazione continuerà fino al completamento dell'attività. |
rubrics[] |
Obbligatorio. I criteri di valutazione in base ai quali valutare lo scenario. |
scenarioExpectations[] |
Obbligatorio. ScenarioExpectations per valutare la conversazione prodotta dalla simulazione dell'utente. |
variableOverrides |
Facoltativo. Variabili / parametri di sessione come contesto per la sessione, con chiave in base ai nomi delle variabili. I membri di questa struttura sostituiranno tutti i valori predefiniti impostati dal sistema. Tieni presente che questi sono diversi dai fatti dell'utente, ovvero i fatti noti all'utente. Le variabili sono parametri noti all'agente, ad esempio l'MDN (numero di telefono) trasmesso dal sistema di telefonia. |
taskCompletionBehavior |
Facoltativo. Deprecato. Utilizza invece user_goal_behavior. |
userGoalBehavior |
Facoltativo. Il comportamento previsto dell'obiettivo utente. |
evaluationExpectations[] |
Facoltativo. Le aspettative di valutazione in base alle quali valutare la conversazione prodotta dalla simulazione. Formato: |
UserFact
| Rappresentazione JSON |
|---|
{ "name": string, "value": string } |
| Campi | |
|---|---|
name |
Obbligatorio. Il nome del fatto relativo all'utente. |
value |
Obbligatorio. Il valore del fatto utente. |
ScenarioExpectation
| Rappresentazione JSON |
|---|
{ // Union field |
| Campi | |
|---|---|
Campo unione expectation. L'aspettativa di valutare la conversazione prodotta dalla simulazione. expectation può essere solo uno dei seguenti tipi: |
|
toolExpectation |
Facoltativo. La coppia di chiamata allo strumento e risposta da valutare. |
agentResponse |
Facoltativo. La risposta dell'agente da valutare. |
ToolExpectation
| Rappresentazione JSON |
|---|
{ "expectedToolCall": { object ( |
| Campi | |
|---|---|
expectedToolCall |
Obbligatorio. La chiamata allo strumento prevista, con i parametri di interesse specificati. Eventuali parametri non specificati verranno inventati dal LLM. |
mockToolResponse |
Obbligatorio. La risposta dello strumento alla simulazione, con i parametri di interesse specificati. Eventuali parametri non specificati verranno inventati dal LLM. |
AggregatedMetrics
| Rappresentazione JSON |
|---|
{
"metricsByAppVersion": [
{
object ( |
| Campi | |
|---|---|
metricsByAppVersion[] |
Solo output. Metriche aggregate, raggruppate per ID versione dell'app. |
MetricsByAppVersion
| Rappresentazione JSON |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| Campi | |
|---|---|
appVersionId |
Solo output. L'ID versione dell'app. |
toolMetrics[] |
Solo output. Metriche per ogni strumento all'interno di questa versione dell'app. |
semanticSimilarityMetrics[] |
Solo output. Metriche per la somiglianza semantica all'interno di questa versione dell'app. |
hallucinationMetrics[] |
Solo output. Metriche per le allucinazioni all'interno di questa versione dell'app. |
toolCallLatencyMetrics[] |
Solo output. Metriche per la latenza delle chiamate agli strumenti all'interno di questa versione dell'app. |
turnLatencyMetrics[] |
Solo output. Metriche per la latenza del turno all'interno di questa versione dell'app. |
passCount |
Solo output. Il numero di volte in cui la valutazione è stata superata. |
failCount |
Solo output. Il numero di volte in cui la valutazione non è riuscita. |
metricsByTurn[] |
Solo output. Metriche aggregate per turno all'interno di questa versione dell'app. |
ToolMetrics
| Rappresentazione JSON |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| Campi | |
|---|---|
tool |
Solo output. Il nome dello strumento. |
passCount |
Solo output. Il numero di volte in cui lo strumento è stato superato. |
failCount |
Solo output. Il numero di volte in cui lo strumento non ha funzionato. |
SemanticSimilarityMetrics
| Rappresentazione JSON |
|---|
{ "score": number } |
| Campi | |
|---|---|
score |
Solo output. Il punteggio medio di similarità semantica (0-4). |
HallucinationMetrics
| Rappresentazione JSON |
|---|
{ "score": number } |
| Campi | |
|---|---|
score |
Solo output. Il punteggio medio di allucinazione (da 0 a 1). |
ToolCallLatencyMetrics
| Rappresentazione JSON |
|---|
{ "tool": string, "averageLatency": string } |
| Campi | |
|---|---|
tool |
Solo output. Il nome dello strumento. |
averageLatency |
Solo output. La latenza media delle chiamate agli strumenti. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
TurnLatencyMetrics
| Rappresentazione JSON |
|---|
{ "averageLatency": string } |
| Campi | |
|---|---|
averageLatency |
Solo output. La latenza media dei turni. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
MetricsByTurn
| Rappresentazione JSON |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| Campi | |
|---|---|
turnIndex |
Solo output. L'indice del turno (a base 0). |
toolMetrics[] |
Solo output. Metriche per ogni strumento all'interno di questo turno. |
semanticSimilarityMetrics[] |
Solo output. Metriche per la similarità semantica all'interno di questo turno. |
hallucinationMetrics[] |
Solo output. Metriche per le allucinazioni in questo turno. |
toolCallLatencyMetrics[] |
Solo output. Metriche per la latenza della chiamata allo strumento all'interno di questo turno. |
turnLatencyMetrics[] |
Solo output. Metriche per la latenza del turno all'interno di questo turno. |
EvaluationResult
| Rappresentazione JSON |
|---|
{ "name": string, "displayName": string, "createTime": string, "evaluationStatus": enum ( |
| Campi | |
|---|---|
name |
Identificatore. L'identificatore univoco del risultato della valutazione. Formato: |
displayName |
Obbligatorio. Nome visualizzato del risultato della valutazione. Unico all'interno di una valutazione. Per impostazione predefinita, ha il seguente formato: " |
createTime |
Solo output. Timestamp di creazione del risultato della valutazione. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
evaluationStatus |
Solo output. L'esito della valutazione. Compilato solo se execution_state è COMPLETE. |
evaluationRun |
Solo output. L'esecuzione della valutazione che ha prodotto questo risultato. Formato: |
persona |
Solo output. La persona utilizzata per generare la conversazione per il risultato della valutazione. |
errorInfo |
Solo output. Informazioni sull'errore per il risultato della valutazione. |
error |
Solo output. Deprecato: utilizza |
initiatedBy |
Solo output. L'utente che ha avviato l'esecuzione della valutazione che ha generato questo risultato. |
appVersion |
Solo output. La versione dell'app utilizzata per generare la conversazione che ha prodotto questo risultato. Formato: |
appVersionDisplayName |
Solo output. Il nome visualizzato del |
changelog |
Solo output. Il log delle modifiche della versione dell'app su cui è stata eseguita la valutazione. Questo campo viene compilato se l'utente esegue la valutazione sull'ultima versione/bozza. |
changelogCreateTime |
Solo output. L'ora di creazione del log delle modifiche della versione dell'app su cui è stata eseguita la valutazione. Questo campo viene compilato se l'utente esegue la valutazione sull'ultima versione/bozza. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
executionState |
Solo output. Lo stato di esecuzione del risultato della valutazione. |
evaluationMetricsThresholds |
Solo output. Le soglie di valutazione per il risultato. |
config |
Solo output. La configurazione utilizzata nell'esecuzione della valutazione che ha generato questo risultato. |
goldenRunMethod |
Solo output. Il metodo utilizzato per eseguire la valutazione golden. |
Campo unione result. Il risultato della valutazione. Viene compilato solo quando execution_state è COMPLETED. result può essere solo uno dei seguenti tipi: |
|
goldenResult |
Solo output. Il risultato di una valutazione di riferimento. |
scenarioResult |
Solo output. Il risultato di una valutazione dello scenario. |
GoldenResult
| Rappresentazione JSON |
|---|
{ "turnReplayResults": [ { object ( |
| Campi | |
|---|---|
turnReplayResults[] |
Solo output. Il risultato dell'esecuzione di ogni turno della conversazione di riferimento. |
evaluationExpectationResults[] |
Solo output. I risultati delle aspettative di valutazione. |
TurnReplayResult
| Rappresentazione JSON |
|---|
{ "conversation": string, "expectationOutcome": [ { object ( |
| Campi | |
|---|---|
conversation |
Solo output. La conversazione generata per questo turno. |
expectationOutcome[] |
Solo output. Il risultato di ogni aspettativa. |
hallucinationResult |
Solo output. Il risultato del controllo delle allucinazioni. |
toolInvocationScore |
Solo output. Deprecato. Utilizza OverallToolInvocationResult. |
turnLatency |
Solo output. Durata del turno. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
toolCallLatencies[] |
Solo output. La latenza di ogni chiamata allo strumento nel turno. |
semanticSimilarityResult |
Solo output. Il risultato del controllo della somiglianza semantica. |
overallToolInvocationResult |
Solo output. Il risultato del controllo complessivo dell'invocazione dello strumento. |
errorInfo |
Solo output. Informazioni sull'errore che si è verificato durante questo turno. |
spanLatencies[] |
Solo output. La latenza degli span nel turno. |
Campo unione
|
|
toolOrderedInvocationScore |
Solo output. Il punteggio complessivo di chiamata dello strumento ordinato per questo turno. Indica la percentuale complessiva di strumenti della svolta prevista che sono stati effettivamente richiamati nell'ordine previsto. |
GoldenExpectationOutcome
| Rappresentazione JSON |
|---|
{ "expectation": { object ( |
| Campi | |
|---|---|
expectation |
Solo output. L'aspettativa che è stata valutata. |
outcome |
Solo output. Il risultato dell'aspettativa. |
semanticSimilarityResult |
Solo output. Il risultato del controllo della somiglianza semantica. |
toolInvocationResult |
Solo output. Il risultato del controllo di chiamata dello strumento. |
Campo unione result. Il risultato dell'aspettativa. result può essere solo uno dei seguenti tipi: |
|
observedToolCall |
Solo output. Il risultato dell'aspettativa di chiamata allo strumento. |
observedToolResponse |
Solo output. Il risultato dell'aspettativa di risposta dello strumento. |
observedAgentResponse |
Solo output. Il risultato dell'aspettativa di risposta dell'agente. |
observedAgentTransfer |
Solo output. Il risultato dell'aspettativa di trasferimento dell'agente. |
SemanticSimilarityResult
| Rappresentazione JSON |
|---|
{ "label": string, "explanation": string, "outcome": enum ( |
| Campi | |
|---|---|
label |
Solo output. L'etichetta associata a ogni punteggio. Punteggio 4: completamente coerente Punteggio 3: per lo più coerente Punteggio 2: parzialmente coerente (omissioni minori) Punteggio 1: in gran parte incoerente (omissioni maggiori) Punteggio 0: completamente incoerente / contraddittorio |
explanation |
Solo output. La spiegazione del punteggio di similarità semantica. |
outcome |
Solo output. Il risultato del controllo della somiglianza semantica. Questo valore viene determinato confrontando il punteggio con semantic_similarity_success_threshold. Se il punteggio è uguale o superiore alla soglia, il risultato sarà PASS. In caso contrario, il risultato sarà FAIL. |
Campo unione
|
|
score |
Solo output. Il punteggio di similarità semantica. Può essere 0, 1, 2, 3 o 4. |
ToolInvocationResult
| Rappresentazione JSON |
|---|
{ "outcome": enum ( |
| Campi | |
|---|---|
outcome |
Solo output. Il risultato del controllo di chiamata dello strumento. Questo valore viene determinato confrontando il punteggio di correttezza dei parametri con la soglia. Se il punteggio è uguale o superiore alla soglia, il risultato sarà PASS. In caso contrario, il risultato sarà FAIL. |
explanation |
Solo output. Una spiegazione in formato libero del risultato dell'invocazione dello strumento. |
Campo unione
|
|
parameterCorrectnessScore |
Solo output. Il punteggio di correttezza del parametro di chiamata dello strumento. Indica la percentuale di parametri della chiamata allo strumento prevista che erano presenti anche nella chiamata allo strumento effettiva. |
HallucinationResult
| Rappresentazione JSON |
|---|
{ "label": string, "explanation": string, // Union field |
| Campi | |
|---|---|
label |
Solo output. L'etichetta associata a ogni punteggio. Punteggio 1: Punteggio giustificato Punteggio 0: Punteggio non giustificato Punteggio -1: Nessuna rivendicazione da valutare |
explanation |
Solo output. La spiegazione del punteggio di allucinazione. |
Campo unione
|
|
score |
Solo output. Il punteggio di allucinazione. Può essere -1, 0, 1. |
ToolCallLatency
| Rappresentazione JSON |
|---|
{ "tool": string, "displayName": string, "startTime": string, "endTime": string, "executionLatency": string } |
| Campi | |
|---|---|
tool |
Solo output. Il nome dello strumento eseguito. Formato: |
displayName |
Solo output. Il nome visualizzato dello strumento. |
startTime |
Solo output. L'ora di inizio dell'esecuzione della chiamata allo strumento. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
endTime |
Solo output. L'ora di fine dell'esecuzione della chiamata allo strumento. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
executionLatency |
Solo output. La latenza dell'esecuzione della chiamata di funzione. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
OverallToolInvocationResult
| Rappresentazione JSON |
|---|
{ "outcome": enum ( |
| Campi | |
|---|---|
outcome |
Solo output. Il risultato del controllo di chiamata dello strumento. Questo valore viene determinato confrontando tool_invocation_score con overall_tool_invocation_correctness_threshold. Se il punteggio è uguale o superiore alla soglia, il risultato sarà PASS. In caso contrario, il risultato sarà FAIL. |
Campo unione
|
|
toolInvocationScore |
Il punteggio complessivo di invocazione dello strumento per questo turno. Indica la percentuale complessiva di strumenti dell'azione prevista che sono stati effettivamente richiamati. |
EvaluationErrorInfo
| Rappresentazione JSON |
|---|
{
"errorType": enum ( |
| Campi | |
|---|---|
errorType |
Solo output. Il tipo di errore. |
errorMessage |
Solo output. Il messaggio di errore. |
sessionId |
Solo output. L'ID sessione della conversazione che ha causato l'errore. |
SpanLatency
| Rappresentazione JSON |
|---|
{ "type": enum ( |
| Campi | |
|---|---|
type |
Solo output. Il tipo di intervallo. |
displayName |
Solo output. Il nome visualizzato dello span. Valido per gli intervalli di strumenti e sistemi di protezione. |
startTime |
Solo output. L'ora di inizio dell'intervallo. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
endTime |
Solo output. L'ora di fine dell'intervallo. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
executionLatency |
Solo output. La latenza dello span. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
Campo unione identifier. L'identificatore dell'elemento specifico in base al suo tipo. identifier può essere solo uno dei seguenti tipi: |
|
resource |
Solo output. Il nome della risorsa degli intervalli di guardrail o strumenti. |
toolset |
Solo output. L'identificatore dello strumento del toolset. |
model |
Solo output. Il nome dello span LLM. |
callback |
Solo output. Il nome dello span di callback dell'utente. |
EvaluationExpectationResult
| Rappresentazione JSON |
|---|
{
"evaluationExpectation": string,
"prompt": string,
"outcome": enum ( |
| Campi | |
|---|---|
evaluationExpectation |
Solo output. L'aspettativa di valutazione. Formato: |
prompt |
Solo output. Il prompt utilizzato per la valutazione. |
outcome |
Solo output. Il risultato dell'aspettativa di valutazione. |
explanation |
Solo output. La spiegazione del risultato. |
ScenarioResult
| Rappresentazione JSON |
|---|
{ "conversation": string, "task": string, "userFacts": [ { object ( |
| Campi | |
|---|---|
conversation |
Solo output. La conversazione generata nello scenario. |
task |
Solo output. L'attività utilizzata durante l'esecuzione dello scenario per questo risultato. |
userFacts[] |
Solo output. I fatti sull'utente utilizzati dallo scenario per questo risultato. |
expectationOutcomes[] |
Solo output. Il risultato di ogni aspettativa. |
rubricOutcomes[] |
Solo output. Il risultato della griglia. |
hallucinationResult[] |
Solo output. Il risultato del controllo delle allucinazioni. Verrà visualizzato un risultato di allucinazione per ogni turno della conversazione. |
taskCompletionResult |
Solo output. Il risultato del controllo del completamento dell'attività. |
toolCallLatencies[] |
Solo output. La latenza di ogni esecuzione della chiamata allo strumento nella conversazione. |
userGoalSatisfactionResult |
Solo output. Il risultato del controllo della soddisfazione dell'obiettivo dell'utente. |
spanLatencies[] |
Solo output. La latenza degli intervalli nella conversazione. |
evaluationExpectationResults[] |
Solo output. I risultati delle aspettative di valutazione. |
Campo unione
|
|
allExpectationsSatisfied |
Solo output. Indica se tutte le aspettative sono state soddisfatte per questo turno. |
Campo unione
|
|
taskCompleted |
Solo output. Se l'attività è stata completata per questo turno. Si tratta di un insieme di tutte le aspettative soddisfatte, senza allucinazioni e con la soddisfazione dell'obiettivo dell'utente. |
ScenarioExpectationOutcome
| Rappresentazione JSON |
|---|
{ "expectation": { object ( |
| Campi | |
|---|---|
expectation |
Solo output. L'aspettativa che è stata valutata. |
outcome |
Solo output. Il risultato di ScenarioExpectation. |
Campo unione result. Il risultato dell'aspettativa. result può essere solo uno dei seguenti tipi: |
|
observedToolCall |
Solo output. La chiamata allo strumento osservata. |
observedAgentResponse |
Solo output. La risposta dell'agente osservata. |
ObservedToolCall
| Rappresentazione JSON |
|---|
{ "toolCall": { object ( |
| Campi | |
|---|---|
toolCall |
Solo output. La chiamata allo strumento osservata. |
toolResponse |
Solo output. La risposta dello strumento osservata. |
ScenarioRubricOutcome
| Rappresentazione JSON |
|---|
{ "rubric": string, "scoreExplanation": string, // Union field |
| Campi | |
|---|---|
rubric |
Solo output. La rubrica utilizzata per valutare la conversazione. |
scoreExplanation |
Solo output. La risposta del valutatore alla rubrica. |
Campo unione
|
|
score |
Solo output. Il punteggio della conversazione rispetto alla griglia. |
TaskCompletionResult
| Rappresentazione JSON |
|---|
{ "label": string, "explanation": string, // Union field |
| Campi | |
|---|---|
label |
Solo output. L'etichetta associata a ogni punteggio. Punteggio 1: attività completata. Punteggio 0: attività non completata. Punteggio -1: obiettivo utente non definito. |
explanation |
Solo output. La spiegazione del punteggio di completamento dell'attività. |
Campo unione
|
|
score |
Solo output. Il punteggio di completamento dell'attività. Può essere -1, 0, 1 |
UserGoalSatisfactionResult
| Rappresentazione JSON |
|---|
{ "label": string, "explanation": string, // Union field |
| Campi | |
|---|---|
label |
Solo output. L'etichetta associata a ogni punteggio. Punteggio 1: attività utente soddisfatta Punteggio 0: attività utente non soddisfatta Punteggio -1: attività utente non specificata |
explanation |
Solo output. La spiegazione del punteggio di soddisfazione dell'attività dell'utente. |
Campo unione
|
|
score |
Solo output. Il punteggio di soddisfazione dell'attività dell'utente. Può essere -1, 0, 1. |
EvaluationPersona
| Rappresentazione JSON |
|---|
{
"name": string,
"description": string,
"displayName": string,
"personality": string,
"speechConfig": {
object ( |
| Campi | |
|---|---|
name |
Obbligatorio. L'identificatore univoco della persona. Formato: |
description |
Facoltativo. La descrizione della persona. |
displayName |
Obbligatorio. Il nome visualizzato della persona. Unico all'interno di un'app. |
personality |
Obbligatorio. Un'istruzione per l'agente su come comportarsi nella valutazione. |
speechConfig |
Facoltativo. Configurazione del suono della persona (impostazioni TTS). |
SpeechConfig
| Rappresentazione JSON |
|---|
{
"speakingRate": number,
"environment": enum ( |
| Campi | |
|---|---|
speakingRate |
Facoltativo. La velocità del parlato. 1,0 è il valore normale. I valori più bassi sono più lenti (ad es. 0,8), più alto è il valore, più veloce è la risposta (ad es. 1.5). Utile per testare il modo in cui l'agente gestisce le persone che parlano velocemente. |
environment |
Facoltativo. L'ambiente audio simulato. |
voiceId |
Facoltativo. L'identificatore/l'accento della voce specifico da utilizzare. Esempio: "en-US-Wavenet-D" o "en-GB-Standard-A" |
Stato
| Rappresentazione JSON |
|---|
{ "code": integer, "message": string, "details": [ { "@type": string, field1: ..., ... } ] } |
| Campi | |
|---|---|
code |
Il codice di stato, che deve essere un valore enum di |
message |
Un messaggio di errore rivolto agli sviluppatori, che deve essere in inglese. Qualsiasi messaggio di errore rivolto agli utenti deve essere localizzato e inviato nel campo |
details[] |
Un elenco di messaggi contenenti i dettagli dell'errore. Esiste un insieme comune di tipi di messaggi da utilizzare per le API. Un oggetto contenente campi di tipo arbitrario. Un campo aggiuntivo |
Qualsiasi
| Rappresentazione JSON |
|---|
{ "typeUrl": string, "value": string } |
| Campi | |
|---|---|
typeUrl |
Identifica il tipo di messaggio Protobuf serializzato con un riferimento URI costituito da un prefisso che termina con una barra e il nome del tipo completo. Esempio: type.googleapis.com/google.protobuf.StringValue Questa stringa deve contenere almeno un carattere Il prefisso è arbitrario e le implementazioni di Protobuf devono semplicemente rimuovere tutto fino all'ultimo Tutte le stringhe URL di tipo devono essere riferimenti URI validi con l'ulteriore limitazione (per il formato di testo) che il contenuto del riferimento deve essere costituito solo da caratteri alfanumerici, sequenze di escape codificate in percentuale e caratteri del seguente insieme (esclusi i backtick esterni): Nella progettazione originale di |
value |
Contiene una serializzazione Protobuf del tipo descritto da type_url. Una stringa con codifica in base64. |
EvaluationMetricsThresholds
| Rappresentazione JSON |
|---|
{ "goldenEvaluationMetricsThresholds": { object ( |
| Campi | |
|---|---|
goldenEvaluationMetricsThresholds |
Facoltativo. Le soglie delle metriche di valutazione secondo regole d'oro. |
hallucinationMetricBehavior |
Facoltativo. Deprecato: utilizza |
goldenHallucinationMetricBehavior |
Facoltativo. Il comportamento della metrica delle allucinazioni per le valutazioni di riferimento. |
scenarioHallucinationMetricBehavior |
Facoltativo. Il comportamento della metrica di allucinazione per le valutazioni degli scenari. |
GoldenEvaluationMetricsThresholds
| Rappresentazione JSON |
|---|
{ "turnLevelMetricsThresholds": { object ( |
| Campi | |
|---|---|
turnLevelMetricsThresholds |
Facoltativo. Le soglie delle metriche a livello di turno. |
expectationLevelMetricsThresholds |
Facoltativo. Le soglie delle metriche del livello di aspettativa. |
toolMatchingSettings |
Facoltativo. Le impostazioni di corrispondenza dello strumento. Una chiamata allo strumento aggiuntiva è una chiamata allo strumento presente nell'esecuzione, ma che non corrisponde ad alcuna chiamata allo strumento nell'aspettativa di riferimento. |
TurnLevelMetricsThresholds
| Rappresentazione JSON |
|---|
{ "semanticSimilarityChannel": enum ( |
| Campi | |
|---|---|
semanticSimilarityChannel |
Facoltativo. Il canale di similarità semantica da utilizzare per la valutazione. |
Campo unione
|
|
semanticSimilaritySuccessThreshold |
Facoltativo. La soglia di successo per la somiglianza semantica. Deve essere un numero intero compreso tra 0 e 4. Il valore predefinito è >= 3. |
Campo unione
|
|
overallToolInvocationCorrectnessThreshold |
Facoltativo. La soglia di successo per la correttezza complessiva dell'invocazione dello strumento. Deve essere un numero in virgola mobile compreso tra 0 e 1. Il valore predefinito è 1.0. |
ExpectationLevelMetricsThresholds
| Rappresentazione JSON |
|---|
{ // Union field |
| Campi | |
|---|---|
Campo unione
|
|
toolInvocationParameterCorrectnessThreshold |
Facoltativo. La soglia di successo per la correttezza dei parametri di chiamata dei singoli strumenti. Deve essere un numero in virgola mobile compreso tra 0 e 1. Il valore predefinito è 1.0. |
ToolMatchingSettings
| Rappresentazione JSON |
|---|
{
"extraToolCallBehavior": enum ( |
| Campi | |
|---|---|
extraToolCallBehavior |
Facoltativo. Comportamento per le chiamate di strumenti aggiuntivi. Il valore predefinito è FAIL. |
EvaluationConfig
| Rappresentazione JSON |
|---|
{ "inputAudioConfig": { object ( |
| Campi | |
|---|---|
inputAudioConfig |
Facoltativo. Configurazione per l'elaborazione dell'audio di input. |
outputAudioConfig |
Facoltativo. Configurazione per la generazione dell'audio di output. |
evaluationChannel |
Facoltativo. Il canale da valutare. |
toolCallBehaviour |
Facoltativo. Specifica se la valutazione deve utilizzare chiamate di strumenti reali o fittizi. |
InputAudioConfig
| Rappresentazione JSON |
|---|
{
"audioEncoding": enum ( |
| Campi | |
|---|---|
audioEncoding |
Obbligatorio. La codifica dei dati audio di input. |
sampleRateHertz |
Obbligatorio. La frequenza di campionamento (in hertz) dei dati audio di input. |
noiseSuppressionLevel |
Facoltativo. Indica se attivare la soppressione del rumore nell'audio di input. I valori disponibili sono "low", "moderate", "high", "very_high". |
OutputAudioConfig
| Rappresentazione JSON |
|---|
{
"audioEncoding": enum ( |
| Campi | |
|---|---|
audioEncoding |
Obbligatorio. La codifica dei dati audio di output. |
sampleRateHertz |
Obbligatorio. La frequenza di campionamento (in hertz) dei dati audio di output. |
Annotazioni dello strumento
Suggerimento distruttivo: ❌ | Suggerimento idempotente: ❌ | Suggerimento di sola lettura: ❌ | Suggerimento open world: ❌