Strumento: list_evaluation_results
Elenca i risultati della valutazione.
Il seguente esempio mostra come utilizzare curl per richiamare lo strumento MCP list_evaluation_results.
| Curl Request |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "list_evaluation_results", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
Schema di input
Messaggio di richiesta per EvaluationService.ListEvaluationResults.
ListEvaluationResultsRequest
| Rappresentazione JSON |
|---|
{ "parent": string, "pageSize": integer, "pageToken": string, "filter": string, "orderBy": string } |
| Campi | |
|---|---|
parent |
Obbligatorio. Il nome della risorsa della valutazione da cui elencare i risultati. Per filtrare in base all'esecuzione della valutazione, utilizza |
pageSize |
Facoltativo. Dimensioni della pagina richiesta. Il server potrebbe restituire meno elementi di quelli richiesti. Se non specificato, il server sceglierà un valore predefinito appropriato. |
pageToken |
Facoltativo. Il valore |
filter |
Facoltativo. Filtro da applicare quando vengono elencati i risultati della valutazione. Per maggiori dettagli, visita la pagina https://google.aip.dev/160. |
orderBy |
Facoltativo. Campo in base al quale ordinare. Sono supportati solo "name", "create_time" e "update_time". I campi temporali sono ordinati in ordine decrescente, mentre il campo del nome è ordinato in ordine crescente. Se non è incluso, il valore predefinito sarà "update_time". Per maggiori dettagli, visita la pagina https://google.aip.dev/132#ordering. |
Schema di output
Messaggio di risposta per EvaluationService.ListEvaluationResults.
ListEvaluationResultsResponse
| Rappresentazione JSON |
|---|
{
"evaluationResults": [
{
object ( |
| Campi | |
|---|---|
evaluationResults[] |
L'elenco dei risultati della valutazione. |
nextPageToken |
Un token che può essere inviato come |
EvaluationResult
| Rappresentazione JSON |
|---|
{ "name": string, "displayName": string, "createTime": string, "evaluationStatus": enum ( |
| Campi | |
|---|---|
name |
Identificatore. L'identificatore univoco del risultato della valutazione. Formato: |
displayName |
Obbligatorio. Nome visualizzato del risultato della valutazione. Unico all'interno di una valutazione. Per impostazione predefinita, ha il seguente formato: " |
createTime |
Solo output. Timestamp di creazione del risultato della valutazione. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
evaluationStatus |
Solo output. L'esito della valutazione. Compilato solo se execution_state è COMPLETE. |
evaluationRun |
Solo output. L'esecuzione della valutazione che ha prodotto questo risultato. Formato: |
persona |
Solo output. La persona utilizzata per generare la conversazione per il risultato della valutazione. |
errorInfo |
Solo output. Informazioni sull'errore per il risultato della valutazione. |
error |
Solo output. Deprecato: utilizza |
initiatedBy |
Solo output. L'utente che ha avviato l'esecuzione della valutazione che ha generato questo risultato. |
appVersion |
Solo output. La versione dell'app utilizzata per generare la conversazione che ha prodotto questo risultato. Formato: |
appVersionDisplayName |
Solo output. Il nome visualizzato del |
changelog |
Solo output. Il log delle modifiche della versione dell'app su cui è stata eseguita la valutazione. Questo campo viene compilato se l'utente esegue la valutazione sull'ultima versione/bozza. |
changelogCreateTime |
Solo output. L'ora di creazione del log delle modifiche della versione dell'app su cui è stata eseguita la valutazione. Questo campo viene compilato se l'utente esegue la valutazione sull'ultima versione/bozza. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
executionState |
Solo output. Lo stato di esecuzione del risultato della valutazione. |
evaluationMetricsThresholds |
Solo output. Le soglie di valutazione per il risultato. |
config |
Solo output. La configurazione utilizzata nell'esecuzione della valutazione che ha generato questo risultato. |
goldenRunMethod |
Solo output. Il metodo utilizzato per eseguire la valutazione golden. |
Campo unione result. Il risultato della valutazione. Viene compilato solo quando execution_state è COMPLETED. result può essere solo uno dei seguenti tipi: |
|
goldenResult |
Solo output. Il risultato di una valutazione di riferimento. |
scenarioResult |
Solo output. Il risultato di una valutazione dello scenario. |
GoldenResult
| Rappresentazione JSON |
|---|
{ "turnReplayResults": [ { object ( |
| Campi | |
|---|---|
turnReplayResults[] |
Solo output. Il risultato dell'esecuzione di ogni turno della conversazione di riferimento. |
evaluationExpectationResults[] |
Solo output. I risultati delle aspettative di valutazione. |
TurnReplayResult
| Rappresentazione JSON |
|---|
{ "conversation": string, "expectationOutcome": [ { object ( |
| Campi | |
|---|---|
conversation |
Solo output. La conversazione generata per questo turno. |
expectationOutcome[] |
Solo output. Il risultato di ogni aspettativa. |
hallucinationResult |
Solo output. Il risultato del controllo delle allucinazioni. |
toolInvocationScore |
Solo output. Deprecato. Utilizza OverallToolInvocationResult. |
turnLatency |
Solo output. Durata del turno. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
toolCallLatencies[] |
Solo output. La latenza di ogni chiamata allo strumento nel turno. |
semanticSimilarityResult |
Solo output. Il risultato del controllo della somiglianza semantica. |
overallToolInvocationResult |
Solo output. Il risultato del controllo complessivo dell'invocazione dello strumento. |
errorInfo |
Solo output. Informazioni sull'errore che si è verificato durante questo turno. |
spanLatencies[] |
Solo output. La latenza degli span nel turno. |
Campo unione
|
|
toolOrderedInvocationScore |
Solo output. Il punteggio complessivo di chiamata dello strumento ordinato per questo turno. Indica la percentuale complessiva di strumenti della svolta prevista che sono stati effettivamente richiamati nell'ordine previsto. |
GoldenExpectationOutcome
| Rappresentazione JSON |
|---|
{ "expectation": { object ( |
| Campi | |
|---|---|
expectation |
Solo output. L'aspettativa che è stata valutata. |
outcome |
Solo output. Il risultato dell'aspettativa. |
semanticSimilarityResult |
Solo output. Il risultato del controllo della somiglianza semantica. |
toolInvocationResult |
Solo output. Il risultato del controllo di chiamata dello strumento. |
Campo unione result. Il risultato dell'aspettativa. result può essere solo uno dei seguenti tipi: |
|
observedToolCall |
Solo output. Il risultato dell'aspettativa di chiamata allo strumento. |
observedToolResponse |
Solo output. Il risultato dell'aspettativa di risposta dello strumento. |
observedAgentResponse |
Solo output. Il risultato dell'aspettativa di risposta dell'agente. |
observedAgentTransfer |
Solo output. Il risultato dell'aspettativa di trasferimento dell'agente. |
ToolCall
| Rappresentazione JSON |
|---|
{ "id": string, "displayName": string, "args": { object }, // Union field |
| Campi | |
|---|---|
id |
Facoltativo. L'identificatore univoco della chiamata allo strumento. Se compilato, il client deve restituire il risultato dell'esecuzione con l'ID corrispondenza in |
displayName |
Solo output. Nome visualizzato dello strumento. |
args |
Facoltativo. I parametri e i valori di input per lo strumento in formato oggetto JSON. |
Campo unione tool_identifier. L'identificatore dello strumento da eseguire. Può trattarsi di uno strumento persistente o di uno strumento di un insieme di strumenti. tool_identifier può essere solo uno dei seguenti tipi: |
|
tool |
Facoltativo. Il nome dello strumento da eseguire. Formato: |
toolsetTool |
Facoltativo. Lo strumento del toolset da eseguire. |
ToolsetTool
| Rappresentazione JSON |
|---|
{ "toolset": string, "toolId": string } |
| Campi | |
|---|---|
toolset |
Obbligatorio. Il nome della risorsa del Toolset da cui deriva questo strumento. Formato: |
toolId |
Facoltativo. L'ID dello strumento per filtrare gli strumenti per cui recuperare lo schema. |
Struct
| Rappresentazione JSON |
|---|
{ "fields": { string: value, ... } } |
| Campi | |
|---|---|
fields |
Mappa non ordinata di valori con tipo dinamico. Un oggetto contenente un elenco di coppie |
FieldsEntry
| Rappresentazione JSON |
|---|
{ "key": string, "value": value } |
| Campi | |
|---|---|
key |
|
value |
|
Valore
| Rappresentazione JSON |
|---|
{ // Union field |
| Campi | |
|---|---|
Campo unione kind. Il tipo di valore. kind può essere solo uno dei seguenti tipi: |
|
nullValue |
Rappresenta un valore null. |
numberValue |
Rappresenta un valore double. |
stringValue |
Rappresenta un valore stringa. |
boolValue |
Rappresenta un valore booleano. |
structValue |
Rappresenta un valore strutturato. |
listValue |
Rappresenta un |
ListValue
| Rappresentazione JSON |
|---|
{ "values": [ value ] } |
| Campi | |
|---|---|
values[] |
Campo ripetuto di valori con tipo dinamico. |
ToolResponse
| Rappresentazione JSON |
|---|
{ "id": string, "displayName": string, "response": { object }, // Union field |
| Campi | |
|---|---|
id |
Facoltativo. L'ID corrispondente di |
displayName |
Solo output. Nome visualizzato dello strumento. |
response |
Obbligatorio. Il risultato dell'esecuzione dello strumento in formato oggetto JSON. Utilizza la chiave "output" per specificare la risposta dello strumento e la chiave "error" per specificare i dettagli dell'errore (se presenti). Se le chiavi "output" ed "error" non sono specificate, l'intera "response" viene trattata come risultato dell'esecuzione dello strumento. |
Campo unione tool_identifier. L'identificatore dello strumento eseguito. Può trattarsi di uno strumento persistente o di uno strumento di un insieme di strumenti. tool_identifier può essere solo uno dei seguenti tipi: |
|
tool |
Facoltativo. Il nome dello strumento da eseguire. Formato: |
toolsetTool |
Facoltativo. Lo strumento del toolset che è stato eseguito. |
Messaggio
| Rappresentazione JSON |
|---|
{
"role": string,
"chunks": [
{
object ( |
| Campi | |
|---|---|
role |
Facoltativo. Il ruolo all'interno della conversazione, ad esempio utente, agente. |
chunks[] |
Facoltativo. Contenuto del messaggio come una serie di blocchi. |
eventTime |
Facoltativo. Timestamp di invio o ricezione del messaggio. Non deve essere utilizzato se il messaggio fa parte di un Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
Chunk
| Rappresentazione JSON |
|---|
{ // Union field |
| Campi | |
|---|---|
Campo unione data. Dividi i dati in blocchi. data può essere solo uno dei seguenti tipi: |
|
text |
Facoltativo. Dati di testo. |
transcript |
Facoltativo. Trascrizione associata all'audio. |
blob |
Facoltativo. Dati blob. |
payload |
Facoltativo. Dati di payload personalizzati. |
image |
Facoltativo. Dati immagine. |
toolCall |
Facoltativo. Richiesta di esecuzione dello strumento. |
toolResponse |
Facoltativo. Risposta all'esecuzione dello strumento. |
agentTransfer |
Facoltativo. Evento di trasferimento dell'agente. |
updatedVariables |
Una struct rappresenta le variabili aggiornate nella conversazione, identificate dai nomi delle variabili. |
defaultVariables |
Una struct rappresenta le variabili predefinite all'inizio della conversazione, identificate dai nomi delle variabili. |
Blob
| Rappresentazione JSON |
|---|
{ "mimeType": string, "data": string } |
| Campi | |
|---|---|
mimeType |
Obbligatorio. Il tipo MIME standard IANA dei dati di origine. |
data |
Obbligatorio. Byte non elaborati del blob. Una stringa con codifica in base64. |
Immagine
| Rappresentazione JSON |
|---|
{ "mimeType": string, "data": string } |
| Campi | |
|---|---|
mimeType |
Obbligatorio. Il tipo MIME standard IANA dei dati di origine. I tipi di immagini supportati includono: * image/png * image/jpeg * image/webp |
data |
Obbligatorio. Byte non elaborati dell'immagine. Una stringa con codifica in base64. |
AgentTransfer
| Rappresentazione JSON |
|---|
{ "targetAgent": string, "displayName": string } |
| Campi | |
|---|---|
targetAgent |
Obbligatorio. L'agente a cui viene trasferita la conversazione. L'agente gestirà la conversazione da questo punto in poi. Formato: |
displayName |
Solo output. Il nome visualizzato dell'agente. |
Timestamp
| Rappresentazione JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Campi | |
|---|---|
seconds |
Rappresenta i secondi di tempo UTC a partire dall'epoca Unix 1970-01-01T00:00:00Z. Deve essere compreso tra -62135596800 e 253402300799 inclusi (corrispondenti a 0001-01-01T00:00:00Z e 9999-12-31T23:59:59Z). |
nanos |
Frazioni di secondo non negative con risoluzione in nanosecondi. Questo campo è la parte in nanosecondi della durata, non un'alternativa ai secondi. I valori negativi dei secondi con frazioni devono comunque avere valori non negativi dei nanosecondi che vengono conteggiati in avanti nel tempo. Deve essere compreso tra 0 e 999.999.999 inclusi. |
GoldenExpectation
| Rappresentazione JSON |
|---|
{ "note": string, // Union field |
| Campi | |
|---|---|
note |
Facoltativo. Una nota per questo requisito, utile per la generazione di report quando controlli specifici non vanno a buon fine. Ad esempio, "Check_Payment_Tool_Called". |
Campo unione condition. Il controllo effettivo da eseguire. condition può essere solo uno dei seguenti tipi: |
|
toolCall |
Facoltativo. Verifica che sia stato chiamato uno strumento specifico con i parametri. |
toolResponse |
Facoltativo. Controlla che uno strumento specifico abbia dato la risposta prevista. |
agentResponse |
Facoltativo. Controlla che l'agente abbia risposto con la risposta corretta. Il ruolo "agente" è implicito. |
agentTransfer |
Facoltativo. Controlla che l'agente abbia trasferito la conversazione a un altro agente. |
updatedVariables |
Facoltativo. Verifica che l'agente abbia aggiornato le variabili di sessione ai valori previsti. Utilizzato anche per acquisire gli aggiornamenti delle variabili dell'agente per le valutazioni di riferimento. |
mockToolResponse |
Facoltativo. La risposta dello strumento alla simulazione, con i parametri di interesse specificati. Eventuali parametri non specificati verranno inventati dal LLM. |
SemanticSimilarityResult
| Rappresentazione JSON |
|---|
{ "label": string, "explanation": string, "outcome": enum ( |
| Campi | |
|---|---|
label |
Solo output. L'etichetta associata a ogni punteggio. Punteggio 4: completamente coerente Punteggio 3: per lo più coerente Punteggio 2: parzialmente coerente (omissioni minori) Punteggio 1: in gran parte incoerente (omissioni maggiori) Punteggio 0: completamente incoerente / contraddittorio |
explanation |
Solo output. La spiegazione del punteggio di similarità semantica. |
outcome |
Solo output. Il risultato del controllo della somiglianza semantica. Questo valore viene determinato confrontando il punteggio con semantic_similarity_success_threshold. Se il punteggio è uguale o superiore alla soglia, il risultato sarà PASS. In caso contrario, il risultato sarà FAIL. |
Campo unione
|
|
score |
Solo output. Il punteggio di similarità semantica. Può essere 0, 1, 2, 3 o 4. |
ToolInvocationResult
| Rappresentazione JSON |
|---|
{ "outcome": enum ( |
| Campi | |
|---|---|
outcome |
Solo output. Il risultato del controllo di chiamata dello strumento. Questo valore viene determinato confrontando il punteggio di correttezza dei parametri con la soglia. Se il punteggio è uguale o superiore alla soglia, il risultato sarà PASS. In caso contrario, il risultato sarà FAIL. |
explanation |
Solo output. Una spiegazione in formato libero del risultato dell'invocazione dello strumento. |
Campo unione
|
|
parameterCorrectnessScore |
Solo output. Il punteggio di correttezza del parametro di chiamata dello strumento. Indica la percentuale di parametri della chiamata allo strumento prevista che erano presenti anche nella chiamata allo strumento effettiva. |
HallucinationResult
| Rappresentazione JSON |
|---|
{ "label": string, "explanation": string, // Union field |
| Campi | |
|---|---|
label |
Solo output. L'etichetta associata a ogni punteggio. Punteggio 1: Punteggio giustificato Punteggio 0: Punteggio non giustificato Punteggio -1: Nessuna rivendicazione da valutare |
explanation |
Solo output. La spiegazione del punteggio di allucinazione. |
Campo unione
|
|
score |
Solo output. Il punteggio di allucinazione. Può essere -1, 0, 1. |
Durata
| Rappresentazione JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Campi | |
|---|---|
seconds |
Secondi firmati dell'intervallo di tempo. Deve essere compreso tra -315.576.000.000 e +315.576.000.000 inclusi. Nota: questi limiti vengono calcolati in base a: 60 sec/min * 60 min/ora * 24 ore/giorno * 365,25 giorni/anno * 10.000 anni |
nanos |
Frazioni di secondo con segno con risoluzione in nanosecondi dell'intervallo di tempo. Le durate inferiori a un secondo sono rappresentate con un campo |
ToolCallLatency
| Rappresentazione JSON |
|---|
{ "tool": string, "displayName": string, "startTime": string, "endTime": string, "executionLatency": string } |
| Campi | |
|---|---|
tool |
Solo output. Il nome dello strumento eseguito. Formato: |
displayName |
Solo output. Il nome visualizzato dello strumento. |
startTime |
Solo output. L'ora di inizio dell'esecuzione della chiamata allo strumento. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
endTime |
Solo output. L'ora di fine dell'esecuzione della chiamata allo strumento. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
executionLatency |
Solo output. La latenza dell'esecuzione della chiamata di funzione. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
OverallToolInvocationResult
| Rappresentazione JSON |
|---|
{ "outcome": enum ( |
| Campi | |
|---|---|
outcome |
Solo output. Il risultato del controllo di chiamata dello strumento. Questo valore viene determinato confrontando tool_invocation_score con overall_tool_invocation_correctness_threshold. Se il punteggio è uguale o superiore alla soglia, il risultato sarà PASS. In caso contrario, il risultato sarà FAIL. |
Campo unione
|
|
toolInvocationScore |
Il punteggio complessivo di invocazione dello strumento per questo turno. Indica la percentuale complessiva di strumenti dell'azione prevista che sono stati effettivamente richiamati. |
EvaluationErrorInfo
| Rappresentazione JSON |
|---|
{
"errorType": enum ( |
| Campi | |
|---|---|
errorType |
Solo output. Il tipo di errore. |
errorMessage |
Solo output. Il messaggio di errore. |
sessionId |
Solo output. L'ID sessione della conversazione che ha causato l'errore. |
SpanLatency
| Rappresentazione JSON |
|---|
{ "type": enum ( |
| Campi | |
|---|---|
type |
Solo output. Il tipo di intervallo. |
displayName |
Solo output. Il nome visualizzato dello span. Valido per gli intervalli di strumenti e sistemi di protezione. |
startTime |
Solo output. L'ora di inizio dell'intervallo. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
endTime |
Solo output. L'ora di fine dell'intervallo. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
executionLatency |
Solo output. La latenza dello span. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
Campo unione identifier. L'identificatore dell'elemento specifico in base al suo tipo. identifier può essere solo uno dei seguenti tipi: |
|
resource |
Solo output. Il nome della risorsa degli intervalli di guardrail o strumenti. |
toolset |
Solo output. L'identificatore dello strumento del toolset. |
model |
Solo output. Il nome dello span LLM. |
callback |
Solo output. Il nome dello span di callback dell'utente. |
EvaluationExpectationResult
| Rappresentazione JSON |
|---|
{
"evaluationExpectation": string,
"prompt": string,
"outcome": enum ( |
| Campi | |
|---|---|
evaluationExpectation |
Solo output. L'aspettativa di valutazione. Formato: |
prompt |
Solo output. Il prompt utilizzato per la valutazione. |
outcome |
Solo output. Il risultato dell'aspettativa di valutazione. |
explanation |
Solo output. La spiegazione del risultato. |
ScenarioResult
| Rappresentazione JSON |
|---|
{ "conversation": string, "task": string, "userFacts": [ { object ( |
| Campi | |
|---|---|
conversation |
Solo output. La conversazione generata nello scenario. |
task |
Solo output. L'attività utilizzata durante l'esecuzione dello scenario per questo risultato. |
userFacts[] |
Solo output. I fatti sull'utente utilizzati dallo scenario per questo risultato. |
expectationOutcomes[] |
Solo output. Il risultato di ogni aspettativa. |
rubricOutcomes[] |
Solo output. Il risultato della griglia. |
hallucinationResult[] |
Solo output. Il risultato del controllo delle allucinazioni. Verrà visualizzato un risultato di allucinazione per ogni turno della conversazione. |
taskCompletionResult |
Solo output. Il risultato del controllo del completamento dell'attività. |
toolCallLatencies[] |
Solo output. La latenza di ogni esecuzione della chiamata allo strumento nella conversazione. |
userGoalSatisfactionResult |
Solo output. Il risultato del controllo della soddisfazione dell'obiettivo dell'utente. |
spanLatencies[] |
Solo output. La latenza degli intervalli nella conversazione. |
evaluationExpectationResults[] |
Solo output. I risultati delle aspettative di valutazione. |
Campo unione
|
|
allExpectationsSatisfied |
Solo output. Indica se tutte le aspettative sono state soddisfatte per questo turno. |
Campo unione
|
|
taskCompleted |
Solo output. Se l'attività è stata completata per questo turno. Si tratta di un insieme di tutte le aspettative soddisfatte, senza allucinazioni e con la soddisfazione dell'obiettivo dell'utente. |
UserFact
| Rappresentazione JSON |
|---|
{ "name": string, "value": string } |
| Campi | |
|---|---|
name |
Obbligatorio. Il nome del fatto relativo all'utente. |
value |
Obbligatorio. Il valore del fatto utente. |
ScenarioExpectationOutcome
| Rappresentazione JSON |
|---|
{ "expectation": { object ( |
| Campi | |
|---|---|
expectation |
Solo output. L'aspettativa che è stata valutata. |
outcome |
Solo output. Il risultato di ScenarioExpectation. |
Campo unione result. Il risultato dell'aspettativa. result può essere solo uno dei seguenti tipi: |
|
observedToolCall |
Solo output. La chiamata allo strumento osservata. |
observedAgentResponse |
Solo output. La risposta dell'agente osservata. |
ObservedToolCall
| Rappresentazione JSON |
|---|
{ "toolCall": { object ( |
| Campi | |
|---|---|
toolCall |
Solo output. La chiamata allo strumento osservata. |
toolResponse |
Solo output. La risposta dello strumento osservata. |
ScenarioExpectation
| Rappresentazione JSON |
|---|
{ // Union field |
| Campi | |
|---|---|
Campo unione expectation. L'aspettativa di valutare la conversazione prodotta dalla simulazione. expectation può essere solo uno dei seguenti tipi: |
|
toolExpectation |
Facoltativo. La coppia di chiamata allo strumento e risposta da valutare. |
agentResponse |
Facoltativo. La risposta dell'agente da valutare. |
ToolExpectation
| Rappresentazione JSON |
|---|
{ "expectedToolCall": { object ( |
| Campi | |
|---|---|
expectedToolCall |
Obbligatorio. La chiamata allo strumento prevista, con i parametri di interesse specificati. Eventuali parametri non specificati verranno inventati dal LLM. |
mockToolResponse |
Obbligatorio. La risposta dello strumento alla simulazione, con i parametri di interesse specificati. Eventuali parametri non specificati verranno inventati dal LLM. |
ScenarioRubricOutcome
| Rappresentazione JSON |
|---|
{ "rubric": string, "scoreExplanation": string, // Union field |
| Campi | |
|---|---|
rubric |
Solo output. La rubrica utilizzata per valutare la conversazione. |
scoreExplanation |
Solo output. La risposta del valutatore alla rubrica. |
Campo unione
|
|
score |
Solo output. Il punteggio della conversazione rispetto alla griglia. |
TaskCompletionResult
| Rappresentazione JSON |
|---|
{ "label": string, "explanation": string, // Union field |
| Campi | |
|---|---|
label |
Solo output. L'etichetta associata a ogni punteggio. Punteggio 1: attività completata. Punteggio 0: attività non completata. Punteggio -1: obiettivo utente non definito. |
explanation |
Solo output. La spiegazione del punteggio di completamento dell'attività. |
Campo unione
|
|
score |
Solo output. Il punteggio di completamento dell'attività. Può essere -1, 0, 1 |
UserGoalSatisfactionResult
| Rappresentazione JSON |
|---|
{ "label": string, "explanation": string, // Union field |
| Campi | |
|---|---|
label |
Solo output. L'etichetta associata a ogni punteggio. Punteggio 1: attività utente soddisfatta Punteggio 0: attività utente non soddisfatta Punteggio -1: attività utente non specificata |
explanation |
Solo output. La spiegazione del punteggio di soddisfazione dell'attività dell'utente. |
Campo unione
|
|
score |
Solo output. Il punteggio di soddisfazione dell'attività dell'utente. Può essere -1, 0, 1. |
EvaluationPersona
| Rappresentazione JSON |
|---|
{
"name": string,
"description": string,
"displayName": string,
"personality": string,
"speechConfig": {
object ( |
| Campi | |
|---|---|
name |
Obbligatorio. L'identificatore univoco della persona. Formato: |
description |
Facoltativo. La descrizione della persona. |
displayName |
Obbligatorio. Il nome visualizzato della persona. Unico all'interno di un'app. |
personality |
Obbligatorio. Un'istruzione per l'agente su come comportarsi nella valutazione. |
speechConfig |
Facoltativo. Configurazione del suono della persona (impostazioni TTS). |
SpeechConfig
| Rappresentazione JSON |
|---|
{
"speakingRate": number,
"environment": enum ( |
| Campi | |
|---|---|
speakingRate |
Facoltativo. La velocità del parlato. 1,0 è il valore normale. I valori più bassi sono più lenti (ad es. 0,8), più alto è il valore, più veloce è la risposta (ad es. 1.5). Utile per testare il modo in cui l'agente gestisce le persone che parlano velocemente. |
environment |
Facoltativo. L'ambiente audio simulato. |
voiceId |
Facoltativo. L'identificatore/l'accento della voce specifico da utilizzare. Esempio: "en-US-Wavenet-D" o "en-GB-Standard-A" |
Stato
| Rappresentazione JSON |
|---|
{ "code": integer, "message": string, "details": [ { "@type": string, field1: ..., ... } ] } |
| Campi | |
|---|---|
code |
Il codice di stato, che deve essere un valore enum di |
message |
Un messaggio di errore rivolto agli sviluppatori, che deve essere in inglese. Qualsiasi messaggio di errore rivolto agli utenti deve essere localizzato e inviato nel campo |
details[] |
Un elenco di messaggi contenenti i dettagli dell'errore. Esiste un insieme comune di tipi di messaggi da utilizzare per le API. Un oggetto contenente campi di tipo arbitrario. Un campo aggiuntivo |
Qualsiasi
| Rappresentazione JSON |
|---|
{ "typeUrl": string, "value": string } |
| Campi | |
|---|---|
typeUrl |
Identifica il tipo di messaggio Protobuf serializzato con un riferimento URI costituito da un prefisso che termina con una barra e il nome del tipo completo. Esempio: type.googleapis.com/google.protobuf.StringValue Questa stringa deve contenere almeno un carattere Il prefisso è arbitrario e le implementazioni di Protobuf devono semplicemente rimuovere tutto fino all'ultimo Tutte le stringhe URL di tipo devono essere riferimenti URI validi con l'ulteriore limitazione (per il formato di testo) che il contenuto del riferimento deve essere costituito solo da caratteri alfanumerici, sequenze di escape codificate in percentuale e caratteri del seguente insieme (esclusi i backtick esterni): Nella progettazione originale di |
value |
Contiene una serializzazione Protobuf del tipo descritto da type_url. Una stringa con codifica in base64. |
EvaluationMetricsThresholds
| Rappresentazione JSON |
|---|
{ "goldenEvaluationMetricsThresholds": { object ( |
| Campi | |
|---|---|
goldenEvaluationMetricsThresholds |
Facoltativo. Le soglie delle metriche di valutazione secondo regole d'oro. |
hallucinationMetricBehavior |
Facoltativo. Deprecato: utilizza |
goldenHallucinationMetricBehavior |
Facoltativo. Il comportamento della metrica delle allucinazioni per le valutazioni di riferimento. |
scenarioHallucinationMetricBehavior |
Facoltativo. Il comportamento della metrica di allucinazione per le valutazioni degli scenari. |
GoldenEvaluationMetricsThresholds
| Rappresentazione JSON |
|---|
{ "turnLevelMetricsThresholds": { object ( |
| Campi | |
|---|---|
turnLevelMetricsThresholds |
Facoltativo. Le soglie delle metriche a livello di turno. |
expectationLevelMetricsThresholds |
Facoltativo. Le soglie delle metriche del livello di aspettativa. |
toolMatchingSettings |
Facoltativo. Le impostazioni di corrispondenza dello strumento. Una chiamata allo strumento aggiuntiva è una chiamata allo strumento presente nell'esecuzione, ma che non corrisponde ad alcuna chiamata allo strumento nell'aspettativa di riferimento. |
TurnLevelMetricsThresholds
| Rappresentazione JSON |
|---|
{ "semanticSimilarityChannel": enum ( |
| Campi | |
|---|---|
semanticSimilarityChannel |
Facoltativo. Il canale di similarità semantica da utilizzare per la valutazione. |
Campo unione
|
|
semanticSimilaritySuccessThreshold |
Facoltativo. La soglia di successo per la somiglianza semantica. Deve essere un numero intero compreso tra 0 e 4. Il valore predefinito è >= 3. |
Campo unione
|
|
overallToolInvocationCorrectnessThreshold |
Facoltativo. La soglia di successo per la correttezza complessiva dell'invocazione dello strumento. Deve essere un numero in virgola mobile compreso tra 0 e 1. Il valore predefinito è 1.0. |
ExpectationLevelMetricsThresholds
| Rappresentazione JSON |
|---|
{ // Union field |
| Campi | |
|---|---|
Campo unione
|
|
toolInvocationParameterCorrectnessThreshold |
Facoltativo. La soglia di successo per la correttezza dei parametri di chiamata dei singoli strumenti. Deve essere un numero in virgola mobile compreso tra 0 e 1. Il valore predefinito è 1.0. |
ToolMatchingSettings
| Rappresentazione JSON |
|---|
{
"extraToolCallBehavior": enum ( |
| Campi | |
|---|---|
extraToolCallBehavior |
Facoltativo. Comportamento per le chiamate di strumenti aggiuntivi. Il valore predefinito è FAIL. |
EvaluationConfig
| Rappresentazione JSON |
|---|
{ "inputAudioConfig": { object ( |
| Campi | |
|---|---|
inputAudioConfig |
Facoltativo. Configurazione per l'elaborazione dell'audio di input. |
outputAudioConfig |
Facoltativo. Configurazione per la generazione dell'audio di output. |
evaluationChannel |
Facoltativo. Il canale da valutare. |
toolCallBehaviour |
Facoltativo. Specifica se la valutazione deve utilizzare chiamate di strumenti reali o fittizi. |
InputAudioConfig
| Rappresentazione JSON |
|---|
{
"audioEncoding": enum ( |
| Campi | |
|---|---|
audioEncoding |
Obbligatorio. La codifica dei dati audio di input. |
sampleRateHertz |
Obbligatorio. La frequenza di campionamento (in hertz) dei dati audio di input. |
noiseSuppressionLevel |
Facoltativo. Indica se attivare la soppressione del rumore nell'audio di input. I valori disponibili sono "low", "moderate", "high", "very_high". |
OutputAudioConfig
| Rappresentazione JSON |
|---|
{
"audioEncoding": enum ( |
| Campi | |
|---|---|
audioEncoding |
Obbligatorio. La codifica dei dati audio di output. |
sampleRateHertz |
Obbligatorio. La frequenza di campionamento (in hertz) dei dati audio di output. |
Annotazioni dello strumento
Suggerimento distruttivo: ❌ | Suggerimento idempotente: ✅ | Suggerimento di sola lettura: ✅ | Suggerimento open world: ❌