Strumento: get_evaluation_dataset
Recupera i dettagli del set di dati di valutazione specificato.
Il seguente esempio mostra come utilizzare curl per richiamare lo strumento MCP get_evaluation_dataset.
| Curl Request |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "get_evaluation_dataset", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
Schema di input
Messaggio di richiesta per EvaluationService.GetEvaluationDataset.
GetEvaluationDatasetRequest
| Rappresentazione JSON |
|---|
{ "name": string } |
| Campi | |
|---|---|
name |
Obbligatorio. Il nome della risorsa del set di dati di valutazione da recuperare. |
Schema di output
Un set di dati di valutazione rappresenta un insieme di valutazioni raggruppate in base a tag condivisi.
EvaluationDataset
| Rappresentazione JSON |
|---|
{
"name": string,
"displayName": string,
"evaluations": [
string
],
"createTime": string,
"updateTime": string,
"etag": string,
"createdBy": string,
"lastUpdatedBy": string,
"aggregatedMetrics": {
object ( |
| Campi | |
|---|---|
name |
Identificatore. L'identificatore univoco di questo set di dati di valutazione. Formato: |
displayName |
Obbligatorio. Nome visualizzato definito dall'utente del set di dati di valutazione. Unico all'interno di un'app. |
evaluations[] |
Facoltativo. Valutazioni incluse in questo set di dati. |
createTime |
Solo output. Timestamp di creazione del set di dati di valutazione. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
updateTime |
Solo output. Timestamp dell'ultimo aggiornamento del set di dati di valutazione. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
etag |
Solo output. Etag utilizzato per garantire che l'oggetto non sia stato modificato durante un'operazione di lettura, modifica e scrittura. Se l'etag è vuoto, l'aggiornamento sovrascriverà eventuali modifiche simultanee. |
createdBy |
Solo output. L'utente che ha creato il set di dati di valutazione. |
lastUpdatedBy |
Solo output. L'utente che ha aggiornato per ultimo il set di dati di valutazione. |
aggregatedMetrics |
Solo output. Le metriche aggregate per questo set di dati di valutazione in tutte le esecuzioni. |
Timestamp
| Rappresentazione JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Campi | |
|---|---|
seconds |
Rappresenta i secondi di tempo UTC a partire dall'epoca Unix 1970-01-01T00:00:00Z. Deve essere compreso tra -62135596800 e 253402300799 inclusi (corrispondenti a 0001-01-01T00:00:00Z e 9999-12-31T23:59:59Z). |
nanos |
Frazioni di secondo non negative con risoluzione in nanosecondi. Questo campo è la parte in nanosecondi della durata, non un'alternativa ai secondi. I valori negativi dei secondi con frazioni devono comunque avere valori non negativi dei nanosecondi che vengono conteggiati in avanti nel tempo. Deve essere compreso tra 0 e 999.999.999 inclusi. |
AggregatedMetrics
| Rappresentazione JSON |
|---|
{
"metricsByAppVersion": [
{
object ( |
| Campi | |
|---|---|
metricsByAppVersion[] |
Solo output. Metriche aggregate, raggruppate per ID versione dell'app. |
MetricsByAppVersion
| Rappresentazione JSON |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| Campi | |
|---|---|
appVersionId |
Solo output. L'ID versione dell'app. |
toolMetrics[] |
Solo output. Metriche per ogni strumento all'interno di questa versione dell'app. |
semanticSimilarityMetrics[] |
Solo output. Metriche per la somiglianza semantica all'interno di questa versione dell'app. |
hallucinationMetrics[] |
Solo output. Metriche per le allucinazioni all'interno di questa versione dell'app. |
toolCallLatencyMetrics[] |
Solo output. Metriche per la latenza delle chiamate agli strumenti all'interno di questa versione dell'app. |
turnLatencyMetrics[] |
Solo output. Metriche per la latenza del turno all'interno di questa versione dell'app. |
passCount |
Solo output. Il numero di volte in cui la valutazione è stata superata. |
failCount |
Solo output. Il numero di volte in cui la valutazione non è riuscita. |
metricsByTurn[] |
Solo output. Metriche aggregate per turno all'interno di questa versione dell'app. |
ToolMetrics
| Rappresentazione JSON |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| Campi | |
|---|---|
tool |
Solo output. Il nome dello strumento. |
passCount |
Solo output. Il numero di volte in cui lo strumento è stato superato. |
failCount |
Solo output. Il numero di volte in cui lo strumento non ha funzionato. |
SemanticSimilarityMetrics
| Rappresentazione JSON |
|---|
{ "score": number } |
| Campi | |
|---|---|
score |
Solo output. Il punteggio medio di similarità semantica (0-4). |
HallucinationMetrics
| Rappresentazione JSON |
|---|
{ "score": number } |
| Campi | |
|---|---|
score |
Solo output. Il punteggio medio di allucinazione (da 0 a 1). |
ToolCallLatencyMetrics
| Rappresentazione JSON |
|---|
{ "tool": string, "averageLatency": string } |
| Campi | |
|---|---|
tool |
Solo output. Il nome dello strumento. |
averageLatency |
Solo output. La latenza media delle chiamate agli strumenti. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
Durata
| Rappresentazione JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Campi | |
|---|---|
seconds |
Secondi firmati dell'intervallo di tempo. Deve essere compreso tra -315.576.000.000 e +315.576.000.000 inclusi. Nota: questi limiti vengono calcolati in base a: 60 sec/min * 60 min/ora * 24 ore/giorno * 365,25 giorni/anno * 10.000 anni |
nanos |
Frazioni di secondo con segno con risoluzione in nanosecondi dell'intervallo di tempo. Le durate inferiori a un secondo sono rappresentate con un campo |
TurnLatencyMetrics
| Rappresentazione JSON |
|---|
{ "averageLatency": string } |
| Campi | |
|---|---|
averageLatency |
Solo output. La latenza media dei turni. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
MetricsByTurn
| Rappresentazione JSON |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| Campi | |
|---|---|
turnIndex |
Solo output. L'indice del turno (a base 0). |
toolMetrics[] |
Solo output. Metriche per ogni strumento all'interno di questo turno. |
semanticSimilarityMetrics[] |
Solo output. Metriche per la similarità semantica all'interno di questo turno. |
hallucinationMetrics[] |
Solo output. Metriche per le allucinazioni in questo turno. |
toolCallLatencyMetrics[] |
Solo output. Metriche per la latenza della chiamata allo strumento all'interno di questo turno. |
turnLatencyMetrics[] |
Solo output. Metriche per la latenza del turno all'interno di questo turno. |
Annotazioni dello strumento
Suggerimento distruttivo: ❌ | Suggerimento idempotente: ✅ | Suggerimento di sola lettura: ✅ | Suggerimento open world: ❌