Strumento: create_evaluation_dataset
Crea un nuovo set di dati di valutazione.
Il seguente esempio mostra come utilizzare curl per richiamare lo strumento MCP create_evaluation_dataset.
| Curl Request |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "create_evaluation_dataset", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
Schema di input
Messaggio di richiesta per EvaluationService.CreateEvaluationDataset.
CreateEvaluationDatasetRequest
| Rappresentazione JSON |
|---|
{
"parent": string,
"evaluationDatasetId": string,
"evaluationDataset": {
object ( |
| Campi | |
|---|---|
parent |
Obbligatorio. L'app per cui creare la valutazione. Formato: |
evaluationDatasetId |
Facoltativo. L'ID da utilizzare per il set di dati di valutazione, che diventerà il componente finale del nome della risorsa del set di dati di valutazione. Se non viene fornito, verrà assegnato automaticamente un ID univoco per la valutazione. |
evaluationDataset |
Obbligatorio. Il set di dati di valutazione da creare. |
EvaluationDataset
| Rappresentazione JSON |
|---|
{
"name": string,
"displayName": string,
"evaluations": [
string
],
"createTime": string,
"updateTime": string,
"etag": string,
"createdBy": string,
"lastUpdatedBy": string,
"aggregatedMetrics": {
object ( |
| Campi | |
|---|---|
name |
Identificatore. L'identificatore univoco di questo set di dati di valutazione. Formato: |
displayName |
Obbligatorio. Nome visualizzato definito dall'utente del set di dati di valutazione. Unico all'interno di un'app. |
evaluations[] |
Facoltativo. Valutazioni incluse in questo set di dati. |
createTime |
Solo output. Timestamp di creazione del set di dati di valutazione. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
updateTime |
Solo output. Timestamp dell'ultimo aggiornamento del set di dati di valutazione. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
etag |
Solo output. Etag utilizzato per garantire che l'oggetto non sia stato modificato durante un'operazione di lettura, modifica e scrittura. Se l'etag è vuoto, l'aggiornamento sovrascriverà eventuali modifiche simultanee. |
createdBy |
Solo output. L'utente che ha creato il set di dati di valutazione. |
lastUpdatedBy |
Solo output. L'utente che ha aggiornato per ultimo il set di dati di valutazione. |
aggregatedMetrics |
Solo output. Le metriche aggregate per questo set di dati di valutazione in tutte le esecuzioni. |
Timestamp
| Rappresentazione JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Campi | |
|---|---|
seconds |
Rappresenta i secondi di tempo UTC a partire dall'epoca Unix 1970-01-01T00:00:00Z. Deve essere compreso tra -62135596800 e 253402300799 inclusi (corrispondenti a 0001-01-01T00:00:00Z e 9999-12-31T23:59:59Z). |
nanos |
Frazioni di secondo non negative con risoluzione in nanosecondi. Questo campo è la parte in nanosecondi della durata, non un'alternativa ai secondi. I valori negativi dei secondi con frazioni devono comunque avere valori non negativi dei nanosecondi che vengono conteggiati in avanti nel tempo. Deve essere compreso tra 0 e 999.999.999 inclusi. |
AggregatedMetrics
| Rappresentazione JSON |
|---|
{
"metricsByAppVersion": [
{
object ( |
| Campi | |
|---|---|
metricsByAppVersion[] |
Solo output. Metriche aggregate, raggruppate per ID versione dell'app. |
MetricsByAppVersion
| Rappresentazione JSON |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| Campi | |
|---|---|
appVersionId |
Solo output. L'ID versione dell'app. |
toolMetrics[] |
Solo output. Metriche per ogni strumento all'interno di questa versione dell'app. |
semanticSimilarityMetrics[] |
Solo output. Metriche per la somiglianza semantica all'interno di questa versione dell'app. |
hallucinationMetrics[] |
Solo output. Metriche per le allucinazioni all'interno di questa versione dell'app. |
toolCallLatencyMetrics[] |
Solo output. Metriche per la latenza delle chiamate agli strumenti all'interno di questa versione dell'app. |
turnLatencyMetrics[] |
Solo output. Metriche per la latenza del turno all'interno di questa versione dell'app. |
passCount |
Solo output. Il numero di volte in cui la valutazione è stata superata. |
failCount |
Solo output. Il numero di volte in cui la valutazione non è riuscita. |
metricsByTurn[] |
Solo output. Metriche aggregate per turno all'interno di questa versione dell'app. |
ToolMetrics
| Rappresentazione JSON |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| Campi | |
|---|---|
tool |
Solo output. Il nome dello strumento. |
passCount |
Solo output. Il numero di volte in cui lo strumento è stato superato. |
failCount |
Solo output. Il numero di volte in cui lo strumento non ha funzionato. |
SemanticSimilarityMetrics
| Rappresentazione JSON |
|---|
{ "score": number } |
| Campi | |
|---|---|
score |
Solo output. Il punteggio medio di similarità semantica (0-4). |
HallucinationMetrics
| Rappresentazione JSON |
|---|
{ "score": number } |
| Campi | |
|---|---|
score |
Solo output. Il punteggio medio di allucinazione (da 0 a 1). |
ToolCallLatencyMetrics
| Rappresentazione JSON |
|---|
{ "tool": string, "averageLatency": string } |
| Campi | |
|---|---|
tool |
Solo output. Il nome dello strumento. |
averageLatency |
Solo output. La latenza media delle chiamate agli strumenti. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
Durata
| Rappresentazione JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Campi | |
|---|---|
seconds |
Secondi firmati dell'intervallo di tempo. Deve essere compreso tra -315.576.000.000 e +315.576.000.000 inclusi. Nota: questi limiti vengono calcolati in base a: 60 sec/min * 60 min/ora * 24 ore/giorno * 365,25 giorni/anno * 10.000 anni |
nanos |
Frazioni di secondo con segno con risoluzione in nanosecondi dell'intervallo di tempo. Le durate inferiori a un secondo sono rappresentate con un campo |
TurnLatencyMetrics
| Rappresentazione JSON |
|---|
{ "averageLatency": string } |
| Campi | |
|---|---|
averageLatency |
Solo output. La latenza media dei turni. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
MetricsByTurn
| Rappresentazione JSON |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| Campi | |
|---|---|
turnIndex |
Solo output. L'indice del turno (a base 0). |
toolMetrics[] |
Solo output. Metriche per ogni strumento all'interno di questo turno. |
semanticSimilarityMetrics[] |
Solo output. Metriche per la similarità semantica all'interno di questo turno. |
hallucinationMetrics[] |
Solo output. Metriche per le allucinazioni in questo turno. |
toolCallLatencyMetrics[] |
Solo output. Metriche per la latenza della chiamata allo strumento all'interno di questo turno. |
turnLatencyMetrics[] |
Solo output. Metriche per la latenza del turno all'interno di questo turno. |
Schema di output
Un set di dati di valutazione rappresenta un insieme di valutazioni raggruppate in base a tag condivisi.
EvaluationDataset
| Rappresentazione JSON |
|---|
{
"name": string,
"displayName": string,
"evaluations": [
string
],
"createTime": string,
"updateTime": string,
"etag": string,
"createdBy": string,
"lastUpdatedBy": string,
"aggregatedMetrics": {
object ( |
| Campi | |
|---|---|
name |
Identificatore. L'identificatore univoco di questo set di dati di valutazione. Formato: |
displayName |
Obbligatorio. Nome visualizzato definito dall'utente del set di dati di valutazione. Unico all'interno di un'app. |
evaluations[] |
Facoltativo. Valutazioni incluse in questo set di dati. |
createTime |
Solo output. Timestamp di creazione del set di dati di valutazione. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
updateTime |
Solo output. Timestamp dell'ultimo aggiornamento del set di dati di valutazione. Utilizza RFC 3339, in cui l'output generato è sempre con normalizzazione Z e utilizza 0, 3, 6 o 9 cifre frazionarie. Sono accettati anche offset diversi da "Z". Esempi: |
etag |
Solo output. Etag utilizzato per garantire che l'oggetto non sia stato modificato durante un'operazione di lettura, modifica e scrittura. Se l'etag è vuoto, l'aggiornamento sovrascriverà eventuali modifiche simultanee. |
createdBy |
Solo output. L'utente che ha creato il set di dati di valutazione. |
lastUpdatedBy |
Solo output. L'utente che ha aggiornato per ultimo il set di dati di valutazione. |
aggregatedMetrics |
Solo output. Le metriche aggregate per questo set di dati di valutazione in tutte le esecuzioni. |
Timestamp
| Rappresentazione JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Campi | |
|---|---|
seconds |
Rappresenta i secondi di tempo UTC a partire dall'epoca Unix 1970-01-01T00:00:00Z. Deve essere compreso tra -62135596800 e 253402300799 inclusi (corrispondenti a 0001-01-01T00:00:00Z e 9999-12-31T23:59:59Z). |
nanos |
Frazioni di secondo non negative con risoluzione in nanosecondi. Questo campo è la parte in nanosecondi della durata, non un'alternativa ai secondi. I valori negativi dei secondi con frazioni devono comunque avere valori non negativi dei nanosecondi che vengono conteggiati in avanti nel tempo. Deve essere compreso tra 0 e 999.999.999 inclusi. |
AggregatedMetrics
| Rappresentazione JSON |
|---|
{
"metricsByAppVersion": [
{
object ( |
| Campi | |
|---|---|
metricsByAppVersion[] |
Solo output. Metriche aggregate, raggruppate per ID versione dell'app. |
MetricsByAppVersion
| Rappresentazione JSON |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| Campi | |
|---|---|
appVersionId |
Solo output. L'ID versione dell'app. |
toolMetrics[] |
Solo output. Metriche per ogni strumento all'interno di questa versione dell'app. |
semanticSimilarityMetrics[] |
Solo output. Metriche per la somiglianza semantica all'interno di questa versione dell'app. |
hallucinationMetrics[] |
Solo output. Metriche per le allucinazioni all'interno di questa versione dell'app. |
toolCallLatencyMetrics[] |
Solo output. Metriche per la latenza delle chiamate agli strumenti all'interno di questa versione dell'app. |
turnLatencyMetrics[] |
Solo output. Metriche per la latenza del turno all'interno di questa versione dell'app. |
passCount |
Solo output. Il numero di volte in cui la valutazione è stata superata. |
failCount |
Solo output. Il numero di volte in cui la valutazione non è riuscita. |
metricsByTurn[] |
Solo output. Metriche aggregate per turno all'interno di questa versione dell'app. |
ToolMetrics
| Rappresentazione JSON |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| Campi | |
|---|---|
tool |
Solo output. Il nome dello strumento. |
passCount |
Solo output. Il numero di volte in cui lo strumento è stato superato. |
failCount |
Solo output. Il numero di volte in cui lo strumento non ha funzionato. |
SemanticSimilarityMetrics
| Rappresentazione JSON |
|---|
{ "score": number } |
| Campi | |
|---|---|
score |
Solo output. Il punteggio medio di similarità semantica (0-4). |
HallucinationMetrics
| Rappresentazione JSON |
|---|
{ "score": number } |
| Campi | |
|---|---|
score |
Solo output. Il punteggio medio di allucinazione (da 0 a 1). |
ToolCallLatencyMetrics
| Rappresentazione JSON |
|---|
{ "tool": string, "averageLatency": string } |
| Campi | |
|---|---|
tool |
Solo output. Il nome dello strumento. |
averageLatency |
Solo output. La latenza media delle chiamate agli strumenti. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
Durata
| Rappresentazione JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Campi | |
|---|---|
seconds |
Secondi firmati dell'intervallo di tempo. Deve essere compreso tra -315.576.000.000 e +315.576.000.000 inclusi. Nota: questi limiti vengono calcolati in base a: 60 sec/min * 60 min/ora * 24 ore/giorno * 365,25 giorni/anno * 10.000 anni |
nanos |
Frazioni di secondo con segno con risoluzione in nanosecondi dell'intervallo di tempo. Le durate inferiori a un secondo sono rappresentate con un campo |
TurnLatencyMetrics
| Rappresentazione JSON |
|---|
{ "averageLatency": string } |
| Campi | |
|---|---|
averageLatency |
Solo output. La latenza media dei turni. Una durata in secondi con un massimo di nove cifre frazionarie, che termina con " |
MetricsByTurn
| Rappresentazione JSON |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| Campi | |
|---|---|
turnIndex |
Solo output. L'indice del turno (a base 0). |
toolMetrics[] |
Solo output. Metriche per ogni strumento all'interno di questo turno. |
semanticSimilarityMetrics[] |
Solo output. Metriche per la similarità semantica all'interno di questo turno. |
hallucinationMetrics[] |
Solo output. Metriche per le allucinazioni in questo turno. |
toolCallLatencyMetrics[] |
Solo output. Metriche per la latenza della chiamata allo strumento all'interno di questo turno. |
turnLatencyMetrics[] |
Solo output. Metriche per la latenza del turno all'interno di questo turno. |
Annotazioni dello strumento
Suggerimento distruttivo: ❌ | Suggerimento idempotente: ❌ | Suggerimento di sola lettura: ❌ | Suggerimento open world: ❌