MCP Tools Reference: ces.googleapis.com

Outil : update_evaluation_dataset

Met à jour l'ensemble de données d'évaluation spécifié. Veillez à toujours transmettre un masque de mise à jour dans l'entrée.

L'exemple suivant montre comment utiliser curl pour appeler l'outil MCP update_evaluation_dataset.

Requête curl
                  
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \
--header 'content-type: application/json' \
--header 'accept: application/json, text/event-stream' \
--data '{
  "method": "tools/call",
  "params": {
    "name": "update_evaluation_dataset",
    "arguments": {
      // provide these details according to the tool's MCP specification
    }
  },
  "jsonrpc": "2.0",
  "id": 1
}'
                

Schéma d'entrée

Message de requête pour EvaluationService.UpdateEvaluationDataset.

UpdateEvaluationDatasetRequest

Représentation JSON
{
  "evaluationDataset": {
    object (EvaluationDataset)
  },
  "updateMask": string
}
Champs
evaluationDataset

object (EvaluationDataset)

Obligatoire. Ensemble de données d'évaluation à mettre à jour.

updateMask

string (FieldMask format)

Facultatif. Le masque de champ permet de contrôler les champs à mettre à jour. Si le masque n'est pas présent, tous les champs seront mis à jour.

Il s'agit d'une liste de noms de champs complets séparés par une virgule. Exemple : "user.displayName,photo".

EvaluationDataset

Représentation JSON
{
  "name": string,
  "displayName": string,
  "evaluations": [
    string
  ],
  "createTime": string,
  "updateTime": string,
  "etag": string,
  "createdBy": string,
  "lastUpdatedBy": string,
  "aggregatedMetrics": {
    object (AggregatedMetrics)
  }
}
Champs
name

string

Identifiant. Identifiant unique de cet ensemble de données d'évaluation. Format : projects/{project}/locations/{location}/apps/{app}/evaluationDatasets/{evaluationDataset}

displayName

string

Obligatoire. Nom à afficher de l'ensemble de données d'évaluation défini par l'utilisateur. Unique dans une application.

evaluations[]

string

Facultatif. Évaluations incluses dans cet ensemble de données.

createTime

string (Timestamp format)

Uniquement en sortie. Code temporel de la création de l'ensemble de données d'évaluation.

Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

updateTime

string (Timestamp format)

Uniquement en sortie. Code temporel de la dernière mise à jour de l'ensemble de données d'évaluation.

Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

etag

string

Uniquement en sortie. Etag utilisé pour s'assurer que l'objet n'a pas été modifié lors d'une opération de lecture/modification/écriture. Si l'etag est vide, la mise à jour écrasera toutes les modifications simultanées.

createdBy

string

Uniquement en sortie. Utilisateur qui a créé l'ensemble de données d'évaluation.

lastUpdatedBy

string

Uniquement en sortie. L'utilisateur qui a mis à jour l'ensemble de données d'évaluation en dernier.

aggregatedMetrics

object (AggregatedMetrics)

Uniquement en sortie. Métriques agrégées pour cet ensemble de données d'évaluation sur toutes les exécutions.

Horodatage

Représentation JSON
{
  "seconds": string,
  "nanos": integer
}
Champs
seconds

string (int64 format)

Représente les secondes de l'heure UTC à partir de l'epoch Unix 1970-01-01T00:00:00Z. La valeur doit être comprise entre -62135596800 et 253402300799 inclus (ce qui correspond à 0001-01-01T00:00:00Z et 9999-12-31T23:59:59Z).

nanos

integer

Fractions de secondes non négatives avec une précision de l'ordre de la nanoseconde. Ce champ correspond à la partie en nanosecondes de la durée, et non à une alternative aux secondes. Les valeurs de secondes négatives avec des fractions doivent toujours comporter des valeurs de nanosecondes non négatives comptabilisées dans le temps. La valeur doit être comprise entre 0 et 999 999 999 inclus.

AggregatedMetrics

Représentation JSON
{
  "metricsByAppVersion": [
    {
      object (MetricsByAppVersion)
    }
  ]
}
Champs
metricsByAppVersion[]

object (MetricsByAppVersion)

Uniquement en sortie. Métriques agrégées, regroupées par ID de version de l'application.

MetricsByAppVersion

Représentation JSON
{
  "appVersionId": string,
  "toolMetrics": [
    {
      object (ToolMetrics)
    }
  ],
  "semanticSimilarityMetrics": [
    {
      object (SemanticSimilarityMetrics)
    }
  ],
  "hallucinationMetrics": [
    {
      object (HallucinationMetrics)
    }
  ],
  "toolCallLatencyMetrics": [
    {
      object (ToolCallLatencyMetrics)
    }
  ],
  "turnLatencyMetrics": [
    {
      object (TurnLatencyMetrics)
    }
  ],
  "passCount": integer,
  "failCount": integer,
  "metricsByTurn": [
    {
      object (MetricsByTurn)
    }
  ]
}
Champs
appVersionId

string

Uniquement en sortie. ID de version de l'application.

toolMetrics[]

object (ToolMetrics)

Uniquement en sortie. Métriques pour chaque outil de cette version de l'application.

semanticSimilarityMetrics[]

object (SemanticSimilarityMetrics)

Uniquement en sortie. Métriques de similarité sémantique dans cette version de l'application.

hallucinationMetrics[]

object (HallucinationMetrics)

Uniquement en sortie. Métriques concernant les hallucinations dans cette version de l'application.

toolCallLatencyMetrics[]

object (ToolCallLatencyMetrics)

Uniquement en sortie. Métriques pour la latence des appels d'outils dans cette version de l'application.

turnLatencyMetrics[]

object (TurnLatencyMetrics)

Uniquement en sortie. Métriques pour la latence des tours dans cette version de l'application.

passCount

integer

Uniquement en sortie. Nombre de fois où l'évaluation a été réussie.

failCount

integer

Uniquement en sortie. Nombre de fois où l'évaluation a échoué.

metricsByTurn[]

object (MetricsByTurn)

Uniquement en sortie. Métriques agrégées par tour dans cette version de l'application.

ToolMetrics

Représentation JSON
{
  "tool": string,
  "passCount": integer,
  "failCount": integer
}
Champs
tool

string

Uniquement en sortie. Nom de l'outil.

passCount

integer

Uniquement en sortie. Nombre de fois où l'outil a réussi.

failCount

integer

Uniquement en sortie. Nombre d'échecs de l'outil.

SemanticSimilarityMetrics

Représentation JSON
{
  "score": number
}
Champs
score

number

Uniquement en sortie. Score moyen de similarité sémantique (de 0 à 4).

HallucinationMetrics

Représentation JSON
{
  "score": number
}
Champs
score

number

Uniquement en sortie. Score moyen d'hallucination (de 0 à 1).

ToolCallLatencyMetrics

Représentation JSON
{
  "tool": string,
  "averageLatency": string
}
Champs
tool

string

Uniquement en sortie. Nom de l'outil.

averageLatency

string (Duration format)

Uniquement en sortie. Latence moyenne des appels d'outils.

Durée en secondes avec neuf chiffres au maximum après la virgule et se terminant par "s". Exemple : "3.5s"

Durée

Représentation JSON
{
  "seconds": string,
  "nanos": integer
}
Champs
seconds

string (int64 format)

Secondes signées de la période. La valeur doit être comprise entre -315 576 000 000 et +315 576 000 000 (inclus). Remarque : Ces limites sont calculées à partir de : 60 s/min * 60 min/h * 24 h/jour * 365,25 jours/an * 10 000 ans

nanos

integer

Fractions de secondes signées avec une précision de l'ordre de la nanoseconde pour la durée. Les durées inférieures à une seconde sont représentées par un champ seconds égal à 0 et un champ nanos positif ou négatif. Pour les durées d'une seconde ou plus, une valeur non nulle pour le champ nanos doit avoir le même signe que le champ seconds. La valeur doit être comprise entre -999 999 999 et +999 999 999 inclus.

TurnLatencyMetrics

Représentation JSON
{
  "averageLatency": string
}
Champs
averageLatency

string (Duration format)

Uniquement en sortie. Latence moyenne des tours.

Durée en secondes avec neuf chiffres au maximum après la virgule et se terminant par "s". Exemple : "3.5s"

MetricsByTurn

Représentation JSON
{
  "turnIndex": integer,
  "toolMetrics": [
    {
      object (ToolMetrics)
    }
  ],
  "semanticSimilarityMetrics": [
    {
      object (SemanticSimilarityMetrics)
    }
  ],
  "hallucinationMetrics": [
    {
      object (HallucinationMetrics)
    }
  ],
  "toolCallLatencyMetrics": [
    {
      object (ToolCallLatencyMetrics)
    }
  ],
  "turnLatencyMetrics": [
    {
      object (TurnLatencyMetrics)
    }
  ]
}
Champs
turnIndex

integer

Uniquement en sortie. Index du tour (basé sur 0).

toolMetrics[]

object (ToolMetrics)

Uniquement en sortie. Métriques pour chaque outil de ce tour.

semanticSimilarityMetrics[]

object (SemanticSimilarityMetrics)

Uniquement en sortie. Métriques de similarité sémantique pour ce tour.

hallucinationMetrics[]

object (HallucinationMetrics)

Uniquement en sortie. Métriques pour l'hallucination au cours de ce tour.

toolCallLatencyMetrics[]

object (ToolCallLatencyMetrics)

Uniquement en sortie. Métriques de latence des appels d'outils au cours de ce tour.

turnLatencyMetrics[]

object (TurnLatencyMetrics)

Uniquement en sortie. Métriques de latence de tour dans ce tour.

FieldMask

Représentation JSON
{
  "paths": [
    string
  ]
}
Champs
paths[]

string

Ensemble des chemins du masque de champ.

Schéma de sortie

Un ensemble de données d'évaluation représente un ensemble d'évaluations regroupées en fonction de tags partagés.

EvaluationDataset

Représentation JSON
{
  "name": string,
  "displayName": string,
  "evaluations": [
    string
  ],
  "createTime": string,
  "updateTime": string,
  "etag": string,
  "createdBy": string,
  "lastUpdatedBy": string,
  "aggregatedMetrics": {
    object (AggregatedMetrics)
  }
}
Champs
name

string

Identifiant. Identifiant unique de cet ensemble de données d'évaluation. Format : projects/{project}/locations/{location}/apps/{app}/evaluationDatasets/{evaluationDataset}

displayName

string

Obligatoire. Nom à afficher de l'ensemble de données d'évaluation défini par l'utilisateur. Unique dans une application.

evaluations[]

string

Facultatif. Évaluations incluses dans cet ensemble de données.

createTime

string (Timestamp format)

Uniquement en sortie. Code temporel de la création de l'ensemble de données d'évaluation.

Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

updateTime

string (Timestamp format)

Uniquement en sortie. Code temporel de la dernière mise à jour de l'ensemble de données d'évaluation.

Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" ou "2014-10-02T15:01:23+05:30".

etag

string

Uniquement en sortie. Etag utilisé pour s'assurer que l'objet n'a pas été modifié lors d'une opération de lecture/modification/écriture. Si l'etag est vide, la mise à jour écrasera toutes les modifications simultanées.

createdBy

string

Uniquement en sortie. Utilisateur qui a créé l'ensemble de données d'évaluation.

lastUpdatedBy

string

Uniquement en sortie. L'utilisateur qui a mis à jour l'ensemble de données d'évaluation en dernier.

aggregatedMetrics

object (AggregatedMetrics)

Uniquement en sortie. Métriques agrégées pour cet ensemble de données d'évaluation sur toutes les exécutions.

Horodatage

Représentation JSON
{
  "seconds": string,
  "nanos": integer
}
Champs
seconds

string (int64 format)

Représente les secondes de l'heure UTC à partir de l'epoch Unix 1970-01-01T00:00:00Z. La valeur doit être comprise entre -62135596800 et 253402300799 inclus (ce qui correspond à 0001-01-01T00:00:00Z et 9999-12-31T23:59:59Z).

nanos

integer

Fractions de secondes non négatives avec une précision de l'ordre de la nanoseconde. Ce champ correspond à la partie en nanosecondes de la durée, et non à une alternative aux secondes. Les valeurs de secondes négatives avec des fractions doivent toujours comporter des valeurs de nanosecondes non négatives comptabilisées dans le temps. La valeur doit être comprise entre 0 et 999 999 999 inclus.

AggregatedMetrics

Représentation JSON
{
  "metricsByAppVersion": [
    {
      object (MetricsByAppVersion)
    }
  ]
}
Champs
metricsByAppVersion[]

object (MetricsByAppVersion)

Uniquement en sortie. Métriques agrégées, regroupées par ID de version de l'application.

MetricsByAppVersion

Représentation JSON
{
  "appVersionId": string,
  "toolMetrics": [
    {
      object (ToolMetrics)
    }
  ],
  "semanticSimilarityMetrics": [
    {
      object (SemanticSimilarityMetrics)
    }
  ],
  "hallucinationMetrics": [
    {
      object (HallucinationMetrics)
    }
  ],
  "toolCallLatencyMetrics": [
    {
      object (ToolCallLatencyMetrics)
    }
  ],
  "turnLatencyMetrics": [
    {
      object (TurnLatencyMetrics)
    }
  ],
  "passCount": integer,
  "failCount": integer,
  "metricsByTurn": [
    {
      object (MetricsByTurn)
    }
  ]
}
Champs
appVersionId

string

Uniquement en sortie. ID de version de l'application.

toolMetrics[]

object (ToolMetrics)

Uniquement en sortie. Métriques pour chaque outil de cette version de l'application.

semanticSimilarityMetrics[]

object (SemanticSimilarityMetrics)

Uniquement en sortie. Métriques de similarité sémantique dans cette version de l'application.

hallucinationMetrics[]

object (HallucinationMetrics)

Uniquement en sortie. Métriques concernant les hallucinations dans cette version de l'application.

toolCallLatencyMetrics[]

object (ToolCallLatencyMetrics)

Uniquement en sortie. Métriques pour la latence des appels d'outils dans cette version de l'application.

turnLatencyMetrics[]

object (TurnLatencyMetrics)

Uniquement en sortie. Métriques pour la latence des tours dans cette version de l'application.

passCount

integer

Uniquement en sortie. Nombre de fois où l'évaluation a été réussie.

failCount

integer

Uniquement en sortie. Nombre de fois où l'évaluation a échoué.

metricsByTurn[]

object (MetricsByTurn)

Uniquement en sortie. Métriques agrégées par tour dans cette version de l'application.

ToolMetrics

Représentation JSON
{
  "tool": string,
  "passCount": integer,
  "failCount": integer
}
Champs
tool

string

Uniquement en sortie. Nom de l'outil.

passCount

integer

Uniquement en sortie. Nombre de fois où l'outil a réussi.

failCount

integer

Uniquement en sortie. Nombre d'échecs de l'outil.

SemanticSimilarityMetrics

Représentation JSON
{
  "score": number
}
Champs
score

number

Uniquement en sortie. Score moyen de similarité sémantique (de 0 à 4).

HallucinationMetrics

Représentation JSON
{
  "score": number
}
Champs
score

number

Uniquement en sortie. Score moyen d'hallucination (de 0 à 1).

ToolCallLatencyMetrics

Représentation JSON
{
  "tool": string,
  "averageLatency": string
}
Champs
tool

string

Uniquement en sortie. Nom de l'outil.

averageLatency

string (Duration format)

Uniquement en sortie. Latence moyenne des appels d'outils.

Durée en secondes avec neuf chiffres au maximum après la virgule et se terminant par "s". Exemple : "3.5s"

Durée

Représentation JSON
{
  "seconds": string,
  "nanos": integer
}
Champs
seconds

string (int64 format)

Secondes signées de la période. La valeur doit être comprise entre -315 576 000 000 et +315 576 000 000 (inclus). Remarque : Ces limites sont calculées à partir de : 60 s/min * 60 min/h * 24 h/jour * 365,25 jours/an * 10 000 ans

nanos

integer

Fractions de secondes signées avec une précision de l'ordre de la nanoseconde pour la durée. Les durées inférieures à une seconde sont représentées par un champ seconds égal à 0 et un champ nanos positif ou négatif. Pour les durées d'une seconde ou plus, une valeur non nulle pour le champ nanos doit avoir le même signe que le champ seconds. La valeur doit être comprise entre -999 999 999 et +999 999 999 inclus.

TurnLatencyMetrics

Représentation JSON
{
  "averageLatency": string
}
Champs
averageLatency

string (Duration format)

Uniquement en sortie. Latence moyenne des tours.

Durée en secondes avec neuf chiffres au maximum après la virgule et se terminant par "s". Exemple : "3.5s"

MetricsByTurn

Représentation JSON
{
  "turnIndex": integer,
  "toolMetrics": [
    {
      object (ToolMetrics)
    }
  ],
  "semanticSimilarityMetrics": [
    {
      object (SemanticSimilarityMetrics)
    }
  ],
  "hallucinationMetrics": [
    {
      object (HallucinationMetrics)
    }
  ],
  "toolCallLatencyMetrics": [
    {
      object (ToolCallLatencyMetrics)
    }
  ],
  "turnLatencyMetrics": [
    {
      object (TurnLatencyMetrics)
    }
  ]
}
Champs
turnIndex

integer

Uniquement en sortie. Index du tour (basé sur 0).

toolMetrics[]

object (ToolMetrics)

Uniquement en sortie. Métriques pour chaque outil de ce tour.

semanticSimilarityMetrics[]

object (SemanticSimilarityMetrics)

Uniquement en sortie. Métriques de similarité sémantique pour ce tour.

hallucinationMetrics[]

object (HallucinationMetrics)

Uniquement en sortie. Métriques pour l'hallucination au cours de ce tour.

toolCallLatencyMetrics[]

object (ToolCallLatencyMetrics)

Uniquement en sortie. Métriques de latence des appels d'outils au cours de ce tour.

turnLatencyMetrics[]

object (TurnLatencyMetrics)

Uniquement en sortie. Métriques de latence de tour dans ce tour.

Annotations d'outils

Indication de destruction : ❌ | Indication d'idempotence : ❌ | Indication de lecture seule : ❌ | Indication de monde ouvert : ❌