Outil : get_evaluation_dataset
Accède aux détails de l'ensemble de données d'évaluation spécifié.
L'exemple suivant montre comment utiliser curl pour appeler l'outil MCP get_evaluation_dataset.
| Requête curl |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "get_evaluation_dataset", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
Schéma d'entrée
Message de requête pour EvaluationService.GetEvaluationDataset.
GetEvaluationDatasetRequest
| Représentation JSON |
|---|
{ "name": string } |
| Champs | |
|---|---|
name |
Obligatoire. Nom de ressource de l'ensemble de données d'évaluation à récupérer. |
Schéma de sortie
Un ensemble de données d'évaluation représente un ensemble d'évaluations regroupées en fonction de tags partagés.
EvaluationDataset
| Représentation JSON |
|---|
{
"name": string,
"displayName": string,
"evaluations": [
string
],
"createTime": string,
"updateTime": string,
"etag": string,
"createdBy": string,
"lastUpdatedBy": string,
"aggregatedMetrics": {
object ( |
| Champs | |
|---|---|
name |
Identifiant. Identifiant unique de cet ensemble de données d'évaluation. Format : |
displayName |
Obligatoire. Nom à afficher de l'ensemble de données d'évaluation défini par l'utilisateur. Unique dans une application. |
evaluations[] |
Facultatif. Évaluations incluses dans cet ensemble de données. |
createTime |
Uniquement en sortie. Code temporel de la création de l'ensemble de données d'évaluation. Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : |
updateTime |
Uniquement en sortie. Code temporel de la dernière mise à jour de l'ensemble de données d'évaluation. Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : |
etag |
Uniquement en sortie. Etag utilisé pour s'assurer que l'objet n'a pas été modifié lors d'une opération de lecture/modification/écriture. Si l'etag est vide, la mise à jour écrasera toutes les modifications simultanées. |
createdBy |
Uniquement en sortie. Utilisateur qui a créé l'ensemble de données d'évaluation. |
lastUpdatedBy |
Uniquement en sortie. L'utilisateur qui a mis à jour l'ensemble de données d'évaluation en dernier. |
aggregatedMetrics |
Uniquement en sortie. Métriques agrégées pour cet ensemble de données d'évaluation sur toutes les exécutions. |
Horodatage
| Représentation JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Champs | |
|---|---|
seconds |
Représente les secondes de l'heure UTC à partir de l'epoch Unix 1970-01-01T00:00:00Z. La valeur doit être comprise entre -62135596800 et 253402300799 inclus (ce qui correspond à 0001-01-01T00:00:00Z et 9999-12-31T23:59:59Z). |
nanos |
Fractions de secondes non négatives avec une précision de l'ordre de la nanoseconde. Ce champ correspond à la partie en nanosecondes de la durée, et non à une alternative aux secondes. Les valeurs de secondes négatives avec des fractions doivent toujours comporter des valeurs de nanosecondes non négatives comptabilisées dans le temps. La valeur doit être comprise entre 0 et 999 999 999 inclus. |
AggregatedMetrics
| Représentation JSON |
|---|
{
"metricsByAppVersion": [
{
object ( |
| Champs | |
|---|---|
metricsByAppVersion[] |
Uniquement en sortie. Métriques agrégées, regroupées par ID de version de l'application. |
MetricsByAppVersion
| Représentation JSON |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| Champs | |
|---|---|
appVersionId |
Uniquement en sortie. ID de version de l'application. |
toolMetrics[] |
Uniquement en sortie. Métriques pour chaque outil de cette version de l'application. |
semanticSimilarityMetrics[] |
Uniquement en sortie. Métriques de similarité sémantique dans cette version de l'application. |
hallucinationMetrics[] |
Uniquement en sortie. Métriques concernant les hallucinations dans cette version de l'application. |
toolCallLatencyMetrics[] |
Uniquement en sortie. Métriques pour la latence des appels d'outils dans cette version de l'application. |
turnLatencyMetrics[] |
Uniquement en sortie. Métriques pour la latence des tours dans cette version de l'application. |
passCount |
Uniquement en sortie. Nombre de fois où l'évaluation a été réussie. |
failCount |
Uniquement en sortie. Nombre de fois où l'évaluation a échoué. |
metricsByTurn[] |
Uniquement en sortie. Métriques agrégées par tour dans cette version de l'application. |
ToolMetrics
| Représentation JSON |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| Champs | |
|---|---|
tool |
Uniquement en sortie. Nom de l'outil. |
passCount |
Uniquement en sortie. Nombre de fois où l'outil a réussi. |
failCount |
Uniquement en sortie. Nombre d'échecs de l'outil. |
SemanticSimilarityMetrics
| Représentation JSON |
|---|
{ "score": number } |
| Champs | |
|---|---|
score |
Uniquement en sortie. Score moyen de similarité sémantique (de 0 à 4). |
HallucinationMetrics
| Représentation JSON |
|---|
{ "score": number } |
| Champs | |
|---|---|
score |
Uniquement en sortie. Score moyen d'hallucination (de 0 à 1). |
ToolCallLatencyMetrics
| Représentation JSON |
|---|
{ "tool": string, "averageLatency": string } |
| Champs | |
|---|---|
tool |
Uniquement en sortie. Nom de l'outil. |
averageLatency |
Uniquement en sortie. Latence moyenne des appels d'outils. Durée en secondes avec neuf chiffres au maximum après la virgule et se terminant par " |
Durée
| Représentation JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Champs | |
|---|---|
seconds |
Secondes signées de la période. La valeur doit être comprise entre -315 576 000 000 et +315 576 000 000 (inclus). Remarque : Ces limites sont calculées à partir de : 60 s/min * 60 min/h * 24 h/jour * 365,25 jours/an * 10 000 ans |
nanos |
Fractions de secondes signées avec une précision de l'ordre de la nanoseconde pour la durée. Les durées inférieures à une seconde sont représentées par un champ |
TurnLatencyMetrics
| Représentation JSON |
|---|
{ "averageLatency": string } |
| Champs | |
|---|---|
averageLatency |
Uniquement en sortie. Latence moyenne des tours. Durée en secondes avec neuf chiffres au maximum après la virgule et se terminant par " |
MetricsByTurn
| Représentation JSON |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| Champs | |
|---|---|
turnIndex |
Uniquement en sortie. Index du tour (basé sur 0). |
toolMetrics[] |
Uniquement en sortie. Métriques pour chaque outil de ce tour. |
semanticSimilarityMetrics[] |
Uniquement en sortie. Métriques de similarité sémantique pour ce tour. |
hallucinationMetrics[] |
Uniquement en sortie. Métriques pour l'hallucination au cours de ce tour. |
toolCallLatencyMetrics[] |
Uniquement en sortie. Métriques de latence des appels d'outils au cours de ce tour. |
turnLatencyMetrics[] |
Uniquement en sortie. Métriques de latence de tour dans ce tour. |
Annotations d'outils
Indication destructive : ❌ | Indication idempotente : ✅ | Indication en lecture seule : ✅ | Indication Open World : ❌