Outil : list_evaluation_runs
Liste les exécutions d'évaluation.
L'exemple suivant montre comment utiliser curl pour appeler l'outil MCP list_evaluation_runs.
| Requête curl |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "list_evaluation_runs", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
Schéma d'entrée
Message de requête pour EvaluationService.ListEvaluationRuns.
ListEvaluationRunsRequest
| Représentation JSON |
|---|
{ "parent": string, "pageSize": integer, "pageToken": string, "filter": string, "orderBy": string } |
| Champs | |
|---|---|
parent |
Obligatoire. Nom de ressource de l'application à partir de laquelle lister les exécutions d'évaluation. |
pageSize |
Facultatif. Taille de la page demandée. Le serveur peut renvoyer un nombre d'éléments inférieur à celui demandé. Si aucune valeur n'est spécifiée, le serveur sélectionne une valeur par défaut appropriée. |
pageToken |
Facultatif. Valeur |
filter |
Facultatif. Filtre à appliquer lors de la liste des exécutions d'évaluation. Pour en savoir plus, consultez https://google.aip.dev/160. |
orderBy |
Facultatif. Champ de tri. Seuls "name", "create_time" et "update_time" sont acceptés. Les champs de temps sont triés par ordre décroissant, et le champ de nom est trié par ordre croissant. Si elle n'est pas incluse, "update_time" sera la valeur par défaut. Pour en savoir plus, consultez https://google.aip.dev/132#ordering. |
Schéma de sortie
Message de réponse pour EvaluationService.ListEvaluationRuns.
ListEvaluationRunsResponse
| Représentation JSON |
|---|
{
"evaluationRuns": [
{
object ( |
| Champs | |
|---|---|
evaluationRuns[] |
Liste des exécutions d'évaluation. |
nextPageToken |
Jeton pouvant être envoyé en tant que |
EvaluationRun
| Représentation JSON |
|---|
{ "name": string, "displayName": string, "evaluationResults": [ string ], "createTime": string, "initiatedBy": string, "appVersion": string, "appVersionDisplayName": string, "changelog": string, "changelogCreateTime": string, "evaluations": [ string ], "evaluationDataset": string, "evaluationType": enum ( |
| Champs | |
|---|---|
name |
Identifiant. Identifiant unique de l'exécution de l'évaluation. Format : |
displayName |
Facultatif. Nom à afficher défini par l'utilisateur pour l'exécution de l'évaluation. Par défaut : " |
evaluationResults[] |
Uniquement en sortie. Résultats de l'évaluation qui font partie de cette exécution. Format : |
createTime |
Uniquement en sortie. Code temporel de la création de l'exécution de l'évaluation. Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : |
initiatedBy |
Uniquement en sortie. Utilisateur ayant lancé l'exécution de l'évaluation. |
appVersion |
Uniquement en sortie. Version de l'application à évaluer. Format : |
appVersionDisplayName |
Uniquement en sortie. Nom à afficher du |
changelog |
Uniquement en sortie. Journal des modifications de la version de l'application par rapport à laquelle l'évaluation a été exécutée. Cette valeur est renseignée si l'utilisateur exécute l'évaluation sur la dernière version ou le brouillon. |
changelogCreateTime |
Uniquement en sortie. Heure de création du journal des modifications de la version de l'application par rapport à laquelle l'évaluation a été effectuée. Cette valeur est renseignée si l'utilisateur exécute l'évaluation sur la dernière version ou le brouillon. Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : |
evaluations[] |
Uniquement en sortie. Évaluations incluses dans cette exécution. La liste peut contenir des évaluations de l'un ou l'autre type. Ce champ s'exclut mutuellement avec |
evaluationDataset |
Uniquement en sortie. Ensemble de données d'évaluation auquel cette exécution est associée. Ce champ s'exclut mutuellement avec |
evaluationType |
Uniquement en sortie. Type d'évaluations dans cette exécution. |
state |
Uniquement en sortie. État de l'exécution de l'évaluation. |
progress |
Uniquement en sortie. Progression de l'exécution de l'évaluation. |
config |
Uniquement en sortie. Configuration utilisée lors de l'exécution. |
error |
Uniquement en sortie. Obsolète : utilisez error_info à la place. Erreurs rencontrées lors de l'exécution. |
errorInfo |
Uniquement en sortie. Informations sur les erreurs liées à l'exécution de l'évaluation. |
evaluationRunSummaries |
Uniquement en sortie. Mappage du nom de l'évaluation sur EvaluationRunSummary. Objet contenant une liste de paires |
latencyReport |
Uniquement en sortie. Rapport sur la latence pour l'exécution de l'évaluation. |
runCount |
Uniquement en sortie. Nombre de fois que les évaluations de l'exécution ont été effectuées. |
personaRunConfigs[] |
Uniquement en sortie. Configuration à utiliser pour l'exécution par persona. |
optimizationConfig |
Facultatif. Configuration pour exécuter l'étape d'optimisation après l'exécution de l'évaluation. Si elle n'est pas définie, l'étape d'optimisation ne sera pas exécutée. |
scheduledEvaluationRun |
Uniquement en sortie. Nom de ressource de l'exécution d'évaluation planifiée qui a créé cette exécution d'évaluation. Ce champ n'est défini que si l'exécution de l'évaluation a été créée par une exécution d'évaluation planifiée. Format : |
goldenRunMethod |
Uniquement en sortie. Méthode utilisée pour exécuter l'évaluation. |
Horodatage
| Représentation JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Champs | |
|---|---|
seconds |
Représente les secondes de l'heure UTC à partir de l'epoch Unix 1970-01-01T00:00:00Z. La valeur doit être comprise entre -62135596800 et 253402300799 inclus (ce qui correspond à 0001-01-01T00:00:00Z et 9999-12-31T23:59:59Z). |
nanos |
Fractions de secondes non négatives avec une précision de l'ordre de la nanoseconde. Ce champ correspond à la partie en nanosecondes de la durée, et non à une alternative aux secondes. Les valeurs de secondes négatives avec des fractions doivent toujours comporter des valeurs de nanosecondes non négatives comptabilisées dans le temps. La valeur doit être comprise entre 0 et 999 999 999 inclus. |
Progression
| Représentation JSON |
|---|
{ "totalCount": integer, "failedCount": integer, "errorCount": integer, "completedCount": integer, "passedCount": integer } |
| Champs | |
|---|---|
totalCount |
Uniquement en sortie. Nombre total de résultats d'évaluation dans cette exécution. |
failedCount |
Uniquement en sortie. Nombre de résultats d'évaluation terminés avec un résultat ÉCHEC. (EvaluationResult.execution_state est défini sur COMPLETED et EvaluationResult.evaluation_status est défini sur FAIL). |
errorCount |
Uniquement en sortie. Nombre de résultats d'évaluation dont l'exécution a échoué. (EvaluationResult.execution_state est défini sur ERROR). |
completedCount |
Uniquement en sortie. Nombre de résultats d'évaluation qui ont abouti. (EvaluationResult.execution_state est défini sur COMPLETED). |
passedCount |
Uniquement en sortie. Nombre de résultats d'évaluation terminés avec le résultat "RÉUSSITE". (EvaluationResult.execution_state est défini sur COMPLETED et EvaluationResult.evaluation_status est défini sur PASS). |
EvaluationConfig
| Représentation JSON |
|---|
{ "inputAudioConfig": { object ( |
| Champs | |
|---|---|
inputAudioConfig |
Facultatif. Configuration pour le traitement de l'entrée audio. |
outputAudioConfig |
Facultatif. Configuration pour générer le contenu audio de sortie. |
evaluationChannel |
Facultatif. Chaîne à évaluer. |
toolCallBehaviour |
Facultatif. Indique si l'évaluation doit utiliser de vrais appels d'outils ou des outils factices. |
InputAudioConfig
| Représentation JSON |
|---|
{
"audioEncoding": enum ( |
| Champs | |
|---|---|
audioEncoding |
Obligatoire. Encodage des données audio d'entrée. |
sampleRateHertz |
Obligatoire. Taux d'échantillonnage (en hertz) des données audio d'entrée. |
noiseSuppressionLevel |
Facultatif. Indique si la suppression du bruit doit être activée pour l'entrée audio. Les valeurs disponibles sont "low", "moderate", "high" et "very_high". |
OutputAudioConfig
| Représentation JSON |
|---|
{
"audioEncoding": enum ( |
| Champs | |
|---|---|
audioEncoding |
Obligatoire. Encodage des données audio de sortie. |
sampleRateHertz |
Obligatoire. Taux d'échantillonnage (en hertz) des données audio de sortie. |
État
| Représentation JSON |
|---|
{ "code": integer, "message": string, "details": [ { "@type": string, field1: ..., ... } ] } |
| Champs | |
|---|---|
code |
Code d'état, qui doit être une valeur d'énumération de |
message |
Message d'erreur destiné au développeur, qui doit être en anglais. Tout message d'erreur destiné aux utilisateurs doit être localisé et envoyé dans le champ |
details[] |
Liste de messages comportant les détails de l'erreur. Il existe un ensemble commun de types de message utilisable par les API. Objet contenant des champs d'un type arbitraire. Un champ supplémentaire |
Tous
| Représentation JSON |
|---|
{ "typeUrl": string, "value": string } |
| Champs | |
|---|---|
typeUrl |
Identifie le type du message Protobuf sérialisé avec une référence URI composée d'un préfixe se terminant par une barre oblique et du nom de type complet. Exemple : type.googleapis.com/google.protobuf.StringValue Cette chaîne doit contenir au moins un caractère Le préfixe est arbitraire et les implémentations Protobuf sont censées supprimer tout ce qui précède le dernier Toutes les chaînes d'URL de type doivent être des références URI légales avec la restriction supplémentaire (pour le format texte) que le contenu de la référence ne doit être composé que de caractères alphanumériques, d'échappements encodés en pourcentage et de caractères de l'ensemble suivant (sans les accents graves extérieurs) : Dans la conception d'origine de |
value |
Contient une sérialisation Protobuf du type décrit par type_url. Chaîne encodée en base64. |
EvaluationErrorInfo
| Représentation JSON |
|---|
{
"errorType": enum ( |
| Champs | |
|---|---|
errorType |
Uniquement en sortie. Type d'erreur. |
errorMessage |
Uniquement en sortie. Message d'erreur. |
sessionId |
Uniquement en sortie. ID de session de la conversation à l'origine de l'erreur. |
EvaluationRunSummariesEntry
| Représentation JSON |
|---|
{
"key": string,
"value": {
object ( |
| Champs | |
|---|---|
key |
|
value |
|
EvaluationRunSummary
| Représentation JSON |
|---|
{ "passedCount": integer, "failedCount": integer, "errorCount": integer } |
| Champs | |
|---|---|
passedCount |
Uniquement en sortie. Nombre de résultats réussis pour l'évaluation associée lors de cette exécution. |
failedCount |
Uniquement en sortie. Nombre de résultats ayant échoué pour l'évaluation associée lors de cette exécution. |
errorCount |
Uniquement en sortie. Nombre de résultats d'erreur pour l'évaluation associée lors de cette exécution. |
LatencyReport
| Représentation JSON |
|---|
{ "toolLatencies": [ { object ( |
| Champs | |
|---|---|
toolLatencies[] |
Uniquement en sortie. Liste non triée. Métriques de latence pour chaque outil. |
callbackLatencies[] |
Uniquement en sortie. Liste non triée. Métriques de latence pour chaque rappel. |
guardrailLatencies[] |
Uniquement en sortie. Liste non triée. Métriques de latence pour chaque garde-fou. |
llmCallLatencies[] |
Uniquement en sortie. Liste non triée. Métriques de latence pour chaque appel LLM. |
sessionCount |
Uniquement en sortie. Nombre total de sessions prises en compte dans le rapport sur la latence. |
ToolLatency
| Représentation JSON |
|---|
{ "toolDisplayName": string, "latencyMetrics": { object ( |
| Champs | |
|---|---|
toolDisplayName |
Uniquement en sortie. Nom à afficher de l'outil. |
latencyMetrics |
Uniquement en sortie. Métriques de latence de l'outil. |
Champ d'union tool_identifier. Identifiant de l'outil. tool_identifier ne peut être qu'un des éléments suivants : |
|
tool |
Uniquement en sortie. Format : |
toolsetTool |
Uniquement en sortie. Identifiant de l'outil du toolset. |
ToolsetTool
| Représentation JSON |
|---|
{ "toolset": string, "toolId": string } |
| Champs | |
|---|---|
toolset |
Obligatoire. Nom de ressource de l'ensemble d'outils à partir duquel cet outil est dérivé. Format : |
toolId |
Facultatif. ID de l'outil permettant de filtrer les outils pour récupérer le schéma. |
LatencyMetrics
| Représentation JSON |
|---|
{ "p50Latency": string, "p90Latency": string, "p99Latency": string, "callCount": integer } |
| Champs | |
|---|---|
p50Latency |
Uniquement en sortie. Latence au 50e centile. Durée en secondes avec neuf chiffres au maximum après la virgule et se terminant par " |
p90Latency |
Uniquement en sortie. Latence au 90e centile. Durée en secondes avec neuf chiffres au maximum après la virgule et se terminant par " |
p99Latency |
Uniquement en sortie. Latence au 99e centile. Durée en secondes avec neuf chiffres au maximum après la virgule et se terminant par " |
callCount |
Uniquement en sortie. Nombre de fois où la ressource a été appelée. |
Durée
| Représentation JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Champs | |
|---|---|
seconds |
Secondes signées de la période. La valeur doit être comprise entre -315 576 000 000 et +315 576 000 000 (inclus). Remarque : Ces limites sont calculées à partir de : 60 s/min * 60 min/h * 24 h/jour * 365,25 jours/an * 10 000 ans |
nanos |
Fractions de secondes signées avec une précision de l'ordre de la nanoseconde pour la durée. Les durées inférieures à une seconde sont représentées par un champ |
CallbackLatency
| Représentation JSON |
|---|
{
"stage": string,
"latencyMetrics": {
object ( |
| Champs | |
|---|---|
stage |
Uniquement en sortie. Étape du rappel. |
latencyMetrics |
Uniquement en sortie. Métriques de latence pour le rappel. |
GuardrailLatency
| Représentation JSON |
|---|
{
"guardrail": string,
"guardrailDisplayName": string,
"latencyMetrics": {
object ( |
| Champs | |
|---|---|
guardrail |
Uniquement en sortie. Nom du garde-fou. Format : |
guardrailDisplayName |
Uniquement en sortie. Nom à afficher du garde-fou. |
latencyMetrics |
Uniquement en sortie. Métriques de latence pour le garde-fou. |
LlmCallLatency
| Représentation JSON |
|---|
{
"model": string,
"latencyMetrics": {
object ( |
| Champs | |
|---|---|
model |
Uniquement en sortie. Nom du modèle. |
latencyMetrics |
Uniquement en sortie. Métriques de latence pour l'appel LLM. |
PersonaRunConfig
| Représentation JSON |
|---|
{ "persona": string, "taskCount": integer } |
| Champs | |
|---|---|
persona |
Facultatif. Personnalité à utiliser pour l'évaluation. Format : |
taskCount |
Facultatif. Nombre de tâches à exécuter pour le persona. |
OptimizationConfig
| Représentation JSON |
|---|
{
"generateLossReport": boolean,
"assistantSession": string,
"reportSummary": string,
"shouldSuggestFix": boolean,
"status": enum ( |
| Champs | |
|---|---|
generateLossReport |
Facultatif. Indique si un rapport sur les pertes doit être généré. |
assistantSession |
Uniquement en sortie. Session de l'assistant à utiliser pour l'optimisation en fonction de cette exécution d'évaluation. Format : |
reportSummary |
Uniquement en sortie. Résumé du rapport sur les pertes. |
shouldSuggestFix |
Uniquement en sortie. Indique s'il faut suggérer une correction pour les pertes. |
status |
Uniquement en sortie. État de l'exécution de l'optimisation. |
errorMessage |
Uniquement en sortie. Message d'erreur si l'exécution de l'optimisation a échoué. |
lossReport |
Uniquement en sortie. Rapport sur les pertes généré. |
Struct
| Représentation JSON |
|---|
{ "fields": { string: value, ... } } |
| Champs | |
|---|---|
fields |
Carte non ordonnée de valeurs typées de manière dynamique. Objet contenant une liste de paires |
FieldsEntry
| Représentation JSON |
|---|
{ "key": string, "value": value } |
| Champs | |
|---|---|
key |
|
value |
|
Valeur
| Représentation JSON |
|---|
{ // Union field |
| Champs | |
|---|---|
Champ d'union kind. Type de valeur. kind ne peut être qu'un des éléments suivants : |
|
nullValue |
Représente une valeur nulle. |
numberValue |
Représente une valeur double. |
stringValue |
Représente une valeur de chaîne. |
boolValue |
Représente une valeur booléenne. |
structValue |
Représente une valeur structurée. |
listValue |
Représente un |
ListValue
| Représentation JSON |
|---|
{ "values": [ value ] } |
| Champs | |
|---|---|
values[] |
Champ répété de valeurs typées de manière dynamique. |
Annotations d'outils
Indication destructive : ❌ | Indication idempotente : ✅ | Indication en lecture seule : ✅ | Indication Open World : ❌