Outil : list_evaluations
Répertorie les évaluations.
L'exemple suivant montre comment utiliser curl pour appeler l'outil MCP list_evaluations.
| Requête curl |
|---|
curl --location 'https://ces.[REGION].rep.googleapis.com/mcp' \ --header 'content-type: application/json' \ --header 'accept: application/json, text/event-stream' \ --data '{ "method": "tools/call", "params": { "name": "list_evaluations", "arguments": { // provide these details according to the tool's MCP specification } }, "jsonrpc": "2.0", "id": 1 }' |
Schéma d'entrée
Message de requête pour EvaluationService.ListEvaluations.
ListEvaluationsRequest
| Représentation JSON |
|---|
{ "parent": string, "pageSize": integer, "pageToken": string, "filter": string, "evaluationFilter": string, "evaluationRunFilter": string, "orderBy": string, "lastTenResults": boolean } |
| Champs | |
|---|---|
parent |
Obligatoire. Nom de ressource de l'application à partir de laquelle lister les évaluations. |
pageSize |
Facultatif. Taille de la page demandée. Le serveur peut renvoyer un nombre d'éléments inférieur à celui demandé. Si aucune valeur n'est spécifiée, le serveur sélectionne une valeur par défaut appropriée. |
pageToken |
Facultatif. Valeur |
filter |
Facultatif. Obsolète : utilisez plutôt evaluation_filter et evaluation_run_filter. |
evaluationFilter |
Facultatif. Filtre à appliquer à l'évaluation lors de la liste des évaluations. Pour en savoir plus, consultez https://google.aip.dev/160. Champs acceptés : evaluation_datasets |
evaluationRunFilter |
Facultatif. Chaîne de filtre pour les champs des ressources EvaluationRun associées. Pour en savoir plus, consultez https://google.aip.dev/160. Champs acceptés : create_time, initiated_by, app_version_display_name |
orderBy |
Facultatif. Champ de tri. Seuls "name", "create_time" et "update_time" sont acceptés. Les champs de temps sont triés par ordre décroissant, et le champ de nom est trié par ordre croissant. Si elle n'est pas incluse, "update_time" sera la valeur par défaut. Pour en savoir plus, consultez https://google.aip.dev/132#ordering. |
lastTenResults |
Facultatif. Indique si les 10 derniers résultats d'évaluation pour chaque évaluation doivent être inclus dans la réponse. |
Schéma de sortie
Message de réponse pour EvaluationService.ListEvaluations.
ListEvaluationsResponse
| Représentation JSON |
|---|
{
"evaluations": [
{
object ( |
| Champs | |
|---|---|
evaluations[] |
Liste des évaluations. |
nextPageToken |
Jeton pouvant être envoyé en tant que |
Évaluation
| Représentation JSON |
|---|
{ "name": string, "displayName": string, "description": string, "tags": [ string ], "evaluationDatasets": [ string ], "createTime": string, "createdBy": string, "updateTime": string, "lastUpdatedBy": string, "evaluationRuns": [ string ], "etag": string, "aggregatedMetrics": { object ( |
| Champs | |
|---|---|
name |
Identifiant. Identifiant unique de cette évaluation. Format : |
displayName |
Obligatoire. Nom à afficher de l'évaluation défini par l'utilisateur. Unique dans une application. |
description |
Facultatif. Description de l'évaluation définie par l'utilisateur. |
tags[] |
Facultatif. Tags définis par l'utilisateur pour catégoriser l'évaluation. |
evaluationDatasets[] |
Uniquement en sortie. Liste des ensembles de données d'évaluation auxquels appartient l'évaluation. Format : |
createTime |
Uniquement en sortie. Horodatage de la création de l'évaluation. Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : |
createdBy |
Uniquement en sortie. Utilisateur qui a créé l'évaluation. |
updateTime |
Uniquement en sortie. Code temporel de la dernière mise à jour de l'évaluation. Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : |
lastUpdatedBy |
Uniquement en sortie. L'utilisateur qui a mis à jour l'évaluation pour la dernière fois. |
evaluationRuns[] |
Uniquement en sortie. EvaluationRuns auxquels cette évaluation est associée. |
etag |
Uniquement en sortie. Etag utilisé pour s'assurer que l'objet n'a pas été modifié lors d'une opération de lecture/modification/écriture. Si l'etag est vide, la mise à jour écrasera toutes les modifications simultanées. |
aggregatedMetrics |
Uniquement en sortie. Métriques agrégées pour cette évaluation sur toutes les exécutions. |
lastCompletedResult |
Uniquement en sortie. Le dernier résultat de l'évaluation. |
invalid |
Uniquement en sortie. Indique si l'évaluation n'est pas valide. Cela peut se produire si une évaluation fait référence à un outil, un ensemble d'outils ou un agent qui a été supprimé depuis. |
lastTenResults[] |
Uniquement en sortie. Les 10 derniers résultats d'évaluation pour cette évaluation. Cette valeur n'est renseignée que si include_last_ten_results est défini sur "true" dans ListEvaluationsRequest ou GetEvaluationRequest. |
Champ d'union inputs. Les entrées de l'évaluation inputs ne peuvent être que l'une des suivantes : |
|
golden |
Facultatif. Étapes optimales à évaluer. |
scenario |
Facultatif. Configuration d'un scénario. |
Doré
| Représentation JSON |
|---|
{
"turns": [
{
object ( |
| Champs | |
|---|---|
turns[] |
Obligatoire. Nombre de tours en or requis pour rejouer une conversation en or. |
evaluationExpectations[] |
Facultatif. Attentes d'évaluation par rapport auxquelles évaluer la conversation rejouée. Format : |
GoldenTurn
| Représentation JSON |
|---|
{ "steps": [ { object ( |
| Champs | |
|---|---|
steps[] |
Obligatoire. Étapes à suivre pour rejouer une conversation en or. |
rootSpan |
Facultatif. Portée racine du tour d'or pour le traitement et la gestion des informations audio. |
Étape
| Représentation JSON |
|---|
{ // Union field |
| Champs | |
|---|---|
Champ d'union step. Étape à suivre. step ne peut être qu'un des éléments suivants : |
|
userInput |
Facultatif. Données saisies par l'utilisateur pour la conversation. |
agentTransfer |
Facultatif. transférer la conversation à un autre agent ; |
expectation |
Facultatif. Exécute une attente pour le tour actuel. |
SessionInput
| Représentation JSON |
|---|
{ "willContinue": boolean, // Union field |
| Champs | |
|---|---|
willContinue |
Facultatif. Indicateur permettant de déterminer si le message actuel est un fragment d'une entrée plus grande dans la session de streaming bidirectionnel. Si la valeur est définie sur REMARQUE : Ce champ ne s'applique pas aux entrées audio et DTMF, car elles sont toujours traitées automatiquement en fonction du signal de fin. |
Champ d'union input_type. Type d'entrée. input_type ne peut être qu'un des éléments suivants : |
|
text |
Facultatif. Données textuelles de l'utilisateur final. |
dtmf |
Facultatif. Chiffres DTMF de l'utilisateur final. |
audio |
Facultatif. Données audio de l'utilisateur final. Chaîne encodée en base64. |
toolResponses |
Facultatif. Résultats d'exécution des appels d'outils du client. |
image |
Facultatif. Données d'image de l'utilisateur final. |
blob |
Facultatif. Données blob de l'utilisateur final. |
variables |
Facultatif. Variables contextuelles pour la session, identifiées par leur nom. L'agent CES n'utilisera que les variables déclarées dans l'application. Les variables non reconnues seront toujours envoyées à l'[agent Dialogflow][Agent.RemoteDialogflowAgent] en tant que paramètres de session supplémentaires. |
event |
Facultatif. Saisie d'événement. |
ToolResponses
| Représentation JSON |
|---|
{
"toolResponses": [
{
object ( |
| Champs | |
|---|---|
toolResponses[] |
Facultatif. Liste des résultats d'exécution de l'outil. |
ToolResponse
| Représentation JSON |
|---|
{ "id": string, "displayName": string, "response": { object }, // Union field |
| Champs | |
|---|---|
id |
Facultatif. ID correspondant du |
displayName |
Uniquement en sortie. Nom à afficher de l'outil. |
response |
Obligatoire. Résultat de l'exécution de l'outil au format d'objet JSON. Utilisez la clé "output" pour spécifier la réponse de l'outil et la clé "error" pour spécifier les détails de l'erreur (le cas échéant). Si les clés "output" et "error" ne sont pas spécifiées, l'ensemble de la "response" est traité comme le résultat de l'exécution de l'outil. |
Champ d'union tool_identifier. Identifiant de l'outil qui a été exécuté. Il peut s'agir d'un outil persistant ou d'un outil d'un ensemble d'outils. tool_identifier ne peut être qu'un des éléments suivants : |
|
tool |
Facultatif. Nom de l'outil à exécuter. Format : |
toolsetTool |
Facultatif. Outil de l'ensemble d'outils qui a été exécuté. |
ToolsetTool
| Représentation JSON |
|---|
{ "toolset": string, "toolId": string } |
| Champs | |
|---|---|
toolset |
Obligatoire. Nom de ressource de l'ensemble d'outils à partir duquel cet outil est dérivé. Format : |
toolId |
Facultatif. ID de l'outil permettant de filtrer les outils pour récupérer le schéma. |
Struct
| Représentation JSON |
|---|
{ "fields": { string: value, ... } } |
| Champs | |
|---|---|
fields |
Carte non ordonnée de valeurs typées de manière dynamique. Objet contenant une liste de paires |
FieldsEntry
| Représentation JSON |
|---|
{ "key": string, "value": value } |
| Champs | |
|---|---|
key |
|
value |
|
Valeur
| Représentation JSON |
|---|
{ // Union field |
| Champs | |
|---|---|
Champ d'union kind. Type de valeur. kind ne peut être qu'un des éléments suivants : |
|
nullValue |
Représente une valeur nulle. |
numberValue |
Représente une valeur double. |
stringValue |
Représente une valeur de chaîne. |
boolValue |
Représente une valeur booléenne. |
structValue |
Représente une valeur structurée. |
listValue |
Représente un |
ListValue
| Représentation JSON |
|---|
{ "values": [ value ] } |
| Champs | |
|---|---|
values[] |
Champ répété de valeurs typées de manière dynamique. |
Image
| Représentation JSON |
|---|
{ "mimeType": string, "data": string } |
| Champs | |
|---|---|
mimeType |
Obligatoire. Type MIME standard IANA des données sources. Les types d'images acceptés sont les suivants : * image/png * image/jpeg * image/webp |
data |
Obligatoire. Octets bruts de l'image. Chaîne encodée en base64. |
Blob
| Représentation JSON |
|---|
{ "mimeType": string, "data": string } |
| Champs | |
|---|---|
mimeType |
Obligatoire. Type MIME standard IANA des données sources. |
data |
Obligatoire. Octets bruts du blob. Chaîne encodée en base64. |
Événement
| Représentation JSON |
|---|
{ "event": string } |
| Champs | |
|---|---|
event |
Obligatoire. Nom de l'événement. |
AgentTransfer
| Représentation JSON |
|---|
{ "targetAgent": string, "displayName": string } |
| Champs | |
|---|---|
targetAgent |
Obligatoire. Agent auquel la conversation est transférée. L'agent prendra le relais à partir de ce moment. Format : |
displayName |
Uniquement en sortie. Nom à afficher de l'agent. |
GoldenExpectation
| Représentation JSON |
|---|
{ "note": string, // Union field |
| Champs | |
|---|---|
note |
Facultatif. Note concernant cette exigence, utile pour les rapports lorsque des vérifications spécifiques échouent. Exemple : "Check_Payment_Tool_Called". |
Champ d'union condition. Vérification à effectuer. condition ne peut être qu'un des éléments suivants : |
|
toolCall |
Facultatif. Vérifiez qu'un outil spécifique a été appelé avec les paramètres. |
toolResponse |
Facultatif. Vérifiez qu'un outil spécifique a donné la réponse attendue. |
agentResponse |
Facultatif. Vérifiez que l'agent a répondu correctement. Le rôle "agent" est implicite. |
agentTransfer |
Facultatif. Vérifiez que l'agent a transféré la conversation à un autre agent. |
updatedVariables |
Facultatif. Vérifiez que l'agent a défini les variables de session sur les valeurs attendues. Permet également de capturer les mises à jour des variables d'agent pour les évaluations de référence. |
mockToolResponse |
Facultatif. Réponse de l'outil à simuler, avec les paramètres qui vous intéressent spécifiés. Tous les paramètres non spécifiés seront générés par le LLM. |
ToolCall
| Représentation JSON |
|---|
{ "id": string, "displayName": string, "args": { object }, // Union field |
| Champs | |
|---|---|
id |
Facultatif. Identifiant unique de l'appel d'outil. Si ce champ est renseigné, le client doit renvoyer le résultat de l'exécution avec l'ID correspondant dans |
displayName |
Uniquement en sortie. Nom à afficher de l'outil. |
args |
Facultatif. Paramètres et valeurs d'entrée de l'outil au format d'objet JSON. |
Champ d'union tool_identifier. Identifiant de l'outil à exécuter. Il peut s'agir d'un outil persistant ou d'un outil d'un ensemble d'outils. tool_identifier ne peut être qu'un des éléments suivants : |
|
tool |
Facultatif. Nom de l'outil à exécuter. Format : |
toolsetTool |
Facultatif. Outil de l'ensemble d'outils à exécuter. |
Message
| Représentation JSON |
|---|
{
"role": string,
"chunks": [
{
object ( |
| Champs | |
|---|---|
role |
Facultatif. Rôle dans la conversation (par exemple, utilisateur ou agent). |
chunks[] |
Facultatif. Contenu du message sous forme de série de blocs. |
eventTime |
Facultatif. Horodatage de l'envoi ou de la réception du message. Ne doit pas être utilisé si le message fait partie d'un Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : |
Bloc
| Représentation JSON |
|---|
{ // Union field |
| Champs | |
|---|---|
Champ d'union data. Regroupez les données. data ne peut être qu'un des éléments suivants : |
|
text |
Facultatif. Données textuelles. |
transcript |
Facultatif. Transcription associée à l'élément audio. |
blob |
Facultatif. Données blob. |
payload |
Facultatif. Données de charge utile personnalisées. |
image |
Facultatif. Données d'image. |
toolCall |
Facultatif. Requête d'exécution de l'outil. |
toolResponse |
Facultatif. Réponse à l'exécution de l'outil. |
agentTransfer |
Facultatif. Événement de transfert d'agent. |
updatedVariables |
Une structure représente les variables qui ont été mises à jour dans la conversation, avec les noms de variables comme clés. |
defaultVariables |
Une structure représente les variables par défaut au début de la conversation, avec les noms de variables comme clés. |
Horodatage
| Représentation JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Champs | |
|---|---|
seconds |
Représente les secondes de l'heure UTC à partir de l'epoch Unix 1970-01-01T00:00:00Z. La valeur doit être comprise entre -62135596800 et 253402300799 inclus (ce qui correspond à 0001-01-01T00:00:00Z et 9999-12-31T23:59:59Z). |
nanos |
Fractions de secondes non négatives avec une précision de l'ordre de la nanoseconde. Ce champ correspond à la partie en nanosecondes de la durée, et non à une alternative aux secondes. Les valeurs de secondes négatives avec des fractions doivent toujours comporter des valeurs de nanosecondes non négatives comptabilisées dans le temps. La valeur doit être comprise entre 0 et 999 999 999 inclus. |
Segment
| Représentation JSON |
|---|
{
"name": string,
"startTime": string,
"endTime": string,
"duration": string,
"attributes": {
object
},
"childSpans": [
{
object ( |
| Champs | |
|---|---|
name |
Uniquement en sortie. Nom de la portée. |
startTime |
Uniquement en sortie. Heure de début de la période. Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : |
endTime |
Uniquement en sortie. Heure de fin de la période. Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : |
duration |
Uniquement en sortie. Durée du segment. Durée en secondes avec neuf chiffres au maximum après la virgule et se terminant par " |
attributes |
Uniquement en sortie. Attributs clé-valeur associés à la portée. |
childSpans[] |
Uniquement en sortie. Les étendues enfants imbriquées sous cette étendue. |
Durée
| Représentation JSON |
|---|
{ "seconds": string, "nanos": integer } |
| Champs | |
|---|---|
seconds |
Secondes signées de la période. La valeur doit être comprise entre -315 576 000 000 et +315 576 000 000 (inclus). Remarque : Ces limites sont calculées à partir de : 60 s/min * 60 min/h * 24 h/jour * 365,25 jours/an * 10 000 ans |
nanos |
Fractions de secondes signées avec une précision de l'ordre de la nanoseconde pour la durée. Les durées inférieures à une seconde sont représentées par un champ |
Scénario
| Représentation JSON |
|---|
{ "task": string, "userFacts": [ { object ( |
| Champs | |
|---|---|
task |
Obligatoire. Tâche à cibler par le scénario. |
userFacts[] |
Facultatif. Faits utilisateur à utiliser par le scénario. |
maxTurns |
Facultatif. Nombre maximal de tours à simuler. Si aucune valeur n'est spécifiée, la simulation se poursuit jusqu'à ce que la tâche soit terminée. |
rubrics[] |
Obligatoire. Rubriques permettant d'évaluer le scénario. |
scenarioExpectations[] |
Obligatoire. Les ScenarioExpectations permettant d'évaluer la conversation produite par la simulation utilisateur. |
variableOverrides |
Facultatif. Variables / paramètres de session en tant que contexte pour la session, avec les noms de variables comme clés. Les membres de cette structure remplaceront toutes les valeurs par défaut définies par le système. Notez que ces faits sont différents des faits utilisateur, qui sont des faits connus de l'utilisateur. Les variables sont des paramètres connus de l'agent, c'est-à-dire le numéro de téléphone transmis par le système de téléphonie. |
taskCompletionBehavior |
Facultatif. Obsolète. Utilisez plutôt user_goal_behavior. |
userGoalBehavior |
Facultatif. Comportement attendu de l'objectif utilisateur. |
evaluationExpectations[] |
Facultatif. Attentes d'évaluation pour évaluer la conversation produite par la simulation. Format : |
UserFact
| Représentation JSON |
|---|
{ "name": string, "value": string } |
| Champs | |
|---|---|
name |
Obligatoire. Nom du fait utilisateur. |
value |
Obligatoire. Valeur du fait utilisateur. |
ScenarioExpectation
| Représentation JSON |
|---|
{ // Union field |
| Champs | |
|---|---|
Champ d'union expectation. L'attente d'évaluer la conversation produite par la simulation. expectation ne peut être qu'un des éléments suivants : |
|
toolExpectation |
Facultatif. Paire d'appel et de réponse de l'outil à évaluer. |
agentResponse |
Facultatif. Réponse de l'agent à évaluer. |
ToolExpectation
| Représentation JSON |
|---|
{ "expectedToolCall": { object ( |
| Champs | |
|---|---|
expectedToolCall |
Obligatoire. Appel d'outil attendu, avec les paramètres d'intérêt spécifiés. Tous les paramètres non spécifiés seront générés par le LLM. |
mockToolResponse |
Obligatoire. Réponse de l'outil à simuler, avec les paramètres qui vous intéressent spécifiés. Tous les paramètres non spécifiés seront générés par le LLM. |
AggregatedMetrics
| Représentation JSON |
|---|
{
"metricsByAppVersion": [
{
object ( |
| Champs | |
|---|---|
metricsByAppVersion[] |
Uniquement en sortie. Métriques agrégées, regroupées par ID de version de l'application. |
MetricsByAppVersion
| Représentation JSON |
|---|
{ "appVersionId": string, "toolMetrics": [ { object ( |
| Champs | |
|---|---|
appVersionId |
Uniquement en sortie. ID de version de l'application. |
toolMetrics[] |
Uniquement en sortie. Métriques pour chaque outil de cette version de l'application. |
semanticSimilarityMetrics[] |
Uniquement en sortie. Métriques de similarité sémantique dans cette version de l'application. |
hallucinationMetrics[] |
Uniquement en sortie. Métriques concernant les hallucinations dans cette version de l'application. |
toolCallLatencyMetrics[] |
Uniquement en sortie. Métriques pour la latence des appels d'outils dans cette version de l'application. |
turnLatencyMetrics[] |
Uniquement en sortie. Métriques pour la latence des tours dans cette version de l'application. |
passCount |
Uniquement en sortie. Nombre de fois où l'évaluation a été réussie. |
failCount |
Uniquement en sortie. Nombre de fois où l'évaluation a échoué. |
metricsByTurn[] |
Uniquement en sortie. Métriques agrégées par tour dans cette version de l'application. |
ToolMetrics
| Représentation JSON |
|---|
{ "tool": string, "passCount": integer, "failCount": integer } |
| Champs | |
|---|---|
tool |
Uniquement en sortie. Nom de l'outil. |
passCount |
Uniquement en sortie. Nombre de fois où l'outil a réussi. |
failCount |
Uniquement en sortie. Nombre d'échecs de l'outil. |
SemanticSimilarityMetrics
| Représentation JSON |
|---|
{ "score": number } |
| Champs | |
|---|---|
score |
Uniquement en sortie. Score moyen de similarité sémantique (de 0 à 4). |
HallucinationMetrics
| Représentation JSON |
|---|
{ "score": number } |
| Champs | |
|---|---|
score |
Uniquement en sortie. Score moyen d'hallucination (de 0 à 1). |
ToolCallLatencyMetrics
| Représentation JSON |
|---|
{ "tool": string, "averageLatency": string } |
| Champs | |
|---|---|
tool |
Uniquement en sortie. Nom de l'outil. |
averageLatency |
Uniquement en sortie. Latence moyenne des appels d'outils. Durée en secondes avec neuf chiffres au maximum après la virgule et se terminant par " |
TurnLatencyMetrics
| Représentation JSON |
|---|
{ "averageLatency": string } |
| Champs | |
|---|---|
averageLatency |
Uniquement en sortie. Latence moyenne des tours. Durée en secondes avec neuf chiffres au maximum après la virgule et se terminant par " |
MetricsByTurn
| Représentation JSON |
|---|
{ "turnIndex": integer, "toolMetrics": [ { object ( |
| Champs | |
|---|---|
turnIndex |
Uniquement en sortie. Index du tour (basé sur 0). |
toolMetrics[] |
Uniquement en sortie. Métriques pour chaque outil de ce tour. |
semanticSimilarityMetrics[] |
Uniquement en sortie. Métriques de similarité sémantique pour ce tour. |
hallucinationMetrics[] |
Uniquement en sortie. Métriques pour l'hallucination au cours de ce tour. |
toolCallLatencyMetrics[] |
Uniquement en sortie. Métriques de latence des appels d'outils au cours de ce tour. |
turnLatencyMetrics[] |
Uniquement en sortie. Métriques de latence de tour dans ce tour. |
EvaluationResult
| Représentation JSON |
|---|
{ "name": string, "displayName": string, "createTime": string, "evaluationStatus": enum ( |
| Champs | |
|---|---|
name |
Identifiant. Identifiant unique du résultat de l'évaluation. Format : |
displayName |
Obligatoire. Nom à afficher du résultat de l'évaluation. Unique dans une évaluation. Par défaut, il se présente au format suivant : " |
createTime |
Uniquement en sortie. Code temporel de la création du résultat de l'évaluation. Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : |
evaluationStatus |
Uniquement en sortie. Résultat de l'évaluation. N'est renseigné que si execution_state est défini sur "COMPLETE". |
evaluationRun |
Uniquement en sortie. Exécution de l'évaluation ayant généré ce résultat. Format : |
persona |
Uniquement en sortie. Persona utilisé pour générer la conversation pour le résultat de l'évaluation. |
errorInfo |
Uniquement en sortie. Informations sur les erreurs liées au résultat de l'évaluation. |
error |
Uniquement en sortie. Obsolète : utilisez plutôt |
initiatedBy |
Uniquement en sortie. Utilisateur ayant lancé l'exécution de l'évaluation qui a généré ce résultat. |
appVersion |
Uniquement en sortie. Version de l'application utilisée pour générer la conversation ayant abouti à ce résultat. Format : |
appVersionDisplayName |
Uniquement en sortie. Nom à afficher du |
changelog |
Uniquement en sortie. Journal des modifications de la version de l'application par rapport à laquelle l'évaluation a été exécutée. Cette valeur est renseignée si l'utilisateur exécute l'évaluation sur la dernière version ou le brouillon. |
changelogCreateTime |
Uniquement en sortie. Heure de création du journal des modifications de la version de l'application par rapport à laquelle l'évaluation a été effectuée. Cette valeur est renseignée si l'utilisateur exécute l'évaluation sur la dernière version ou le brouillon. Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : |
executionState |
Uniquement en sortie. État de l'exécution du résultat de l'évaluation. |
evaluationMetricsThresholds |
Uniquement en sortie. Seuils d'évaluation pour le résultat. |
config |
Uniquement en sortie. Configuration utilisée lors de l'exécution de l'évaluation ayant généré ce résultat. |
goldenRunMethod |
Uniquement en sortie. Méthode utilisée pour exécuter l'évaluation de référence. |
Champ d'union result. Résultat de l'évaluation. N'est renseigné que lorsque l'état d'exécution est "COMPLETED". result ne peut être qu'un des éléments suivants : |
|
goldenResult |
Uniquement en sortie. Résultat d'une évaluation de référence. |
scenarioResult |
Uniquement en sortie. Résultat d'une évaluation de scénario. |
GoldenResult
| Représentation JSON |
|---|
{ "turnReplayResults": [ { object ( |
| Champs | |
|---|---|
turnReplayResults[] |
Uniquement en sortie. Résultat de l'exécution de chaque tour de la conversation de référence. |
evaluationExpectationResults[] |
Uniquement en sortie. Résultats attendus de l'évaluation. |
TurnReplayResult
| Représentation JSON |
|---|
{ "conversation": string, "expectationOutcome": [ { object ( |
| Champs | |
|---|---|
conversation |
Uniquement en sortie. Conversation générée pour ce tour. |
expectationOutcome[] |
Uniquement en sortie. Résultat de chaque attente. |
hallucinationResult |
Uniquement en sortie. Résultat de la vérification des hallucinations. |
toolInvocationScore |
Uniquement en sortie. Obsolète. Utilisez plutôt OverallToolInvocationResult. |
turnLatency |
Uniquement en sortie. Durée du tour. Durée en secondes avec neuf chiffres au maximum après la virgule et se terminant par " |
toolCallLatencies[] |
Uniquement en sortie. Latence de chaque appel d'outil dans le tour. |
semanticSimilarityResult |
Uniquement en sortie. Résultat de la vérification de la similarité sémantique. |
overallToolInvocationResult |
Uniquement en sortie. Résultat de la vérification globale de l'appel d'outil. |
errorInfo |
Uniquement en sortie. Informations sur l'erreur survenue lors de ce tour. |
spanLatencies[] |
Uniquement en sortie. Latence des portées dans le tour. |
Champ d'union
|
|
toolOrderedInvocationScore |
Uniquement en sortie. Score global d'invocation d'outil pour ce tour. Indique le pourcentage global d'outils du tour attendu qui ont été réellement appelés dans l'ordre attendu. |
GoldenExpectationOutcome
| Représentation JSON |
|---|
{ "expectation": { object ( |
| Champs | |
|---|---|
expectation |
Uniquement en sortie. L'attente qui a été évaluée. |
outcome |
Uniquement en sortie. Résultat attendu. |
semanticSimilarityResult |
Uniquement en sortie. Résultat de la vérification de la similarité sémantique. |
toolInvocationResult |
Uniquement en sortie. Résultat de la vérification de l'appel d'outil. |
Champ d'union result. Résultat de l'attente. result ne peut être qu'un des éléments suivants : |
|
observedToolCall |
Uniquement en sortie. Résultat attendu de l'appel d'outil. |
observedToolResponse |
Uniquement en sortie. Résultat de l'attente de réponse de l'outil. |
observedAgentResponse |
Uniquement en sortie. Résultat de l'attente de réponse de l'agent. |
observedAgentTransfer |
Uniquement en sortie. Résultat de l'attente de transfert d'agent. |
SemanticSimilarityResult
| Représentation JSON |
|---|
{ "label": string, "explanation": string, "outcome": enum ( |
| Champs | |
|---|---|
label |
Uniquement en sortie. Libellé associé à chaque score. Score 4 : entièrement cohérent Score 3 : principalement cohérent Score 2 : partiellement cohérent (omissions mineures) Score 1 : largement incohérent (omissions majeures) Score 0 : complètement incohérent / contradictoire |
explanation |
Uniquement en sortie. Explication du score de similarité sémantique. |
outcome |
Uniquement en sortie. Résultat de la vérification de la similarité sémantique. Pour ce faire, le score est comparé à semantic_similarity_success_threshold. Si le score est égal ou supérieur au seuil, le résultat sera "RÉUSSITE". Sinon, le résultat sera FAIL. |
Champ d'union
|
|
score |
Uniquement en sortie. Score de similarité sémantique. Peut être égal à 0, 1, 2, 3 ou 4. |
ToolInvocationResult
| Représentation JSON |
|---|
{ "outcome": enum ( |
| Champs | |
|---|---|
outcome |
Uniquement en sortie. Résultat de la vérification de l'appel d'outil. Pour ce faire, le paramètre "parameter_correctness_score" est comparé au seuil. Si le score est égal ou supérieur au seuil, le résultat sera "RÉUSSITE". Sinon, le résultat sera FAIL. |
explanation |
Uniquement en sortie. Explication en texte libre du résultat de l'appel d'outil. |
Champ d'union
|
|
parameterCorrectnessScore |
Uniquement en sortie. Score d'exactitude des paramètres d'invocation d'outil. Indique le pourcentage de paramètres de l'appel d'outil attendu qui étaient également présents dans l'appel d'outil réel. |
HallucinationResult
| Représentation JSON |
|---|
{ "label": string, "explanation": string, // Union field |
| Champs | |
|---|---|
label |
Uniquement en sortie. Libellé associé à chaque score. Score 1 : justifié Score 0 : non justifié Score -1 : aucune affirmation à évaluer |
explanation |
Uniquement en sortie. Explication du score d'hallucination. |
Champ d'union
|
|
score |
Uniquement en sortie. Score d'hallucination. Valeurs possibles : -1, 0 ou 1. |
ToolCallLatency
| Représentation JSON |
|---|
{ "tool": string, "displayName": string, "startTime": string, "endTime": string, "executionLatency": string } |
| Champs | |
|---|---|
tool |
Uniquement en sortie. Nom de l'outil exécuté. Format : |
displayName |
Uniquement en sortie. Nom à afficher de l'outil. |
startTime |
Uniquement en sortie. Heure de début de l'exécution de l'appel d'outil. Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : |
endTime |
Uniquement en sortie. Heure de fin de l'exécution de l'appel d'outil. Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : |
executionLatency |
Uniquement en sortie. Latence de l'exécution de l'appel d'outil. Durée en secondes avec neuf chiffres au maximum après la virgule et se terminant par " |
OverallToolInvocationResult
| Représentation JSON |
|---|
{ "outcome": enum ( |
| Champs | |
|---|---|
outcome |
Uniquement en sortie. Résultat de la vérification de l'appel d'outil. Cette valeur est déterminée en comparant tool_invocation_score au seuil overall_tool_invocation_correctness_threshold. Si le score est égal ou supérieur au seuil, le résultat sera "RÉUSSITE". Sinon, le résultat sera FAIL. |
Champ d'union
|
|
toolInvocationScore |
Score global d'appel d'outil pour ce tour. Indique le pourcentage global d'outils de la réponse attendue qui ont été réellement appelés. |
EvaluationErrorInfo
| Représentation JSON |
|---|
{
"errorType": enum ( |
| Champs | |
|---|---|
errorType |
Uniquement en sortie. Type d'erreur. |
errorMessage |
Uniquement en sortie. Message d'erreur. |
sessionId |
Uniquement en sortie. ID de session de la conversation à l'origine de l'erreur. |
SpanLatency
| Représentation JSON |
|---|
{ "type": enum ( |
| Champs | |
|---|---|
type |
Uniquement en sortie. Type de portée. |
displayName |
Uniquement en sortie. Nom à afficher de la portée. S'applique aux étendues d'outils et de garde-fous. |
startTime |
Uniquement en sortie. Heure de début de la période. Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : |
endTime |
Uniquement en sortie. Heure de fin de la période. Utilise la norme RFC 3339, où la sortie générée utilise toujours le format UTC (indiqué par "Z" pour le temps universel coordonné) avec des secondes fractionnaires de 0, 3, 6 ou 9 chiffres décimaux. Des décalages horaires autres que "Z" (UTC) sont également acceptés. Exemples : |
executionLatency |
Uniquement en sortie. Latence de la portée. Durée en secondes avec neuf chiffres au maximum après la virgule et se terminant par " |
Champ d'union identifier. Identifiant de l'élément spécifique en fonction de son type. identifier ne peut être qu'un des éléments suivants : |
|
resource |
Uniquement en sortie. Nom de ressource des étendues de garde-fou ou d'outil. |
toolset |
Uniquement en sortie. Identifiant de l'outil du toolset. |
model |
Uniquement en sortie. Nom de la portée du LLM. |
callback |
Uniquement en sortie. Nom de la portée du rappel utilisateur. |
EvaluationExpectationResult
| Représentation JSON |
|---|
{
"evaluationExpectation": string,
"prompt": string,
"outcome": enum ( |
| Champs | |
|---|---|
evaluationExpectation |
Uniquement en sortie. L'attente d'évaluation. Format : |
prompt |
Uniquement en sortie. Requête utilisée pour l'évaluation. |
outcome |
Uniquement en sortie. Résultat attendu de l'évaluation. |
explanation |
Uniquement en sortie. Explication du résultat. |
ScenarioResult
| Représentation JSON |
|---|
{ "conversation": string, "task": string, "userFacts": [ { object ( |
| Champs | |
|---|---|
conversation |
Uniquement en sortie. Conversation générée dans le scénario. |
task |
Uniquement en sortie. Tâche utilisée lors de l'exécution du scénario pour ce résultat. |
userFacts[] |
Uniquement en sortie. Faits sur l'utilisateur utilisés par le scénario pour ce résultat. |
expectationOutcomes[] |
Uniquement en sortie. Résultat de chaque attente. |
rubricOutcomes[] |
Uniquement en sortie. Résultat de la grille d'évaluation. |
hallucinationResult[] |
Uniquement en sortie. Résultat de la vérification des hallucinations. Il y aura un résultat d'hallucination pour chaque tour de conversation. |
taskCompletionResult |
Uniquement en sortie. Résultat de la vérification de l'état d'achèvement de la tâche. |
toolCallLatencies[] |
Uniquement en sortie. Latence de l'exécution de chaque appel d'outil dans la conversation. |
userGoalSatisfactionResult |
Uniquement en sortie. Résultat de la vérification de la satisfaction de l'objectif de l'utilisateur. |
spanLatencies[] |
Uniquement en sortie. Latence des spans dans la conversation. |
evaluationExpectationResults[] |
Uniquement en sortie. Résultats attendus de l'évaluation. |
Champ d'union
|
|
allExpectationsSatisfied |
Uniquement en sortie. Indique si toutes les attentes ont été satisfaites pour ce tour. |
Champ d'union
|
|
taskCompleted |
Uniquement en sortie. Indique si la tâche a été effectuée pour ce tour. Il s'agit d'une combinaison de toutes les attentes satisfaites, de l'absence d'hallucinations et de la satisfaction de l'objectif de l'utilisateur. |
ScenarioExpectationOutcome
| Représentation JSON |
|---|
{ "expectation": { object ( |
| Champs | |
|---|---|
expectation |
Uniquement en sortie. L'attente qui a été évaluée. |
outcome |
Uniquement en sortie. Résultat de ScenarioExpectation. |
Champ d'union result. Résultat de l'attente. result ne peut être qu'un des éléments suivants : |
|
observedToolCall |
Uniquement en sortie. Appel d'outil observé. |
observedAgentResponse |
Uniquement en sortie. Réponse de l'agent observée. |
ObservedToolCall
| Représentation JSON |
|---|
{ "toolCall": { object ( |
| Champs | |
|---|---|
toolCall |
Uniquement en sortie. Appel d'outil observé. |
toolResponse |
Uniquement en sortie. Réponse de l'outil observée. |
ScenarioRubricOutcome
| Représentation JSON |
|---|
{ "rubric": string, "scoreExplanation": string, // Union field |
| Champs | |
|---|---|
rubric |
Uniquement en sortie. Grille d'évaluation utilisée pour évaluer la conversation. |
scoreExplanation |
Uniquement en sortie. Réponse de l'évaluateur à la grille. |
Champ d'union
|
|
score |
Uniquement en sortie. Score de la conversation par rapport à la grille. |
TaskCompletionResult
| Représentation JSON |
|---|
{ "label": string, "explanation": string, // Union field |
| Champs | |
|---|---|
label |
Uniquement en sortie. Libellé associé à chaque score. Score 1 : tâche terminée Score 0 : tâche non terminée Score -1 : objectif de l'utilisateur non défini |
explanation |
Uniquement en sortie. Explication du score d'accomplissement des tâches. |
Champ d'union
|
|
score |
Uniquement en sortie. Score d'exécution de la tâche. Valeurs possibles : -1, 0 ou 1 |
UserGoalSatisfactionResult
| Représentation JSON |
|---|
{ "label": string, "explanation": string, // Union field |
| Champs | |
|---|---|
label |
Uniquement en sortie. Libellé associé à chaque score. Score 1 : tâche utilisateur effectuée Score 0 : tâche utilisateur non effectuée Score -1 : tâche utilisateur non spécifiée |
explanation |
Uniquement en sortie. Explication du score de satisfaction concernant la tâche utilisateur. |
Champ d'union
|
|
score |
Uniquement en sortie. Score de satisfaction de l'utilisateur concernant la tâche. Valeurs possibles : -1, 0 ou 1. |
EvaluationPersona
| Représentation JSON |
|---|
{
"name": string,
"description": string,
"displayName": string,
"personality": string,
"speechConfig": {
object ( |
| Champs | |
|---|---|
name |
Obligatoire. Identifiant unique de la persona. Format : |
description |
Facultatif. Description du persona. |
displayName |
Obligatoire. Nom à afficher de la persona. Unique dans une application. |
personality |
Obligatoire. Instruction indiquant à l'agent comment se comporter lors de l'évaluation. |
speechConfig |
Facultatif. Configuration de la voix de la persona (paramètres TTS). |
SpeechConfig
| Représentation JSON |
|---|
{
"speakingRate": number,
"environment": enum ( |
| Champs | |
|---|---|
speakingRate |
Facultatif. Vitesse d'élocution. 1.0 est la valeur normale. Plus la valeur est faible, plus la vitesse est lente (par exemple, 0,8), plus la valeur est élevée, plus la vitesse est rapide (par exemple, 1.5). Utile pour tester la façon dont l'agent gère les personnes qui parlent vite. |
environment |
Facultatif. Environnement audio simulé. |
voiceId |
Facultatif. Identifiant/accent de la voix à utiliser. Exemple : "en-US-Wavenet-D" ou "en-GB-Standard-A" |
État
| Représentation JSON |
|---|
{ "code": integer, "message": string, "details": [ { "@type": string, field1: ..., ... } ] } |
| Champs | |
|---|---|
code |
Code d'état, qui doit être une valeur d'énumération de |
message |
Message d'erreur destiné au développeur, qui doit être en anglais. Tout message d'erreur destiné aux utilisateurs doit être localisé et envoyé dans le champ |
details[] |
Liste de messages comportant les détails de l'erreur. Il existe un ensemble commun de types de message utilisable par les API. Objet contenant des champs d'un type arbitraire. Un champ supplémentaire |
Tous
| Représentation JSON |
|---|
{ "typeUrl": string, "value": string } |
| Champs | |
|---|---|
typeUrl |
Identifie le type du message Protobuf sérialisé avec une référence URI composée d'un préfixe se terminant par une barre oblique et du nom de type complet. Exemple : type.googleapis.com/google.protobuf.StringValue Cette chaîne doit contenir au moins un caractère Le préfixe est arbitraire et les implémentations Protobuf sont censées supprimer tout ce qui précède le dernier Toutes les chaînes d'URL de type doivent être des références URI légales avec la restriction supplémentaire (pour le format texte) que le contenu de la référence ne doit être composé que de caractères alphanumériques, d'échappements encodés en pourcentage et de caractères de l'ensemble suivant (sans les accents graves extérieurs) : Dans la conception d'origine de |
value |
Contient une sérialisation Protobuf du type décrit par type_url. Chaîne encodée en base64. |
EvaluationMetricsThresholds
| Représentation JSON |
|---|
{ "goldenEvaluationMetricsThresholds": { object ( |
| Champs | |
|---|---|
goldenEvaluationMetricsThresholds |
Facultatif. Seuils des métriques d'évaluation privilégiées. |
hallucinationMetricBehavior |
Facultatif. Obsolète : utilisez plutôt |
goldenHallucinationMetricBehavior |
Facultatif. Comportement de la métrique d'hallucination pour les évaluations de référence. |
scenarioHallucinationMetricBehavior |
Facultatif. Comportement de la métrique d'hallucination pour les évaluations de scénarios. |
GoldenEvaluationMetricsThresholds
| Représentation JSON |
|---|
{ "turnLevelMetricsThresholds": { object ( |
| Champs | |
|---|---|
turnLevelMetricsThresholds |
Facultatif. Seuils des métriques au niveau du tour. |
expectationLevelMetricsThresholds |
Facultatif. Seuils des métriques de niveau d'attente. |
toolMatchingSettings |
Facultatif. Paramètres de correspondance de l'outil. Un appel d'outil supplémentaire est un appel d'outil présent dans l'exécution, mais qui ne correspond à aucun appel d'outil dans l'attente de référence. |
TurnLevelMetricsThresholds
| Représentation JSON |
|---|
{ "semanticSimilarityChannel": enum ( |
| Champs | |
|---|---|
semanticSimilarityChannel |
Facultatif. Canal de similarité sémantique à utiliser pour l'évaluation. |
Champ d'union
|
|
semanticSimilaritySuccessThreshold |
Facultatif. Seuil de réussite pour la similarité sémantique. Veuillez saisir un nombre entier compris entre 0 et 4. La valeur par défaut est >= 3. |
Champ d'union
|
|
overallToolInvocationCorrectnessThreshold |
Facultatif. Seuil de réussite pour la correction globale de l'appel d'outil. Doit être un nombre à virgule flottante compris entre 0 et 1. La valeur par défaut est 1.0. |
ExpectationLevelMetricsThresholds
| Représentation JSON |
|---|
{ // Union field |
| Champs | |
|---|---|
Champ d'union
|
|
toolInvocationParameterCorrectnessThreshold |
Facultatif. Seuil de réussite pour la correction des paramètres d'invocation d'outils individuels. Doit être un nombre à virgule flottante compris entre 0 et 1. La valeur par défaut est 1.0. |
ToolMatchingSettings
| Représentation JSON |
|---|
{
"extraToolCallBehavior": enum ( |
| Champs | |
|---|---|
extraToolCallBehavior |
Facultatif. Comportement pour les appels d'outils supplémentaires. La valeur par défaut est "FAIL". |
EvaluationConfig
| Représentation JSON |
|---|
{ "inputAudioConfig": { object ( |
| Champs | |
|---|---|
inputAudioConfig |
Facultatif. Configuration pour le traitement de l'entrée audio. |
outputAudioConfig |
Facultatif. Configuration pour générer le contenu audio de sortie. |
evaluationChannel |
Facultatif. Chaîne à évaluer. |
toolCallBehaviour |
Facultatif. Indique si l'évaluation doit utiliser de vrais appels d'outils ou des outils factices. |
InputAudioConfig
| Représentation JSON |
|---|
{
"audioEncoding": enum ( |
| Champs | |
|---|---|
audioEncoding |
Obligatoire. Encodage des données audio d'entrée. |
sampleRateHertz |
Obligatoire. Taux d'échantillonnage (en hertz) des données audio d'entrée. |
noiseSuppressionLevel |
Facultatif. Indique si la suppression du bruit doit être activée pour l'entrée audio. Les valeurs disponibles sont "low", "moderate", "high" et "very_high". |
OutputAudioConfig
| Représentation JSON |
|---|
{
"audioEncoding": enum ( |
| Champs | |
|---|---|
audioEncoding |
Obligatoire. Encodage des données audio de sortie. |
sampleRateHertz |
Obligatoire. Taux d'échantillonnage (en hertz) des données audio de sortie. |
Annotations d'outils
Indication destructive : ❌ | Indication idempotente : ✅ | Indication en lecture seule : ✅ | Indication Open World : ❌