Évaluation

L'évaluation est un outil essentiel pour tester les performances de votre agent et s'assurer qu'il se comporte comme prévu dans des situations spécifiques. Il vous permet d'automatiser les tests, de détecter les régressions après avoir apporté des modifications et de mesurer la qualité des réponses de votre agent pour l'améliorer.

Pour commencer, cliquez sur le bouton Évaluer en haut de l'outil de création d'agents.

Concepts d'évaluation

Scénario de test : chaque scénario de test est un scénario ou une requête de test spécifique et autonome conçu pour évaluer les performances de l'agent. Vous pouvez créer deux types de cas de test :

Scénario : fonctionnalité optimisée par l'IA pour amorcer vos tests et assurer une couverture de test complète. Vous décrivez l'objectif d'un utilisateur, et le système simule automatiquement l'utilisateur et génère des conversations pour tester la capacité de l'agent à gérer le scénario de manière robuste. Les scénarios sont un moyen utile d'expérimenter et de définir des conversations idéales.
Golden : idéal pour les tests de régression. Vous fournissez un chemin de conversation spécifique et "idéal", et l'évaluation vérifie si le comportement de l'agent correspond à ce chemin idéal, y compris les appels d'outils.

Exécution : une exécution d'évaluation représente une exécution unique et complète d'un ensemble de cas de test de référence et de scénarios par rapport aux performances de l'agent que vous testez. Chaque exécution peut inclure un ou plusieurs cas de test.

Résultat : le résultat d'un scénario de test fait référence à une seule exécution d'un scénario de test spécifique lors d'une seule exécution. Si un cas de test est exécuté plusieurs fois au cours d'une même exécution d'évaluation (par exemple, pour vérifier la cohérence, l'instabilité, etc.), chaque exécution individuelle constitue un résultat individuel. Les résultats s'affichent sous forme d'icônes rectangulaires dans les colonnes de chaque ligne de cas de test. Une croix rouge indique que l'exécution a échoué, tandis qu'une coche verte signifie qu'elle a réussi.

Tags : les scénarios de test peuvent être regroupés à l'aide de tags pour faciliter la gestion.

Créer des scénarios de test

Pour créer des scénarios de test pour votre agent et y accéder, cliquez sur le bouton Évaluer en haut de l'Agent Builder. Vous pouvez créer et gérer des cas de test golden ou basés sur des scénarios.

Scénario

Le scénario de test utilise l'IA pour générer automatiquement différentes conversations en fonction d'un objectif utilisateur de haut niveau que vous définissez. Avec ces cas de test, plutôt que de fournir des conversations de référence spécifiques, vous sélectionnez des scénarios générés ou décrivez des scénarios spécifiques qui doivent être testés. Il s'agit d'un outil puissant qui vous aide à explorer les cas extrêmes et à tester la robustesse de votre agent sans avoir à écrire manuellement tous les chemins de conversation possibles.

Une fois que ces scénarios fonctionnent bien, vous pouvez les enregistrer en tant que conversations de référence.

Pour créer un scénario :

Cliquez sur Créer un scénario. Plusieurs scénarios vous sont suggérés.
Vous pouvez générer des scénarios en fonction des sélections ou en créer un de toutes pièces.

Lorsque vous affichez la liste des scénarios, vous pouvez lister les détails et la liste des conversations pour chaque scénario en cliquant dessus.

Pour enregistrer un scénario en tant que conversation de référence :

Sélectionnez le scénario.
Cliquez sur le bouton de menu en haut à droite.
Sélectionnez Enregistrer comme conversation de référence.

Objectif de l'utilisateur dans le scénario

Chaque scénario comporte un objectif utilisateur, qui décrit les objectifs de l'utilisateur final lorsqu'il utilise l'application d'agent. Exemple :

Securely book a specific room at a chosen hotel and receive a confirmation.

En fonction de votre objectif utilisateur, CX Agent Studio génère automatiquement des conversations utilisées pour l'évaluation.

Variables de scénario

Lorsque vous définissez un scénario, vous pouvez fournir des variables à utiliser pour le scénario.

Attentes concernant les scénarios

Pour effectuer une évaluation, vous définissez des attentes pour le cas de test.

Les attentes peuvent être de deux types :

Message : message attendu de l'utilisateur final ou de l'agent.
Appel d'outil : appel d'outil avec les entrées et sorties attendues.

Les attentes peuvent avoir les conditions suivantes :

Indispensable
Ne doit pas contenir
Après l'appel d'outil
Valeur de la variable

Pour créer une attente :

Cliquez sur un scénario spécifique pour en afficher les détails.
Dans la section Attentes, cliquez sur Tout afficher.
Suivez les instructions de l'interface pour définir des attentes pour le scénario.

Doré

Ces scénarios de test permettent de définir des chemins de conversation idéaux pour les tests de régression. Ainsi, les chemins de conversation principaux et critiques ne sont pas interrompus lorsque vous mettez à jour l'agent. Il existe plusieurs façons de créer une conversation de référence :

Pour importer une conversation depuis le simulateur :

Commencez une conversation à l'aide du simulateur.
Cliquez sur les trois points verticaux en haut à droite du simulateur pour afficher le menu du simulateur.
Cliquez sur Enregistrer comme référence.
Saisissez un nom pour le cas de test de référence, puis cliquez sur Enregistrer. Il s'affiche désormais dans l'onglet Évaluation.

Pour créer un scénario de test à partir de l'historique des conversations :

Accédez à l'onglet Évaluation, puis cliquez sur + Ajouter un cas de test > Golden.
Cliquez sur Sélectionner dans l'historique des conversations.
Dans la fenêtre qui s'affiche, sélectionnez la conversation que vous souhaitez enregistrer en tant que cas de test de référence. Vous pouvez effectuer une recherche par ID de conversation.
Si vous avez activé la rédaction, vérifiez que les réponses des agents et les variables sont rédigées avant de continuer à rechercher les informations manquantes.
Cliquez sur Ajouter.

Pour créer un scénario de test à partir de zéro :

Accédez à l'onglet Évaluation, puis cliquez sur + Ajouter un cas de test > Golden.
Cliquez sur Créer à partir de zéro.
Dans la fenêtre qui s'affiche, ajoutez un nom à afficher pour le scénario de test.
Ajoutez du texte pour l'entrée utilisateur et les attentes de l'agent, si nécessaire. Cliquez sur + Ajouter une entrée utilisateur et + Ajouter une attente de l'agent pour ajouter des réponses. Cliquez sur + Ajouter un tour de conversation pour ajouter un tour de conversation au scénario de test.
Cliquez sur Créer pour ajouter le scénario de test de référence à votre liste de scénarios de test.

Pour créer un scénario de test à partir d'une conversation simulée dans un scénario de test :

Accédez à la page des résultats de l'exécution de l'évaluation.
Cliquez sur l'icône de menu (trois points verticaux) à droite de la conversation sélectionnée, puis sur Enregistrer en tant que conversation de référence.

Pour importer des scénarios de test par lot à partir d'un fichier :

Pour en savoir plus sur le format de fichier et obtenir un modèle CSV, consultez la page Format CSV des cas de test de référence.

Attentes de référence

Pour effectuer une évaluation, vous devez définir des attentes pour le scénario de test de référence. Une attente est un résultat spécifique que vous attendez de l'agent à un moment donné de la conversation. Lors de l'évaluation, le comportement réel de l'agent est comparé à ces attentes.

Les attentes peuvent être de l'un des types suivants :

Message : réponse textuelle attendue de l'agent à l'utilisateur final. L'évaluation vérifie si la réponse de l'agent correspond sémantiquement à cette attente.
Appel d'outil : attente que l'agent appelle un outil et une réponse spécifiques. Vous pouvez également spécifier les arguments d'entrée attendus pour l'appel d'outil.
Transfert à un agent : l'agent doit transférer la conversation à un agent humain ou à un autre bot.

Pour créer une attente :

Cliquez sur un cas de test de référence spécifique pour afficher ses détails.
Dans la section Détails, cliquez sur Afficher la réponse de référence.
Suivez les instructions de l'interface pour ajouter ou modifier des attentes.

Paramètres d'évaluation

Dans la ligne d'en-tête de la liste des scénarios de test, vous pouvez configurer les paramètres d'évaluation :

Golden :
- Critères de réussite/échec : définissez la logique pour déterminer si une conversation simulée est réussie ou non.
- Niveau du tour : ces règles évaluent chaque tour individuellement. Si l'un de ces seuils n'est pas atteint, la métrique spécifique est codée en rouge pour indiquer un échec.
  - Similarité sémantique : valeur seuil pour la similarité sémantique.
  - Exactitude de l'outil : Valeur seuil pour l'exactitude de l'outil.
  - Hallucinations : si cette option est désactivée, les hallucinations sont exclues des résultats réussis/échoués.
- Niveau d'attente : ces règles évaluent les attentes au cours d'un tour. Si l'un de ces seuils n'est pas atteint, la métrique spécifique est codée en rouge pour indiquer un échec.
  - Exactitude de l'outil : Valeur seuil pour l'exactitude de l'outil.
- Méthode d'exécution parfaite : choisissez entre la validation de la relecture naïve ou stable.
- Fausse requête d'outil : utilisez des données simulées au lieu d'appels d'API de production réels.
Scenarios :
- Critères de réussite/d'échec du scénario : Définissez la logique pour déterminer si une conversation simulée est réussie ou non.
- Initiateur de la conversation : définissez qui commence la conversation (l'utilisateur ou le modèle).
- Fausse requête d'outil : utilisez des données simulées au lieu d'appels d'API de production réels.
Évaluation audio
- Enregistrements d'évaluation audio

Exécuter des évaluations

Pour exécuter une évaluation, vous pouvez cliquer sur le bouton d'exécution sur la ligne du scénario de test ou sélectionner plusieurs scénarios de test et les exécuter.

Si vous avez enregistré plusieurs versions, vous pouvez sélectionner celle à utiliser ou enregistrer automatiquement votre agent brouillon en tant que nouvelle version pour l'exécution.

Une fois l'évaluation exécutée, les métriques sont mises à jour et les résultats sont présentés.

Si vous cliquez sur une évaluation d'exécution spécifique, vous pouvez afficher les résultats détaillés d'une exécution. En plus des métriques standards, les suivantes sont affichées :

Échecs de tours
Liste paginée de tous les détails des tours, y compris les réponses réelles et attendues de l'agent.

Pour les cas de test de référence, vous pouvez voir le terme "relecture stable", qui précise que le test a été exécuté dans un environnement cohérent (c'est-à-dire sans changement de contexte ni d'entrée).

Utiliser l'IA pour améliorer les scénarios de test (APERÇU)

Vous pouvez éventuellement utiliser l'IA pour résoudre les problèmes liés à une exécution et suggérer des moyens d'améliorer la qualité de l'agent. Les suggestions d'IA sont optimales lorsque le nombre d'exécutions est d'au moins trois. Pour activer l'IA, sélectionnez le ou les scénarios de test que vous souhaitez évaluer, puis cliquez sur Exécuter la sélection. Dans la fenêtre pop-up qui s'affiche, cochez la case Identifier les problèmes avec l'IA.

Une fois l'exécution terminée, des suggestions basées sur l'IA s'affichent sur la page de résultats. Gemini génère automatiquement un loss_report téléchargeable qui résume les aspects des performances de l'agent et met en évidence les points à améliorer.

Tous les utilisateurs peuvent consulter les corrections suggérées par l'IA, mais seule la personne qui a lancé l'exécution peut effectuer des actions en fonction des résultats.

Cliquez sur Demander à Gemini pour interagir avec l'agent d'assistance. Vous verrez d'abord le rapport sur les pertes qui explique les problèmes généraux liés au modèle ou à l'agent. Vous pouvez demander à l'agent d'assistance de vous expliquer le rapport, qui sera résumé et pourra suggérer des solutions. Une fois les corrections appliquées, vous pouvez demander à l'agent d'assistance d'exécuter à nouveau l'évaluation.

Métriques

Chaque résultat de cas de test inclut un ensemble de métriques qui mesurent les performances de l'agent par rapport aux cas de test que vous avez sélectionnés. Les métriques sont calculées au niveau du tour ou de l'attente (conversation), comme indiqué dans la console.

Dans tous les cas, vous pouvez personnaliser les valeurs requises pour le pass d'exécution dans le menu Paramètres de l'onglet Évaluer.

Exactitude de l'outil

Calculé pour les cas de test golden et de scénario. Cette métrique reflète le pourcentage de paramètres attendus qui ont été mis en correspondance, compte tenu d'un appel d'outil attendu et de ses valeurs de paramètres attendues. Les appels d'outil manqués sont notés 0, et les appels d'outil sans paramètres d'entrée sont notés 1 s'ils sont présents. Si un appel d'outil inattendu est effectué lors d'une évaluation de référence, le résultat sera considéré comme un échec, mais cela n'aura aucun impact sur la valeur de correction de l'outil.

Satisfaction des objectifs des utilisateurs

Calculé pour les scénarios. La satisfaction des objectifs utilisateur est une métrique binaire conçue pour les évaluations de simulation utilisateur. Elle mesure si l'utilisateur simulé pense avoir atteint ses objectifs (0=non, 1=oui). Les entrées sont le user_goal tel que défini par la configuration de l'utilisateur simulé et une transcription de conversation. Si le user_goal fourni ne spécifie pas d'objectif explicite ou implicite, le score de sortie est de -1.

Hallucinations

Disponible pour les scénarios de test de référence et de scénario. Les scores d'hallucination sont calculés pour chaque tour généré. Cette métrique indique si l'agent a fait des affirmations qui ne sont pas justifiées par son contexte (0=non, 1=oui). Le contexte est constitué de tous les tours de conversation précédents, des variables de session, des appels d'outils et des instructions de l'agent. Cette métrique n'est calculée que pour les tours contenant des appels d'outils. Il ne détecte pas les hallucinations dans les appels d'outils. Les appels d'outils fournis en tant que contexte sont présumés corrects. Afin de minimiser les faux positifs, la métrique peut renvoyer un score N/A si une réponse ne contient aucune affirmation factuelle ou uniquement des connaissances générales déjà établies.

Vous pouvez activer et désactiver les hallucinations dans les paramètres d'évaluation.

Correspondance sémantique

Calculé pour les scénarios de test golden. Cette métrique mesure dans quelle mesure un énoncé d'agent observé correspond à un énoncé d'agent attendu. La correspondance sémantique est calculée au niveau du tour. Les valeurs renvoyées sont comprises entre 0 (totalement incohérent ou contradictoire) et 4 (totalement cohérent).

Attentes concernant les scénarios

Calculé pour les scénarios. Cette métrique mesure si le comportement de l'agent tel qu'attendu par les utilisateurs simulés était satisfaisant ou non (0=non, 1=oui). Deux types d'attentes des utilisateurs simulées sont acceptés :

Attentes concernant l'appel d'outil : calculées de la même manière que la pertinence de l'appel d'outil, à l'exception des points suivants :
- Les résultats sont 0 (non) ou 1 (oui).
- Les appels d'outils inattendus ne sont pas sanctionnés. Les attentes sont censées spécifier l'ensemble des appels d'outils essentiels pour qu'une conversation réponde aux attentes de l'utilisateur simulé.
- Lorsqu'une attente d'entrée d'appel d'outil est satisfaite, l'appel est intercepté et remplacé par une valeur de retour fictive au moment de l'exécution.
Attentes concernant la réponse de l'agent : vérifie si une réponse d'agent dans la conversation contient une chaîne attendue.

Achèvement d'une tâche

Calculé pour les scénarios. L'exécution des tâches est une mesure de la qualité des conversations. Elle mesure conjointement si les objectifs de l'utilisateur ont été atteints ET si le comportement de l'agent était correct. Elle est définie comme suit :

User_Goal_Satisfied AND no_hallucinations_detected AND Expectations Satisfied

Personas

Les personas sont des personas utilisateur simulés que vous pouvez personnaliser et utiliser pour tester des agents avec des scénarios de test . Cette fonctionnalité est utile pour s'assurer que l'agent interagit de manière appropriée avec les types d'utilisateurs humains qu'il est susceptible de rencontrer au moment de l'exécution.

Si vous ne sélectionnez pas de persona, un persona aléatoire sera sélectionné pour chaque résultat de scénario.

Cette fonctionnalité est disponible pour les entrées de texte et audio.

Créer un persona

Pour créer un persona, accédez à l'onglet Évaluer, puis cliquez sur Gestion des personas (à côté de l'icône Paramètres).
Cliquez sur + Ajouter un persona.
Dans le menu qui s'affiche, saisissez un nom, une personnalité de l'utilisateur et tout contexte utilisateur supplémentaire (âge, localisation, raison de l'appel, etc.).
Cliquez sur + Ajouter.

Pour exécuter une évaluation à l'aide d'un persona :

Revenez à la page principale Évaluer, puis sélectionnez un ou plusieurs scénarios de test. Cliquez sur Exécuter la sélection.
Dans la fenêtre pop-up, sélectionnez la persona que vous venez de créer dans le menu déroulant Personas, puis cliquez sur Exécuter.

Évaluation Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Concepts d'évaluation

Créer des scénarios de test

Scénario

Objectif de l'utilisateur dans le scénario

Variables de scénario

Attentes concernant les scénarios

Doré

Attentes de référence

Paramètres d'évaluation

Exécuter des évaluations

Utiliser l'IA pour améliorer les scénarios de test (APERÇU)

Métriques

Exactitude de l'outil

Satisfaction des objectifs des utilisateurs

Hallucinations

Correspondance sémantique

Attentes concernant les scénarios

Achèvement d'une tâche

Personas

Créer un persona

Évaluation