Ce document explique comment utiliser l'évaluation des agents pour mesurer et améliorer les performances, la sécurité et la qualité de vos agents.
Pour en savoir plus sur l'évaluation des modèles, consultez la présentation de Gen AI Evaluation Service.
Résumé de la procédure
| Phase | Activité | Objectif |
|---|---|---|
| Conception | Définir des scénarios d'évaluation | Spécifiez les tâches de l'agent et les résultats attendus. |
| Exécution | Exécuter des inférences | Générez des traces de conversations réelles ou simulées. |
| Notation | Calculer des métriques | Évaluez les traces à l'aide d'évaluateurs automatiques (succès de la tâche, sécurité). |
| Affinement | Optimiser l'agent | Proposer et vérifier des améliorations apportées aux instructions ou aux outils |
Processus d'évaluation
L'évaluation suit un workflow structuré et itératif :
- Définir les cas d'évaluation : un cas d'évaluation est une spécification qui définit la tâche d'un agent. Un cas d'évaluation peut inclure une ou plusieurs étapes de conversation, le contexte de la conversation (l'état de l'agent) et une spécification pour simuler les réponses des utilisateurs lors de l'inférence.
- Exécuter des inférences : l'inférence est l'exécution d'un cas d'évaluation. Si un cas d'évaluation contient un plan de conversation, les réponses des utilisateurs sont simulées lors de l'inférence.
- Générer des traces : chaque exécution d'inférence capture le comportement de l'agent dans une trace. Une trace est un enregistrement factuel et immuable du comportement de l'agent, y compris les entrées du modèle, les réponses et les appels d'outils.
- Métriques de calcul : les métriques sont des scores calculés pour chaque trace à l'aide d'évaluateurs prédéfinis ou personnalisés. Certaines métriques, comme la correspondance exacte, sont basées sur une référence et nécessitent un cas d'évaluation avec une réponse de référence. D'autres, comme Utilité, sont sans référence et évaluent la trace seule. Cette évaluation automatisée vous permet de noter les traces capturées à partir du trafic de production ou des journaux externes, indépendamment d'un environnement de test géré.
- Effectuer des analyses : analysez les métriques, les rubriques et les verdicts pour identifier les principaux problèmes liés à l'agent, relier ces problèmes aux cas de test et générer des insights pour l'amélioration.
- Optimiser l'agent : utilisez l'optimisation pour gérer l'ensemble du cycle d'évaluation. Ce processus automatisé analyse les résultats, propose des améliorations à l'agent et réexécute le processus de manière itérative pour vérifier les gains de performances.
Workflow d'évaluation
Vous pouvez intégrer l'évaluation à deux étapes principales de votre workflow :
- Itération de développement local : évaluez un agent basé sur l'Agent Development Kit (ADK) en local pour itérer rapidement sur l'ingénierie des prompts et les configurations d'outils.
- Évaluation des agents déployés : mesurez la qualité des agents déployés en analysant les traces historiques ou en exécutant des benchmarks synthétiques par rapport aux points de terminaison des agents.
Fonctionnalités de base
L'évaluation d'agent vous aide à créer une suite d'évaluation initiale, même sans données de test existantes. Les fonctionnalités suivantes vous aident à automatiser le processus de génération de scénarios de test et d'affinage de vos systèmes agentiques :
Génération de scénarios et simulation d'utilisateurs : générez automatiquement des scénarios de test synthétiques diversifiés et multitours en fonction des instructions et des définitions d'outils de votre agent. Cette automatisation vous permet de commencer les tests immédiatement en éliminant la nécessité de créer manuellement les cas de test initiaux.
Simulation d'environnement : interceptez des appels d'outils spécifiques pour injecter des comportements personnalisés, des données simulées ou des erreurs simulées (telles que des erreurs HTTP 503 ou des pics de latence). Cette simulation vous permet de valider la résilience de l'agent sans impacter les backends de production.
Évaluation multitour : évaluez automatiquement l'intégralité de l'historique des conversations à l'aide d'évaluateurs automatiques multitours. Ces évaluateurs analysent l'extraction d'intention, génèrent des rubriques de manière dynamique et fournissent des verdicts de validation objectifs pour s'assurer que les instructions sont respectées.
Optimisation des requêtes : générez et validez par programmation des instructions système affinées à l'aide de l'optimisation des requêtes. Le framework d'optimisation identifie les points de défaillance et propose de manière itérative des mises à jour ciblées.