Cette fonctionnalité vous permet d'évaluer les agents d'IA. Vous pouvez utiliser le service d'évaluation de l'IA générative pour mesurer et améliorer les performances, la sécurité et la qualité de vos agents.
Types d'évaluation
| Type d'évaluation | Cas d'utilisation | Fréquence |
|---|---|---|
| Évaluation rapide | Tester une nouvelle logique d'agent ou des modifications de modèle. | Fréquent (développement) |
| Évaluation des scénarios de test | Tests de régression par rapport à un ensemble de données spécifique. | Programmé (CI/CD) |
| Surveillance en ligne | Suivi de la qualité du déploiement d'un agent de production. | Continuous (Production) |
Workflow d'évaluation
Vous pouvez évaluer vos agents à l'aide de la consoleGoogle Cloud ou du SDK Agent Platform.
ConsoleGoogle Cloud
Pour exécuter une évaluation de base pour un déploiement d'agent :
- Dans la console Google Cloud , accédez à la page Agent Platform > Agents.
- Dans le menu de navigation de gauche, sélectionnez Déploiements, puis votre agent.
- Sélectionnez l'onglet Tableau de bord, puis la sous-section Évaluation.
- Cliquez sur Nouvelle évaluation.
- Suivez les instructions pour définir vos scénarios de test et sélectionner des métriques.
- Cliquez sur Exécuter l'évaluation.
Pour obtenir des guides plus détaillés, consultez Exécuter des évaluations hors connexion ou Évaluation continue avec des moniteurs en ligne.
SDK Agent Platform
Le workflow d'amélioration des agents repose sur la roue de qualité, un cycle continu d'évaluation, d'analyse et d'optimisation. Vous évaluez les performances de votre agent, analysez les résultats pour identifier les clusters d'échecs, puis optimisez vos requêtes ou votre configuration pour résoudre ces problèmes. Ce processus itératif vous aide à détecter et à résoudre de manière proactive les écarts de performances.
Avant de commencer
Installez le SDK Agent Platform avec les extensions requises :
pip install google-cloud-aiplatform[adk,evaluation]
Initialisez le client SDK Agent Platform :
import vertexai from vertexai import Client client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")
Où :
YOUR_PROJECT_ID: ID de votre projet Google Cloud .YOUR_LOCATION: votre région cloud, par exempleus-central1.
1. Définir des cas d'évaluation (simulation utilisateur)
Au lieu de créer manuellement des scénarios de test, utilisez la simulation utilisateur pour générer des plans de conversation multitours synthétiques basés sur les instructions de votre agent.
# Generate scenarios from agent info eval_dataset = client.evals.generate_conversation_scenarios( agent_info=my_agent_info, config={ "count": 5, "generation_instruction": "Generate scenarios where a user asks for a refund.", }, )
Pour en savoir plus, consultez la documentation de référence du SDK Agent Platform.
2. Exécuter des inférences
Exécutez les cas d'évaluation par rapport à votre agent pour capturer les traces.
# Generate behavior traces using a multi-turn user simulator traces = client.evals.run_inference( agent=my_agent, src=eval_dataset, config={"user_simulator_config": {"max_turn": 5}} )
3. Calculer les métriques (évaluateurs automatiques)
Utilisez les évaluateurs automatiques multitours pour évaluer les traces capturées. Ces évaluateurs analysent l'intégralité de l'historique des conversations pour vérifier le respect des instructions et l'utilisation des outils.
# Evaluate the traces using multi-turn metrics eval_result = client.evals.evaluate( traces=traces, metrics=[ "MULTI_TURN_TASK_SUCCESS", "MULTI_TURN_TOOL_USE_QUALITY" ] )
4. Effectuer une analyse (clusters de défaillance)
Le système regroupe automatiquement les évaluations ayant échoué dans des clusters de pertes pour identifier les principaux problèmes des agents.
# Identify the top failure patterns in the results loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)
5. Optimiser l'agent
Enfin, utilisez le service Optimizer pour affiner de manière programmatique les instructions système ou les descriptions d'outils de votre agent en fonction des données d'échec.
# Automatically refine the system prompt to fix identified issues optimize_result = client.optimizer.optimize( targets=["system_prompt"], benchmark=eval_result, tests=eval_dataset )
Étapes suivantes
- Exécuter des évaluations hors connexion
- Afficher les résultats de l'évaluation
- En savoir plus sur le service d'évaluation de l'IA générative