Cette fonctionnalité vous permet d'évaluer les agents IA. Vous pouvez utiliser le service d'évaluation Gen AI pour mesurer et améliorer les performances, la sécurité et la qualité de vos agents.
Types d'évaluation
| Type d'évaluation | Cas d'utilisation | Fréquence |
|---|---|---|
| Évaluation rapide | Test de la nouvelle logique d'un agent ou des modifications apportées à un modèle | Fréquente (développement) |
| Évaluation des scénarios de test | Tests de régression par rapport à un ensemble de données spécifique | Planifiée (CI/CD) |
| Surveillance en ligne | Suivi de la qualité du déploiement d'un agent de production | Continue (production) |
Workflow d'évaluation
Vous pouvez évaluer vos agents à l'aide de la Google Cloud console ou du SDK Agent Platform.
Google Cloud Console
Pour exécuter une évaluation de base pour le déploiement d'un agent :
- Dans la Google Cloud console, accédez à la page Agent Platform > Agents.
- Dans le menu de navigation de gauche, sélectionnez Déploiements , puis votre agent.
- Sélectionnez l'onglet Tableau de bord , puis la sous-section Évaluation.
- Cliquez sur Nouvelle évaluation.
- Suivez les instructions pour définir vos scénarios de test et sélectionner des métriques.
- Cliquez sur Exécuter l'évaluation.
Pour obtenir des guides plus détaillés, consultez Exécuter des évaluations hors connexion ou Évaluation continue avec des moniteurs en ligne.
SDK Agent Platform
Le workflow d'amélioration des agents repose sur la roue de la qualité, un cycle continu d'évaluation, d'analyse et d'optimisation. Vous évaluez les performances de votre agent, analysez les résultats pour identifier les clusters d'échecs, puis optimisez vos prompts ou votre configuration pour résoudre ces problèmes. Ce processus itératif vous aide à détecter et à résoudre de manière proactive les problèmes de performances.
Avant de commencer
Installez le SDK Agent Platform avec les extensions requises :
pip install google-cloud-aiplatform[adk,evaluation]
Initialisez le client SDK Agent Platform :
import vertexai from vertexai import Client client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")
Où :
YOUR_PROJECT_ID: ID de votre Google Cloud projet.YOUR_LOCATION: région cloud, par exempleus-central1.
1. Définir des cas d'évaluation (simulation utilisateur)
Au lieu de créer manuellement des scénarios de test, utilisez la simulation utilisateur pour générer des plans de conversation synthétiques en plusieurs tours en fonction des instructions de votre agent.
# Generate scenarios from agent info eval_dataset = client.evals.generate_conversation_scenarios( agent_info=my_agent_info, config={ "count": 5, "generation_instruction": "Generate scenarios where a user asks for a refund.", }, )
Pour en savoir plus, consultez la documentation de référence du SDK Agent Platform.
2. Exécuter des inférences
Exécutez les cas d'évaluation par rapport à votre agent pour capturer des traces.
# Generate behavior traces using a multi-turn user simulator traces = client.evals.run_inference( agent=my_agent, src=eval_dataset, config={"user_simulator_config": {"max_turn": 5}} )
3. Calculer des métriques (AutoRaters)
Utilisez les AutoRaters en plusieurs tours pour évaluer les traces capturées. Ces évaluateurs analysent l'historique complet des conversations pour vérifier le respect des instructions et l'utilisation des outils.
# Evaluate the traces using multi-turn metrics eval_result = client.evals.evaluate( traces=traces, metrics=[ "MULTI_TURN_TASK_SUCCESS", "MULTI_TURN_TOOL_USE_QUALITY" ] )
4. Effectuer une analyse (clusters d'échecs)
Le système regroupe automatiquement les évaluations ayant échoué dans des clusters de pertes pour identifier les principaux problèmes de l'agent.
# Identify the top failure patterns in the results loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)
5. Optimiser l'agent
Enfin, utilisez le service Optimizer pour affiner par programmation les instructions système ou les descriptions d'outils de votre agent en fonction des données d'échec.
# Automatically refine the system prompt to fix identified issues optimize_result = client.optimizer.optimize( targets=["system_prompt"], benchmark=eval_result, tests=eval_dataset )
Étape suivante
- Exécuter des évaluations hors connexion
- Afficher les résultats de l'évaluation
- En savoir plus sur le service d'évaluation Gen AI