Évaluer vos agents

Cette fonctionnalité vous permet d'évaluer les agents IA. Vous pouvez utiliser le service d'évaluation Gen AI pour mesurer et améliorer les performances, la sécurité et la qualité de vos agents.

Types d'évaluation

Type d'évaluation	Cas d'utilisation	Fréquence
Évaluation rapide	Test de la nouvelle logique d'un agent ou des modifications apportées à un modèle	Fréquente (développement)
Évaluation des scénarios de test	Tests de régression par rapport à un ensemble de données spécifique	Planifiée (CI/CD)
Surveillance en ligne	Suivi de la qualité du déploiement d'un agent de production	Continue (production)

Workflow d'évaluation

Vous pouvez évaluer vos agents à l'aide de la Google Cloud console ou du SDK Agent Platform.

Google Cloud Console

Pour exécuter une évaluation de base pour le déploiement d'un agent :

Dans la Google Cloud console, accédez à la page Agent Platform > Agents.
Dans le menu de navigation de gauche, sélectionnez Déploiements , puis votre agent.
Accéder à la page "Déploiements"
Sélectionnez l'onglet Tableau de bord , puis la sous-section Évaluation.
Cliquez sur Nouvelle évaluation.
Suivez les instructions pour définir vos scénarios de test et sélectionner des métriques.
Cliquez sur Exécuter l'évaluation.

Pour obtenir des guides plus détaillés, consultez Exécuter des évaluations hors connexion ou Évaluation continue avec des moniteurs en ligne.

SDK Agent Platform

Le workflow d'amélioration des agents repose sur la roue de la qualité, un cycle continu d'évaluation, d'analyse et d'optimisation. Vous évaluez les performances de votre agent, analysez les résultats pour identifier les clusters d'échecs, puis optimisez vos prompts ou votre configuration pour résoudre ces problèmes. Ce processus itératif vous aide à détecter et à résoudre de manière proactive les problèmes de performances.

Avant de commencer

Installez le SDK Agent Platform avec les extensions requises :
```
pip install google-cloud-aiplatform[adk,evaluation]
```
Initialisez le client SDK Agent Platform :
```
import vertexai
from vertexai import Client

client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")
```
Où :
- YOUR_PROJECT_ID: ID de votre Google Cloud projet.
- YOUR_LOCATION : région cloud, par exemple us-central1.

1. Définir des cas d'évaluation (simulation utilisateur)

Au lieu de créer manuellement des scénarios de test, utilisez la simulation utilisateur pour générer des plans de conversation synthétiques en plusieurs tours en fonction des instructions de votre agent.

# Generate scenarios from agent info
eval_dataset = client.evals.generate_conversation_scenarios(
    agent_info=my_agent_info,
    config={
        "count": 5,
        "generation_instruction": "Generate scenarios where a user asks for a refund.",
    },
)

Pour en savoir plus, consultez la documentation de référence du SDK Agent Platform.

2. Exécuter des inférences

Exécutez les cas d'évaluation par rapport à votre agent pour capturer des traces.

# Generate behavior traces using a multi-turn user simulator
traces = client.evals.run_inference(
    agent=my_agent,
    src=eval_dataset,
    config={"user_simulator_config": {"max_turn": 5}}
)

3. Calculer des métriques (AutoRaters)

Utilisez les AutoRaters en plusieurs tours pour évaluer les traces capturées. Ces évaluateurs analysent l'historique complet des conversations pour vérifier le respect des instructions et l'utilisation des outils.

# Evaluate the traces using multi-turn metrics
eval_result = client.evals.evaluate(
    traces=traces,
    metrics=[
        "MULTI_TURN_TASK_SUCCESS",
        "MULTI_TURN_TOOL_USE_QUALITY"
    ]
)

4. Effectuer une analyse (clusters d'échecs)

Le système regroupe automatiquement les évaluations ayant échoué dans des clusters de pertes pour identifier les principaux problèmes de l'agent.

# Identify the top failure patterns in the results
loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)

5. Optimiser l'agent

Enfin, utilisez le service Optimizer pour affiner par programmation les instructions système ou les descriptions d'outils de votre agent en fonction des données d'échec.

# Automatically refine the system prompt to fix identified issues
optimize_result = client.optimizer.optimize(
    targets=["system_prompt"],
    benchmark=eval_result,
    tests=eval_dataset
)

Étape suivante

Exécuter des évaluations hors connexion
Afficher les résultats de l'évaluation
En savoir plus sur le service d'évaluation Gen AI

Évaluer vos agents Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.