Google utilise la technologie IA pour traduire le contenu dans votre langue préférée. Les traductions générées par IA peuvent contenir des erreurs.

Évaluer vos agents

Cette fonctionnalité vous permet d'évaluer les agents d'IA. Vous pouvez utiliser le service d'évaluation de l'IA générative pour mesurer et améliorer les performances, la sécurité et la qualité de vos agents.

Types d'évaluation

Type d'évaluation	Cas d'utilisation	Fréquence
Évaluation rapide	Tester une nouvelle logique d'agent ou des modifications de modèle	Fréquent (développement)
Évaluation des scénarios de test	Tests de régression par rapport à un ensemble de données spécifique.	Programmé (CI/CD)
Surveillance en ligne	Suivi de la qualité d'un déploiement d'agent de production.	Continuous (Production)

Workflow d'évaluation

Vous pouvez évaluer vos agents à l'aide de la consoleGoogle Cloud ou du SDK Agent Platform.

ConsoleGoogle Cloud

Pour exécuter une évaluation de base pour un déploiement d'agent :

Dans la console Google Cloud , accédez à la page Agent Platform > Agents.
Dans le menu de navigation de gauche, sélectionnez Déploiements, puis votre agent.
Accéder à la page "Déploiements"
Sélectionnez l'onglet Tableau de bord, puis la sous-section Évaluation.
Cliquez sur Nouvelle évaluation.
Suivez les instructions pour définir vos scénarios de test et sélectionner des métriques.
Cliquez sur Exécuter l'évaluation.

Pour obtenir des guides plus détaillés, consultez Exécuter des évaluations hors connexion ou Évaluation continue avec des moniteurs en ligne.

SDK Agent Platform

Le workflow d'amélioration des agents repose sur la roue de qualité, un cycle continu d'évaluation, d'analyse et d'optimisation. Vous évaluez les performances de votre agent, analysez les résultats pour identifier les clusters d'échecs, puis optimisez vos requêtes ou votre configuration pour résoudre ces problèmes. Ce processus itératif vous aide à détecter et à résoudre de manière proactive les écarts de performances.

Avant de commencer

Installez le SDK Agent Platform avec les extensions requises :
```
pip install google-cloud-aiplatform[adk,evaluation]
```
Initialisez le client SDK Agent Platform :
```
import vertexai
from vertexai import Client

client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")
```
Où :
- YOUR_PROJECT_ID : ID de votre projet Google Cloud .
- YOUR_LOCATION : votre région cloud, par exemple us-central1.

1. Définir des cas d'évaluation (simulation utilisateur)

Au lieu de créer manuellement des scénarios de test, utilisez la simulation utilisateur pour générer des plans de conversation multitours synthétiques basés sur les instructions de votre agent.

# Generate scenarios from agent info
eval_dataset = client.evals.generate_conversation_scenarios(
    agent_info=my_agent_info,
    config={
        "count": 5,
        "generation_instruction": "Generate scenarios where a user asks for a refund.",
    },
)

Pour en savoir plus, consultez la documentation de référence du SDK Agent Platform.

2. Exécuter des inférences

Exécutez les cas d'évaluation par rapport à votre agent pour capturer les traces.

# Generate behavior traces using a multi-turn user simulator
traces = client.evals.run_inference(
    agent=my_agent,
    src=eval_dataset,
    config={"user_simulator_config": {"max_turn": 5}}
)

3. Calculer les métriques (évaluateurs automatiques)

Utilisez les évaluateurs automatiques multitours pour évaluer les traces capturées. Ces évaluateurs analysent l'historique complet des conversations pour vérifier le respect des instructions et l'utilisation des outils.

# Evaluate the traces using multi-turn metrics
eval_result = client.evals.evaluate(
    traces=traces,
    metrics=[
        "MULTI_TURN_TASK_SUCCESS",
        "MULTI_TURN_TOOL_USE_QUALITY"
    ]
)

4. Effectuer une analyse (clusters de défaillance)

Le système regroupe automatiquement les évaluations ayant échoué dans des clusters de pertes pour identifier les principaux problèmes des agents.

# Identify the top failure patterns in the results
loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)

5. Optimiser l'agent

Enfin, utilisez le service Optimizer pour affiner de manière programmatique les instructions système ou les descriptions d'outils de votre agent en fonction des données d'échec.

# Automatically refine the system prompt to fix identified issues
optimize_result = client.optimizer.optimize(
    targets=["system_prompt"],
    benchmark=eval_result,
    tests=eval_dataset
)

Étapes suivantes

Exécuter des évaluations hors connexion
Afficher les résultats de l'évaluation
En savoir plus sur le service d'évaluation de l'IA générative

Évaluer vos agents Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.