L'évaluation hors connexion vous permet de mesurer les performances, la sécurité et la qualité de vos agents en analysant les données historiques collectées lors du développement ou de la production. Vous pouvez évaluer des traces individuelles (chemins d'exécution uniques) ou des sessions complètes (historiques de conversations à plusieurs tours) par rapport à un ensemble de métriques prédéfinies ou personnalisées.
Traces et sessions
- Trace : enregistrement factuel et immuable du comportement de l'agent, y compris les entrées du modèle, les réponses et les appels d'outils. Une trace représente un chemin d'exécution unique.
- Session : englobe l'ensemble de l'interaction à plusieurs tours entre un utilisateur et un agent. Utilisez les sessions pour évaluer la conservation du contexte et le flux de conversation au fil du temps.
Avant de commencer
Pour vous assurer de disposer des données et de l'environnement nécessaires à l'évaluation hors connexion, procédez comme suit :
- Assurez-vous qu'un environnement d'exécution de l'agent fonctionnel est déployé avec Cloud Trace activé.
- Configurez un bucket Cloud Storage pour stocker les résultats de l'évaluation. Vous n'avez besoin de fournir ce chemin qu'une seule fois. Il sera prérempli pour les exécutions futures.
- Si vous prévoyez d'utiliser le SDK Python pour l'évaluation, initialisez le SDK Agent Platform client comme décrit dans Évaluer vos agents.
Créer une évaluation à partir du registre
Dans la Google Cloud console, accédez à la page Agent Platform > Agents > Évaluation.
Cliquez sur Nouvelle évaluation.
Sélectionnez l'onglet Traces ou Sessions en fonction de votre objectif d'évaluation.
Utilisez l'icône de filtre et le sélecteur de date pour filtrer les données (par exemple, par Version ou "2 dernières semaines"), puis sélectionnez les ID spécifiques que vous souhaitez évaluer.
Cliquez sur Continuer.
(Facultatif) Dans le champ Nom de l'évaluation, saisissez un nom pour l'évaluation ou utilisez la valeur par défaut préremplie.
Dans le champ Chemin d'accès aux données privées de sortie, saisissez l'URI de votre bucket Cloud Storage. Après la première utilisation, ce chemin est prérempli pour les exécutions futures.
Par défaut, les quatre métriques principales sont ajoutées. Vous pouvez ajouter ou supprimer des métriques selon vos besoins.
Cliquez sur Évaluer l'agent.
Évaluer une seule trace ou session
Vous pouvez également déclencher des évaluations directement lors de l'inspection de journaux individuels : 1. Dans la Google Cloud console, accédez à la page Agent Platform > Registre d'agents.
2. Sélectionnez une entrée de journal spécifique. 3. Cliquez sur l'onglet Évaluation dans le panneau de détails. 4. Si le journal n'a pas été évalué, cliquez sur Évaluer pour exécuter une évaluation ad hoc.