L'évaluation automatique de la synthèse (auto-évaluation) est essentielle pour passer d'une QA manuelle basée sur des feuilles de calcul à une validation automatisée et évolutive des modèles de synthèse. Cette fonctionnalité fournit les preuves empiriques nécessaires pour vendre des versions de modèle plus performantes ou valider les modifications apportées aux requêtes personnalisées.
Avant l'auto-évaluation, la validation d'un modèle de synthèse nécessitait que des humains lisent les transcriptions et évaluent manuellement les résumés. Ce processus était lent, coûteux et subjectif. L'auto-évaluation de la synthèse améliore la validation du modèle de synthèse de la manière suivante :
- À grande échelle : évalue des centaines de conversations en 20 à 30 minutes environ.
- Cohérence : les juges basés sur les LLM évaluent l'exactitude, le respect des consignes et l'exhaustivité.
- Comparaison : fournit des preuves côte à côte que le modèle A est plus performant que le modèle B.
Avant de commencer
- Pour exécuter une évaluation, vous avez besoin d'un générateur de résumés (la configuration du modèle) et d'un ensemble de données (les conversations).
- Si vous souhaitez utiliser un ensemble de données Customer Experience Insights, mais que vous n'en avez pas créé, accédez à la console Customer Experience Insights. Si vous disposez de fichiers de transcription bruts, convertissez-les dans un format compatible pour les importer.
Les deux sources de données
Vous disposez des deux options suivantes pour ingérer les données de conversation.
| Type de source | Recommandé pour… | Fonctionnement |
| Stockage Agent Assist | Trafic en production/en temps réel | Vous sélectionnez une plage de dates et une taille d'échantillon. L'auto-évaluation de la synthèse échantillonne de manière aléatoire le trafic réel stocké dans votre système. |
| Ensemble de données Conversational Insights | Tester des scénarios spécifiques | Vous sélectionnez un ensemble de données organisé créé dans Customer Experience Insights. Cette option est idéale pour les ensembles de référence ou les cas de test spécifiques. |
Étape 1 : Créez un générateur
- Accédez à Évaluations, puis cliquez sur Nouvelle évaluation.
- Saisissez les informations suivantes :
- Nom à afficher : utilisez une convention de dénomination qui inclut la version et la date du modèle.
- Fonctionnalité : sélectionnez Synthèse.
- Générateur : sélectionnez le générateur spécifique que vous souhaitez tester.
Étape 2 : Créer un ensemble de données de conversation
Sélectionnez l'une des sources de données récapitulatives suivantes.
- Générer de nouveaux résumés pour toutes les conversations : recommandé pour tester les nouvelles versions du modèle.
- Générer uniquement les résumés manquants de l'ensemble de données : recommandé lorsque tous les résumés de conversations ne correspondent pas au générateur sélectionné à l'étape précédente.
- Utilisez les résumés existants de l'ensemble de données. Ne pas générer de résumés : recommandé pour évaluer ce qui a déjà été produit sans régénération ni comparaison des performances de différents générateurs de résumés.
Étape 3 : Choisir une ressource Cloud Storage
Choisissez un dossier Cloud Storage dans un bucket pour stocker votre résultat.
Bien que la console Agent Assist affiche des résultats généraux, exportez les données détaillées ligne par ligne au format CSV. Il s'agit de la source de référence pour le dépannage approfondi.
Étape 4 : Interpréter les métriques
Une fois l'exécution terminée, vous verrez un tableau de bord avec les scores de chaque métrique d'évaluation.
Drill down
Vous pouvez cliquer sur n'importe quelle ligne de conversation pour afficher les informations suivantes :
- Transcription avec le dialogue brut
- Candidats au résumé
- Explication de l'auto-évaluation de la synthèse pour un score spécifique
Étape 5 : Utiliser le mode Comparaison
Vous pouvez sélectionner deux exécutions d'évaluation distinctes et les comparer. Comparez les modèles d'évaluation pour le même ensemble de données afin de vous assurer que vous les comparez aux mêmes informations. Si vous modifiez l'ensemble de données entre les exécutions, la comparaison n'est pas valide. Vérifiez toujours que l'ID de l'ensemble de données correspond à celui des métadonnées.
Suivez ces étapes pour voir les preuves de la mise à niveau de votre modèle de synthèse vers la dernière version.
- Exécutez l'évaluation A à l'aide de votre modèle actuel.
- Exécutez l'évaluation B sur le même ensemble de données à l'aide du modèle le plus récent.
- Sélectionnez les deux évaluations dans la liste, puis cliquez sur Comparer.
La console Agent Assist met en évidence les scores les plus élevés.
Conseils de dépannage et bonnes pratiques
- Importez vos propres fichiers de texte brut pour l'évaluation. Commencez par créer un ensemble de données Insights sur l'expérience client.
- La console affiche la section "Situation concise", mais le texte récapitulatif la liste en deuxième position. L'ordre de la barre latérale ne correspond pas forcément à l'ordre de génération du texte. Fiez-vous au contenu textuel et à l'exportation CSV pour obtenir la structure définitive.
- À propos des scores automatiques Ils sont dignes de confiance, mais vérifiez. Le modèle d'auto-évaluation est calibré pour imiter l'interaction humaine, mais il existe des cas extrêmes. Utilisez toujours l'exportation CSV Cloud Storage pour auditer manuellement un petit échantillon afin de renforcer la confiance dans le score automatisé.