Ce document présente les recommandations de Google pour utiliser au mieux l'IA de qualité. En suivant les consignes de ce document, vous vous assurez que l'IA de qualité fournit les informations les plus précises et les plus utiles possible pour vos besoins commerciaux.
Tableaux de données
Les fiches d'évaluation donnent accès aux métriques de performances des agents et à des instructions détaillées pour répondre aux questions sur une conversation. Vous devez saisir vos données de conversation, vos questions et les options de réponse possibles, ainsi que des instructions sur la façon d'interpréter ces réponses. Pour obtenir les meilleurs résultats, utilisez la page Tableaux de données de la console Quality AI pour importer vos exemples de conversations.
Les tableaux de données vous permettent de regrouper vos questions et d'afficher des scores distincts pour chaque groupe. Créez plusieurs fiches d'évaluation avec des questions différentes dans chacune d'elles pour évaluer les conversations selon différents critères. Vous pouvez ensuite afficher les scores de qualité et de conversation pour chaque fiche d'évaluation afin d'évaluer un agent en fonction de critères distincts.
Données de conversation
Les données de conversation sont des transcriptions de conversations vocales ou par chat, dont les informations permettant d'identifier personnellement les utilisateurs ont été masquées. Importez au moins 2 000 conversations pour chaque centre d'appels ou unité commerciale.
Vous pouvez également importer des enregistrements audio de conversations vocales. Pour de meilleurs résultats, enregistrez l'audio en respectant les spécifications suivantes :
- Deux canaux
- Taux d'échantillonnage de 16 000 Hz (ou entre 8 000 et 48 000 Hz)
- Encodage sans perte : FLAC ou LINEAR16
- Encodage sans perte pour les fichiers audio WAV : LINEAR16 ou MULAW
Les métadonnées des enregistrements audio d'un appel vocal doivent inclure les informations suivantes :
- Libellés de canal permettant d'identifier l'agent et le client
- ID, nom, emplacement, équipe et CSAT de l'agent
- Langue de l'audio en tant que tag de langue BCP-47, tel que "en-US"
Questions
Dans chaque fiche d'évaluation, les questions et les instructions pour y répondre fournissent des informations précieuses à l'IA de qualité pour évaluer les conversations et les performances des agents. Pour maximiser la précision des évaluations automatiques, rédigez des questions et des instructions en gardant à l'esprit les concepts suivants :
- Clarté : rédigez des questions claires et compréhensibles par un humain.
- Précision : ajoutez des options de réponse et des instructions aussi précises que possible.
- Détails : incluez des instructions suffisamment détaillées pour qu'un humain puisse évaluer les conversations de manière fiable et sûre.
- Exemples : l'IA de qualité est encore plus précise si vous fournissez des exemples de conversations réelles qui illustrent chaque réponse à vos questions.
Les questions peuvent prendre différentes formes. Voici quelques modèles de questions utiles :
- "L'agent a-t-il…?" suivi d'une action spécifique. Ce format indique que l'évaluateur doit rechercher quelque chose que l'agent a dit.
- "Le client a-t-il effectué…?" avec une action spécifique. Ce format indique que l'évaluateur doit rechercher quelque chose que le client a dit.
- Commencer par des mots interrogatifs tels que quoi ou pourquoi encourage l'évaluation de l'ensemble de la conversation.
Questions à choix multiples
Les utilisateurs posent souvent des questions auxquelles il n'est possible de répondre que par "oui" ou "non". Toutefois, il est possible qu'une question ne s'applique pas à la conversation, auquel cas la réponse doit être N/A.
La question peut également être interprétée comme une question fermée (oui ou non) dans diverses circonstances, ce qui entraîne des réponses incohérentes avec seulement deux options. Inclure des questions qui nécessitent d'autres types de réponses permet au modèle d'IA de mieux comprendre la conversation.
Analyse acoustique
L'IA de qualité évalue les transcriptions de conversations et ne peut pas effectuer d'analyse acoustique. Excluez les questions qui nécessitent une analyse acoustique. Par exemple, ni une personne ni l'IA de qualité ne peuvent répondre à la question "L'agent a-t-il utilisé une salutation avec un ton enjoué ?" en lisant uniquement la transcription de la conversation.
Tags
Le tag facultatif permet de regrouper les questions associées dans une catégorie plus petite. Pour une seule conversation, l'IA de qualité calcule un score global. Vous pouvez regrouper les questions à l'aide de l'un des trois tags suivants : "business", "customer" ou "compliance". Pour chaque tag, l'IA de qualité calcule également un score qui n'inclut que les questions auxquelles ce tag est appliqué.
Instructions
Les instructions définissent la façon dont chaque réponse est interprétée. Elles doivent donc être spécifiques et ne laisser aucune place à l'interprétation. La définition garantit que chaque évaluation d'une conversation fournit la même réponse.
Format
Incluez une brève description de l'objectif de la question, suivie d'une description des critères pour chaque réponse possible. Cela signifie que vous devez définir la circonstance précise dans laquelle une personne donnerait chaque réponse.
Par exemple, les instructions suivantes s'appliquent à une question de type "oui/non" qui demande si l'agent a répondu à la préoccupation principale du client avant de faire de la vente croisée.
Instructions :
L'objectif de cette question est de déterminer si l'agent a répondu à la préoccupation principale du client avant d'essayer de lui vendre un produit supplémentaire. Cela permet de créer une expérience plus positive pour notre marque.
Attribuez la note "Oui" si l'agent a résolu le problème principal, puis a tenté de réaliser une vente. Exemple : "Je viens de modifier les informations de votre compte. J'ai vu que vous aviez signalé votre appareil connecté comme défectueux. Voulez-vous commander un appareil de remplacement ?"
Attribuez la note "Non" si l'agent a essayé de vendre un produit avant de résoudre le problème principal. Exemple : "Avant de modifier les informations de votre compte, je vois que vous nous avez acheté un ordinateur portable il y a cinq ans. Voulez-vous essayer notre nouveau modèle ?"
Indiquez "N/A" si aucune tentative de vente n'a été effectuée.
Types de réponses
Le type de réponse dépend de la structure de la question. Cette section fournit des suggestions pour vous aider à vous lancer, mais la liste des utilisations n'est pas exhaustive.
Oui/Non
Les réponses de type "Oui/Non" sont les plus courantes, car vous pouvez évaluer rapidement ces questions et les réponses sont souvent plus intuitives que les autres types de réponses. Les questions qui nécessitent une réponse de type "oui/non" commencent souvent par "Avez-vous…" et demandent si une action spécifique a eu lieu. Ces questions peuvent également être formulées sous forme de questions vrai/faux.
Dans les exemples de conversations, les réponses "oui/non" sont enregistrées sous la forme d'une valeur "true" (vrai) ou "false" (faux) dans les formats suivants :
- La réponse "Oui" correspond à
true. - Une réponse "Non" correspond à
false.
Numbers
Les réponses numériques sont utiles pour les questions qui demandent un nombre, un montant en dollars ou une évaluation sur une échelle. Les questions qui bénéficient de ce type de réponse commencent souvent par "Combien de…". "Combien…" ou "Sur une échelle de…" et vous demande de déterminer une seule réponse.
Dans les exemples de conversations, les réponses numériques ont le format suivant :
- Une réponse de 40,5 est
40.5.
Texte
Les réponses textuelles nécessitent le plus de travail de la part d'un annotateur humain. Les questions qui nécessitent des réponses textuelles commencent souvent par des mots interrogatifs tels que "Qu'est-ce que…" ou "Pourquoi…" et nécessitent souvent une évaluation de l'ensemble de la conversation. Les réponses textuelles favorisent la variété des réponses. Les instructions doivent donc expliquer clairement comment interpréter la question et quand attribuer chaque choix de réponse.
Dans les exemples de conversations, les réponses textuelles se présentent au format suivant :
- Une réponse "Terminée" correspond à
"CONCLUDED".
Attribuer des scores
Lorsque vous créez une question, vous pouvez attribuer un score numérique à chaque choix de réponse. Ces scores représentent l'importance de chaque réponse pour le calcul du score global de la conversation.
Une plage utile pour les scores des choix de réponse est comprise entre 0 et 10. Cette plage offre une certaine variation pour la spécificité et est comparable à un pourcentage. Un choix de réponse avec un score de 0 n'a aucune incidence sur le calcul du score de la conversation. Une réponse avec un score de 10 a le plus d'impact sur le score de conversation. En d'autres termes, le choix de réponse avec un score de 10 augmente davantage le score de la conversation que tout autre choix de réponse avec un score inférieur. Un choix de réponse avec un score de 5 augmente le score de la conversation de moitié moins que la réponse avec un score de 10.
N/A
Cochez la case pour activer l'option N/A comme choix de réponse lorsqu'une question ne s'applique pas à une conversation. Lorsque l'IA de qualité choisit "N/A" comme réponse, la question est supprimée du calcul du score de la conversation.
Exemples d'entrées de tableau de données
Les exemples suivants montrent comment ajouter toutes les informations nécessaires pour créer un tableau de données utile. Chaque tableau de données nécessite les informations suivantes :
- Toute question concernant la conversation
- Instructions pour interpréter la question et définir chaque choix de réponse.
- Type de réponse (texte, nombre ou oui/non).
- Choix de réponses qui définissent les réponses possibles en fonction du type de réponse (par exemple, "oui" et "non", une liste de nombres ou des réponses textuelles).
- Score à définir pour les points gagnés pour chaque choix de réponse. Le score maximal pour une question est déterminé par le score le plus élevé parmi toutes les options de réponse.
Vous pouvez inclure les éléments suivants pour organiser les questions de votre fiche d'évaluation, mais ils ne sont pas obligatoires :
- Ajoutez un tag pour regrouper les questions dans des catégories (par exemple, "business", "client" ou "conformité").
Exemple 1
- Question : Quel a été le résultat de la conversation ?
- Tag : client
Instructions : L'objectif de toute conversation est de parvenir à une résolution ou à un résultat qui relève de l'une des quatre catégories possibles : clôturée, transférée, redirigée ou escaladée.
Les conversations terminées sont celles qui ont été résolues et qui ne nécessitent aucune autre action. Le problème du client a été résolu et la conversation est terminée.
Les conversations transférées sont celles qui doivent être traitées par un autre service ou agent. Il est possible que le client ait été mis en relation avec un spécialiste qui pourra mieux l'aider à résoudre son problème.
Les conversations redirigées sont celles qui doivent être traitées par un autre canal. Par exemple, un client peut avoir été redirigé d'un appel téléphonique vers une session de chat en ligne.
Les conversations escaladées sont celles qui nécessitent l'intervention d'un responsable ou d'un superviseur. Il est possible que le problème du client ait été escaladé en raison de sa gravité ou parce qu'il n'est pas satisfait de la solution proposée par l'agent initial.
Type de réponse : texte
Choix de réponse Score Terminée 1 Transféré 1 Redirigée 1 Escaladé 0 Ajoutez "N/A" comme option de réponse. Si cette option est sélectionnée, la question ne sera pas incluse dans le calcul du score total.
Exemple 2
- Question : Sur une échelle de 0 à 5, dans quelle mesure la communication entre l'agent et le client a-t-elle été efficace ?
- Tag : Business, Compliance, Customer
Instructions : Échelle et critères
0, Extrêmement mauvaise : aucune communication ou incompréhension totale. Langage choquant, abusif ou malveillant Manque total de respect ou d'empathie.
1, Très mauvaise : difficultés de communication importantes. Interruptions fréquentes ou personnes qui se coupent la parole. Il est facile à comprendre et à utiliser. Comportement dédaigneux ou irrespectueux
2 : Mauvaise communication, quelques difficultés de communication. Malentendus ou manque de clarté occasionnels. Intérêt ou engagement limités Manque de respect ou d'empathie occasionnel
3, Moyen : communication de base atteinte. Vous faites quelques efforts pour comprendre et vous faire comprendre.Votre niveau d'engagement et de connexion est modéré. Généralement respectueux, mais avec des points à améliorer.
4 : Bonne communication, claire et efficace. Écoute active et compréhension. Engagement et connexion significatifs. Faire preuve de respect mutuel et d'empathie
5 : Excellent. Communication et compréhension exceptionnelles. Engagement et connexion profonds. Forte capacité à collaborer et à s'entraider. Un haut niveau de respect, d'empathie et de compassion.
Facteurs à prendre en compte lors de l'évaluation :
Clarté : la communication était-elle claire et facile à comprendre ?
Compréhension : les participants ont-ils fait preuve d'écoute active et ont-ils compris les points de vue des autres ?
Engagement : les participants étaient-ils activement engagés dans la conversation et intéressés par ce que les autres avaient à dire ?
Respect : la conversation a-t-elle été respectueuse et attentionnée ?
Empathie : les participants ont-ils fait preuve d'empathie et de compréhension des sentiments des autres ?
Collaboration : les participants ont-ils eu l'impression de collaborer et de travailler en équipe, ou de se faire concurrence ?
Résultat : la conversation a-t-elle atteint ses objectifs ou abouti à un résultat positif ?
N'oubliez pas que le contexte est important. Tenez compte du contexte et de l'objectif de la conversation. Ce qui peut être approprié dans un contexte peut ne pas l'être dans un autre.
Subjectivité : l'évaluation peut être subjective. Différentes personnes peuvent interpréter la même conversation de manière légèrement différente.
Concentrez-vous sur l'amélioration : utilisez les évaluations comme un outil d'apprentissage et d'amélioration, et non comme un moyen de juger ou de critiquer.
Ce framework fournit un guide de base pour évaluer les conversations, mais vous pouvez adapter et ajuster les critères en fonction de vos besoins et objectifs spécifiques.
Type de réponse : nombre
Choix de réponses et scores :
Choix de réponse Score 0 0 1 1 2 2 3 3 4 4 5 5
Ajoutez "N/A" comme option de réponse. Si cette option est sélectionnée, la question ne sera pas incluse dans le calcul du score total.
Exemple 3
- Question : Le représentant (agent) a-t-il salué le client correctement ?
- Tag : client
- Instructions : Le représentant (agent) doit toujours commencer les conversations par une formule de salutation appropriée. Il s'agit d'une étape cruciale pour établir une relation positive et professionnelle avec le client. L'introduction doit être chaleureuse, amicale et accueillante, et donner le ton pour que le client se sente valorisé et respecté. Le représentant (agent) doit également s'assurer que la salutation est adaptée au contexte et à l'origine culturelle du client. En commençant la conversation par une salutation et une formule d'ouverture appropriées, l'agent peut créer une première impression positive, établir une relation de confiance et préparer le terrain pour une interaction réussie avec le client.
- Type de réponse : Oui/Non
Choix de réponses et scores :
Choix de réponse Score "Oui" 1 "Non" 0
Ajoutez "N/A" comme option de réponse. Si cette option est sélectionnée, la question ne sera pas incluse dans le calcul du score total.
Ajouter des exemples de conversations
Les exemples de conversations sont utiles pour clarifier l'interprétation des questions. Pour calibrer et personnaliser le modèle d'IA, vous devez fournir des exemples de conversations avec des réponses attribuées à chaque question. Le modèle d'IA apprend à partir de données de conversations réelles. Prenez donc des exemples de vos conversations existantes dans les insights sur l'expérience client. Si vous ne fournissez aucun exemple de conversation, l'IA de qualité utilise un modèle de fondation qui ne connaît pas les réponses attendues à vos questions.
Pour améliorer les performances du modèle d'IA, incluez au moins les éléments suivants :
- 100 exemples de conversations par question
- 40 exemples de conversations par choix de réponse
Si vous fournissez moins de 100 exemples de conversations pour une même question, le modèle d'IA n'apprendra pas à évaluer précisément cette question spécifique. Vos exemples de conversations sont stockés et le modèle apprend une fois que vous en avez fourni suffisamment. Une seule conversation peut apprendre au modèle à évaluer plusieurs questions. Vous pouvez améliorer davantage la précision de l'évaluation pour n'importe quelle question en ajoutant d'autres exemples de conversations.
Pour chaque question de votre fiche d'évaluation, incluez un pourcentage de conversations pour illustrer chaque choix de réponse. L'exemple suivant montre le nombre de conversations que vous pouvez inclure pour illustrer deux choix de réponse possibles. Cette répartition spécifique n'est pas obligatoire.
Si une question d'une fiche d'évaluation est "L'agent a-t-il fait preuve d'empathie envers le client ?" et que la réponse à cette question peut être "oui" ou "non", incluez les deux éléments suivants :
| Question | Réponses possibles | Part des conversations |
|---|---|---|
| L'agent a-t-il fait preuve d'empathie envers le client ? | "Oui" | 75 % |
| "Non" | 25 % |
Exemple de format de conversation
Les exemples de conversations doivent au minimum inclure des identifiants pour chaque conversation, fiche d'évaluation et question, ainsi que la réponse attendue. Vos exemples de conversations peuvent également inclure les choix de réponse, les scores et les instructions. Les exemples de conversations sont importés en tant que ressource FeedbackLabel. Pour savoir comment modifier des exemples de conversations à l'aide de l'API, consultez le guide de configuration.
CSV
Vous devez importer des exemples de conversations dans un fichier CSV. La première ligne de votre fichier CSV doit être l'en-tête, et le fichier doit contenir les catégories suivantes :
- ConversationId
- QaScorecardId
- QaQuestionId
- QaAnswerLabel ou des champs individuels tels que QaAnswerScore et QaAnswerValue
L'IA de qualité peut créer automatiquement un exemple de modèle de conversation avec les ID précédents renseignés. Vous pouvez choisir le tableau de données à utiliser pour vos exemples de conversations et filtrer le modèle pour n'inclure que certaines de vos conversations. Pour savoir comment créer un modèle et importer des exemples de conversations, consultez le guide de configuration de l'IA de qualité.
Les exemples de fichiers de conversation CSV peuvent avoir différents formats. Par exemple, les réponses "oui"/"non" correspondent à une valeur "vrai" ou "faux", les nombres restent les mêmes et les réponses textuelles sont entourées de guillemets. Cela signifie que true s'affiche sous la forme d'une réponse de type "Oui/Non" et que la réponse sélectionnée est "Oui". En revanche, "Yes" s'affiche comme un type de réponse textuelle avec l'option de réponse "Oui" sélectionnée. Les exemples suivants illustrent certains formats CSV possibles.
- L'en-tête individuel
QaAnswerValuen'attribue pas de score.ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue convo_id,scorecard_test_id,question_id_q3,"NO" convo_id,scorecard_test_id,question_id_q6,"YES" convo_id,scorecard_test_id,question_id_q6,true convo_id,scorecard_test_id,question_id_q6,false convo_id,scorecard_test_id,question_id_q6,40.5
- Inclut les en-têtes
QaAnswerValueetQaAnswerScore.ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue,QaAnswerScore convo_id,scorecard_test_id,question_id_q3,"NO",score: 1.0 convo_id,scorecard_test_id,question_id_q6,"YES",score: 1.0
- L'en-tête
QaAnswerLabelcomprend à la fois un score et une réponse, mais ne les sépare pas par une virgule.ConversationId,QaScorecardId,QaQuestionId,QaAnswerLabel convo_id,scorecard_test_id,question_id_q3,score: 1.0 "NO" convo_id,scorecard_test_id,question_id_q6,score: 0.5 40.5 convo_id,scorecard_test_id,question_id_q6,na_value:true convo_id,scorecard_test_id,question_id_q3,true
Table
Dans une feuille de calcul, le format visuel de vos exemples de conversations est un tableau. Chaque ligne contient des informations permettant d'identifier une seule réponse et chaque colonne contient des identifications distinctes, comme indiqué dans le tableau suivant :
| ID de la conversation | ID du tableau de données | ID de la question | Réponse |
|---|---|---|---|
| 44748735396 | 5727080762913918243 | 4097398336657302301 | "YES" |
| 44748735396 | 5727080762913918243 | 3576133206121890384 | "NO" |
| 3495523396 | 5727080762913918243 | 4097398336657302301 | "YES" |
| 3495523396 | 5727080762913918243 | 3576133206121890384 | "NO" |
Évaluer une conversation
Les annotateurs humains utilisent les questions et les instructions de la fiche d'évaluation pour évaluer manuellement les conversations et déterminer les bonnes réponses à chaque question dans les exemples de conversations. Lorsque plusieurs personnes évaluent la même conversation, elles fournissent parfois des réponses différentes à chaque question. Cette incohérence entre les évaluations introduit du bruit et de la confusion dans le processus de machine learning. Dans une conversation, si une même question ou une question similaire est associée à plusieurs réponses différentes, l'IA de qualité ne peut pas apprendre le mappage entre les questions et les réponses.
Les éléments suivants peuvent entraîner des incohérences lorsque plusieurs personnes répondent aux mêmes questions pour une même conversation :
- Questions subjectives qui conduisent à des interprétations différentes entre les annotateurs.
- Rubriques avec des informations insuffisantes ou des consignes peu claires.
- Différentes versions d'une question, d'options de réponse ou d'instructions, par exemple :
- Vous pouvez commencer par des options de réponse "oui"/"non", puis passer à une approche plus précise avec les options "non-a", "non-b" et "non-c".
- Toutefois, si vous combinez l'approche oui/non avec les options "non-a", "non-b" et "non-c", vous risquez de dérouter le modèle.
- Tâche d'évaluation qui nécessite une charge cognitive importante.
Mesurer la cohérence
Pour mesurer la cohérence de vos exemples de conversations, demandez à plusieurs annotateurs d'évaluer indépendamment la même conversation. Calculez ensuite la concordance entre eux à l'aide du coefficient kappa de Cohen. Vous souhaitez obtenir un coefficient kappa de Cohen d'au moins 0,2. Si la cohérence est faible, essayez l'une des options suivantes :
- Affinez la question et les instructions pour laisser moins de place à l'interprétation.
- Communiquez entre vous pour résoudre les écarts et vous mettre d'accord sur une norme de notation unique.
- Surveillez en permanence la cohérence entre les annotateurs.
- Proposez une formation supplémentaire aux annotateurs dont les réponses s'écartent fréquemment de la norme de notation.