Les données de conversation sont acceptées sous forme de transcriptions (Réponse suggérée) et de transcriptions avec données d'annotation (Synthèse). Pour pouvoir utiliser les réponses suggérées et la synthèse pendant l'exécution, vous devez fournir vos propres données de conversation.
Cette page vous guide tout au long des étapes nécessaires pour utiliser les ensembles de données publics et mettre en forme vos propres données pour les importer dans Cloud Storage. Vous devez fournir vos données de conversation sous forme de fichiers texte au format JSON.
Format des données de réponse suggérée
La fonctionnalité Réponse suggérée peut être utilisée avec n'importe quelle fonctionnalité Agent Assist ou seule. Pour implémenter la réponse suggérée, vous devez fournir des données de conversation à Agent Assist.
Format des données de synthèse
La synthèse peut être utilisée avec n'importe quelle fonctionnalité Agent Assist ou en tant que fonctionnalité autonome. Pour implémenter la synthèse, vous devez fournir à Agent Assist des données de conversation incluant des annotations. Une annotation est un résumé d'une transcription de conversation associée. Les annotations permettent d'entraîner un modèle que vous pouvez utiliser pour générer des résumés pour vos agents à la fin de chaque conversation avec un utilisateur final.
Mettre en forme les annotations
Les modèles personnalisés de synthèse Agent Assist sont entraînés à l'aide d'ensembles de données de conversations. Un ensemble de données de conversation contient les données de transcription et d'annotation que vous avez importées.
Avant de pouvoir importer des données, vous devez vous assurer que chaque transcription de conversation est au format JSON, qu'elle est associée à une annotation et qu'elle est stockée dans un bucket Google Cloud Storage.
Pour créer des annotations, ajoutez les chaînes key et value attendues au champ annotation associé à chaque conversation de votre ensemble de données. Pour obtenir des résultats optimaux, les données d'entraînement à l'annotation doivent respecter les consignes suivantes :
- Le nombre minimal recommandé d'annotations d'entraînement est de 1 000. Le nombre minimal appliqué est de 100.
- Les données d'entraînement ne doivent pas contenir d'informations permettant d'identifier personnellement l'utilisateur.
- Les annotations ne doivent pas inclure d'informations sur le genre, l'origine ethnique ou l'âge.
- Les annotations ne doivent pas utiliser de langage toxique ou grossier.
- Les annotations ne doivent pas contenir d'informations qui ne peuvent pas être déduites de la transcription de la conversation correspondante.
- Chaque annotation peut contenir jusqu'à trois sections. Vous pouvez choisir vos propres noms de sections.
- Les annotations doivent être bien orthographiées et grammaticalement correctes.
Voici un exemple illustrant le format d'une transcription de conversation avec l'annotation associée :
{
"entries": [
{
"text": "How can I help?",
"role": "AGENT"
},
{
"text": "I cannot login",
"role": "CUSTOMER"
},
{
"text": "Ok, let me confirm. Are you experiencing issues accessing your account",
"role": "AGENT"
},
{
"text": "Yes",
"role": "CUSTOMER"
},
{
"text": "Got it. Do you still have access to the registered email for the account",
"role": "AGENT"
},
{
"text": "Yes",
"role": "AGENT"
},
{
"text": "I have sent an email with reset steps. You can follow the instructions in the email to reset your login password",
"role": "AGENT"
},
{
"text": "That's nice",
"role": "CUSTOMER"
},
{
"text": "Is there anything else I can help",
"role": "AGENT"
},
{
"text": "No that's all",
"role": "CUSTOMER"
},
{
"text": "Thanks for calling. You have a nice day",
"role": "AGENT"
}
],
"conversation_info": {
"annotations": [
{
"annotation": {
"conversation_summarization_suggestion": {
"text_sections": [
{
"key": "Situation",
"value": "Customer was unable to login to account"
},
{
"key": "Action",
"value": "Agent sent an email with password reset instructions"
},
{
"key": "Outcome",
"value": "Problem was resolved"
}
]
}
}
}
]
}
}
Données de transcription des conversations
Les données des conversations textuelles doivent être fournies dans des fichiers au format JSON, chaque fichier contenant des données pour une seule conversation. La section suivante décrit le format JSON requis.
Conversation
Objet de premier niveau pour les données de conversation.
| Champ | Type | Description |
|---|---|---|
| conversation_info | ConversationInfo { } | Facultatif. Métadonnées de la conversation. |
| entries | Entrée [ ] | Obligatoire. Messages de conversation classés dans l'ordre chronologique. |
ConversationInfo
Métadonnées d'une conversation.
| Champ | Type | Description |
|---|---|---|
| catégories | Catégorie [ ] | Facultatif. Catégories personnalisées pour les données de conversation |
Catégorie
Catégorie de données de conversation. Si vous fournissez des catégories avec vos données de conversation, elles seront utilisées pour identifier les sujets de vos conversations. Si vous ne fournissez pas de catégories, le système les classe automatiquement en fonction du contenu.
| Champ | Type | Description |
|---|---|---|
| display_name | chaîne | Obligatoire. Nom à afficher pour la catégorie. |
Entrée
Données pour un seul message de conversation.
| Champ | Type | Description |
|---|---|---|
| text | chaîne | Obligatoire. Texte de ce message de conversation. Tous les textes doivent être correctement mis en majuscules. La qualité du modèle peut être considérablement affectée si toutes les lettres du texte sont en majuscules ou en minuscules. Une erreur sera renvoyée si ce champ est laissé vide. |
| user_id | Entier | Facultatif. Numéro qui identifie le participant à la conversation. Chaque participant doit disposer d'un user_id unique, utilisé à plusieurs reprises s'il participe à plusieurs conversations. |
| role | chaîne | Obligatoire. Rôle du participant à la conversation. Au choix: "AGENT", "CLIENT". |
| start_timestamp_usec | entier | Facultatif si la conversation n'est utilisée que pour l'assistance FAQ, la suggestion d'articles et la synthèse. Obligatoire dans les autres cas. L'horodatage du début de la conversation est exprimé en microsecondes. |
Exemple
Vous trouverez ci-dessous un exemple de fichier de données de conversation.
{
"conversation_info":{
"categories":[
{
"display_name":"Category 1"
}
]
},
"entries": [
{
"start_timestamp_usec": 1000000,
"text": "Hello, I'm calling in regards to ...",
"role": "CUSTOMER",
"user_id": 1
},
{
"start_timestamp_usec": 5000000,
"text": "Yes, I can answer your question ...",
"role": "AGENT",
"user_id": 2
},
...
]
}
Importer des conversations dans Cloud Storage
Vous devez fournir vos données de conversation dans un bucket Cloud Storage hébergé dans votre projet Google Cloud Platform. Lors de la création du bucket:
- Assurez-vous d'avoir sélectionné le projet Google Cloud Platform que vous utilisez pour Dialogflow.
- Utilisez la classe Stockage standard.
- Définissez l'emplacement du bucket sur l'emplacement le plus proche du vôtre.
Vous aurez besoin de l'ID d'emplacement (par exemple,
us-west1) pour fournir les données de conversation. Prenez donc note de votre choix. - Vous aurez également besoin du nom du bucket pour fournir les données de conversation.
Suivez les instructions de la page Démarrage rapide de Cloud Storage pour créer un bucket et importer des fichiers.