Unterhaltungsdaten werden als Transkripte („Intelligente Antwort“) und als Transkripte plus Anmerkungsdaten („Zusammenfassung“) akzeptiert. Zur Verwendung von „Intelligente Antwort“ und „Zusammenfassung“ während der Laufzeit müssen Sie Ihre eigenen Unterhaltungsdaten bereitstellen.
Auf dieser Seite wird beschrieben, wie Sie die öffentlichen Datasets verwenden und Ihre eigenen Daten für den Upload in Cloud Storage formatieren. Sie müssen Ihre Konversationsdaten als JSON-formatierte Textdateien bereitstellen.
Datenformat für intelligente Antworten
„Intelligente Antwort“ kann in Verbindung mit jeder Agent Assist-Funktion oder als eigenständige Funktion verwendet werden. Um „Intelligente Antwort“ zu implementieren, müssen Sie Agent Assist Unterhaltungsdaten zur Verfügung stellen.
Datenformat für Zusammenfassungen
Die Zusammenfassung kann in Verbindung mit jeder Agent Assist-Funktion oder als eigenständige Funktion verwendet werden. Um die Zusammenfassung zu implementieren, müssen Sie Agent Assist mit Unterhaltungsdaten mit Anmerkungen bereitstellen. Eine Anmerkung ist eine Zusammenfassung eines zugehörigen Unterhaltungstranskripts. Anmerkungen werden verwendet, um ein Modell zu trainieren, mit dem Sie am Ende jeder Unterhaltung mit einem Endnutzer Zusammenfassungen für Ihre Agents erstellen können.
Annotationen formatieren
Benutzerdefinierte Modelle für die Zusammenfassung in Agent Assist werden mit Unterhaltungs-Datasets trainiert. Ein Unterhaltungs-Dataset enthält Ihre eigenen hochgeladenen Transkript- und Anmerkungsdaten.
Bevor Sie mit dem Hochladen von Daten beginnen können, müssen Sie dafür sorgen, dass jedes Konversations-Transkript im JSON-Format vorliegt, eine zugehörige Anmerkung hat und in einem Google Cloud Storage-Bucket gespeichert ist.
Wenn Sie Anmerkungen erstellen möchten, fügen Sie die erwarteten key- und value-Strings dem Feld annotation hinzu, das mit jeder Unterhaltung in Ihrem Dataset verknüpft ist. Damit Sie optimale Ergebnisse erzielen, sollten die Trainingsdaten für Anmerkungen den folgenden Richtlinien entsprechen:
- Die empfohlene Mindestanzahl an Trainingsanmerkungen beträgt 1.000. Die Mindestanzahl beträgt 100.
- Trainingsdaten dürfen keine personenidentifizierbaren Informationen enthalten.
- Anmerkungen dürfen keine Informationen zu Geschlecht, ethnischer Herkunft oder Alter enthalten.
- Anmerkungen dürfen keine toxische oder vulgäre Sprache enthalten.
- Anmerkungen dürfen keine Informationen enthalten, die nicht aus dem entsprechenden Unterhaltungstranskript abgeleitet werden können.
- Jede Anmerkung kann bis zu drei Abschnitte enthalten. Sie können eigene Abschnittsnamen auswählen.
- Anmerkungen sollten richtig geschrieben und grammatikalisch korrekt sein.
Das folgende Beispiel zeigt das Format eines Unterhaltungstranskripts mit zugehöriger Anmerkung:
{
"entries": [
{
"text": "How can I help?",
"role": "AGENT"
},
{
"text": "I cannot login",
"role": "CUSTOMER"
},
{
"text": "Ok, let me confirm. Are you experiencing issues accessing your account",
"role": "AGENT"
},
{
"text": "Yes",
"role": "CUSTOMER"
},
{
"text": "Got it. Do you still have access to the registered email for the account",
"role": "AGENT"
},
{
"text": "Yes",
"role": "AGENT"
},
{
"text": "I have sent an email with reset steps. You can follow the instructions in the email to reset your login password",
"role": "AGENT"
},
{
"text": "That's nice",
"role": "CUSTOMER"
},
{
"text": "Is there anything else I can help",
"role": "AGENT"
},
{
"text": "No that's all",
"role": "CUSTOMER"
},
{
"text": "Thanks for calling. You have a nice day",
"role": "AGENT"
}
],
"conversation_info": {
"annotations": [
{
"annotation": {
"conversation_summarization_suggestion": {
"text_sections": [
{
"key": "Situation",
"value": "Customer was unable to login to account"
},
{
"key": "Action",
"value": "Agent sent an email with password reset instructions"
},
{
"key": "Outcome",
"value": "Problem was resolved"
}
]
}
}
}
]
}
}
Transkriptdaten der Unterhaltung
Daten zu Textunterhaltungen müssen in JSON-formatierten Dateien bereitgestellt werden, wobei jede Datei Daten für eine einzelne Unterhaltung enthält. Im Folgenden wird das erforderliche JSON-Format beschrieben.
Unterhaltung
Das Objekt auf oberster Ebene für Unterhaltungsdaten.
| Feld | Typ | Beschreibung |
|---|---|---|
| conversation_info | ConversationInfo { } | Optional. Metadaten für die Unterhaltung. |
| entries | Eintrag [ ] | Erforderlich. Unterhaltungsnachrichten in chronologischer Reihenfolge. |
ConversationInfo
Die Metadaten für eine Unterhaltung.
| Feld | Typ | Beschreibung |
|---|---|---|
| Kategorien | Kategorie [ ] | Optional. Benutzerdefinierte Kategorien für die Unterhaltungsdaten. |
Kategorie
Unterhaltungsdatenkategorie. Wenn Sie Ihren Unterhaltungsdaten Kategorien zuweisen, werden diese verwendet, um Themen in den Unterhaltungen zu identifizieren. Wenn Sie keine Kategorien angeben, kategorisiert das System die Unterhaltungen automatisch anhand der Inhalte.
| Feld | Typ | Beschreibung |
|---|---|---|
| display_name | String | Erforderlich. Ein Anzeigename für die Kategorie. |
Entry
Daten für eine einzelne Unterhaltungsnachricht.
| Feld | Typ | Beschreibung |
|---|---|---|
| text | String | Erforderlich. Der Text dieser Unterhaltungsnachricht. Achten Sie auf die korrekte Groß-/Kleinschreibung. Die Modellqualität kann erheblich beeinträchtigt werden, wenn alle Buchstaben im Text entweder groß- oder kleingeschrieben sind. Wenn dieses Feld leer gelassen wird, wird ein Fehler zurückgegeben. |
| user_id | Ganzzahl | Optional. Eine Zahl, die den Unterhaltungsteilnehmer identifiziert. Jeder Teilnehmer sollte eine eigene user_id haben, die wiederholt verwendet wird, wenn der Teilnehmer an mehreren Unterhaltungen teilnimmt. |
| role | String | Erforderlich. Die Rolle des Unterhaltungsteilnehmers. Eine der folgenden Möglichkeiten: "KUNDENSERVICEMITARBEITER" oder "KUNDE". |
| start_timestamp_usec | integer | Optional, wenn die Unterhaltung nur für „Hilfe zu FAQ“, „Artikelvorschlag“ und „Zusammenfassung“ verwendet wird. Andernfalls ist sie erforderlich. Der Zeitstempel für den Beginn dieses Unterhaltungsrunde in Mikrosekunden. |
Beispiel
Das folgende Beispiel zeigt eine Datei mit Unterhaltungsdaten.
{
"conversation_info":{
"categories":[
{
"display_name":"Category 1"
}
]
},
"entries": [
{
"start_timestamp_usec": 1000000,
"text": "Hello, I'm calling in regards to ...",
"role": "CUSTOMER",
"user_id": 1
},
{
"start_timestamp_usec": 5000000,
"text": "Yes, I can answer your question ...",
"role": "AGENT",
"user_id": 2
},
...
]
}
Unterhaltungen in Cloud Storage hochladen
Sie müssen Ihre Konversationsdaten in einem Cloud Storage-Bucket in Ihrem Google Cloud-Projekt bereitstellen. Beim Erstellen des Buckets:
- Sie müssen das Google Cloud-Projekt ausgewählt haben, das Sie für Dialogflow verwenden.
- Verwenden Sie die Standard Storage-Klasse.
- Legen Sie den Bucket-Speicherort auf einen Standort fest, der Ihrem Standort am nächsten ist.
Wenn Sie die Unterhaltungsdaten bereitstellen, benötigen Sie die Standort-ID, z. B.
us-west1. Am besten notieren Sie sich diese. - Sie benötigen den Bucket-Namen auch, wenn Sie die Unterhaltungsdaten bereitstellen.
Folgen Sie der Cloud Storage-Kurzanleitung, um einen Bucket zu erstellen und Dateien hochzuladen.