Unterhaltungsdaten hochladen

Unterhaltungsdaten werden als Transkripte (Smart Reply) und als Transkripte plus Annotationsdaten (Zusammenfassung) akzeptiert. Zur Verwendung von Smart Reply und der Zusammenfassung während der Laufzeit müssen Sie Ihre eigenen Unterhaltungsdaten bereitstellen.

Auf dieser Seite werden die Schritte beschrieben, die erforderlich sind, um die öffentlichen Datasets zu verwenden und Ihre eigenen Daten für den Upload in Cloud Storage zu formatieren. Sie müssen Ihre Unterhaltungsdaten als JSON-formatierte Textdateien bereitstellen.

Datenformat für Smart Reply

Smart Reply kann in Verbindung mit jeder Agent Assist-Funktion oder als eigenständige Funktion verwendet werden. Wenn Sie Smart Reply implementieren möchten, müssen Sie Agent Assist Unterhaltungsdaten zur Verfügung stellen.

Datenformat für die Zusammenfassung

Die Zusammenfassung kann in Verbindung mit jeder Agent Assist-Funktion oder als eigenständige Funktion verwendet werden. Wenn Sie die Zusammenfassung implementieren möchten, müssen Sie Agent Assist Unterhaltungsdaten zur Verfügung stellen, die Annotationen enthalten. Eine Annotation ist eine Zusammenfassung eines zugehörigen Unterhaltungstranskripts. Annotationen werden verwendet, um ein Modell zu trainieren, mit dem Sie am Ende jeder Unterhaltung mit einem Endnutzer Zusammenfassungen für Ihre Kundenservicemitarbeiter erstellen können.

Annotationen formatieren

Benutzerdefinierte Modelle für die Zusammenfassung von Agent Assist werden mit Unterhaltungs-Datasets trainiert. Ein Unterhaltungs-Dataset enthält Ihre eigenen hochgeladenen Transkript- und Annotationsdaten.

Bevor Sie mit dem Hochladen von Daten beginnen können, müssen Sie darauf achten, dass jedes Unterhaltungstranskript im JSON Format, eine zugehörige Annotation hat und in einem Google Cloud Storage-Bucket gespeichert ist.

Fügen Sie zum Erstellen von Annotationen die erwarteten key- und value-Strings dem Feld annotation hinzu, das mit jeder Unterhaltung in Ihrem Dataset verknüpft ist. Für optimale Ergebnisse sollten die Trainingsdaten für Annotationen die folgenden Richtlinien erfüllen:

  1. Die empfohlene Mindestanzahl an Trainingsannotationen beträgt 1.000. Die erzwungene Mindestanzahl beträgt 100.
  2. Trainingsdaten dürfen keine personenbezogenen Daten enthalten.
  3. Annotationen dürfen keine Informationen zu Geschlecht, ethnischer Herkunft oder Alter enthalten.
  4. In Annotationen dürfen keine anstößigen oder vulgären Ausdrücke verwendet werden.
  5. Annotationen dürfen keine Informationen enthalten, die nicht aus dem entsprechenden Unterhaltungstranskript abgeleitet werden können.
  6. Jede Annotation kann bis zu drei Abschnitte enthalten. Sie können Ihre eigenen Abschnittsnamen auswählen.
  7. Annotationen müssen richtig geschrieben und grammatikalisch korrekt sein.

Das folgende Beispiel zeigt das Format eines Unterhaltungstranskripts mit zugehöriger Annotation:

{
  "entries": [
    {
      "text": "How can I help?",
      "role": "AGENT"
    },
    {
      "text": "I cannot login",
      "role": "CUSTOMER"
    },
    {
      "text": "Ok, let me confirm. Are you experiencing issues accessing your account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "CUSTOMER"
    },
    {
      "text": "Got it. Do you still have access to the registered email for the account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "AGENT"
    },
    {
      "text": "I have sent an email with reset steps. You can follow the instructions in the email to reset your login password",
      "role": "AGENT"
    },
    {
      "text": "That's nice",
      "role": "CUSTOMER"
    },
    {
      "text": "Is there anything else I can help",
      "role": "AGENT"
    },
    {
      "text": "No that's all",
      "role": "CUSTOMER"
    },
    {
      "text": "Thanks for calling. You have a nice day",
      "role": "AGENT"
    }
  ],
  "conversation_info": {
    "annotations": [
      {
        "annotation": {
          "conversation_summarization_suggestion": {
            "text_sections": [
              {
                "key": "Situation",
                "value": "Customer was unable to login to account"
              },
              {
                "key": "Action",
                "value": "Agent sent an email with password reset instructions"
              },
              {
                "key": "Outcome",
                "value": "Problem was resolved"
              }
            ]
          }
        }
      }
    ]
  }
}

Transkriptdaten der Unterhaltung

Textunterhaltungsdaten müssen in JSON-formatierten Dateien bereitgestellt werden, wobei jede Datei Daten für eine einzelne Unterhaltung enthält. Im Folgenden wird das erforderliche JSON-Format beschrieben.

Unterhaltung

Das Objekt auf oberster Ebene für Unterhaltungsdaten.

Feld Typ Beschreibung
conversation_info ConversationInfo { } Optional. Metadaten für die Unterhaltung.
entries Eintrag [ ] Erforderlich. Unterhaltungsnachrichten in chronologischer Reihenfolge.

ConversationInfo

Die Metadaten für eine Unterhaltung.

Feld Typ Beschreibung
Kategorien Kategorie [ ] Optional. Benutzerdefinierte Kategorien für die Unterhaltungsdaten.

Kategorie

Unterhaltungsdatenkategorie. Wenn Sie Ihren Unterhaltungsdaten Kategorien zuweisen, werden diese verwendet, um Themen in den Unterhaltungen zu identifizieren. Wenn Sie keine Kategorien angeben, kategorisiert das System die Unterhaltungen automatisch anhand der Inhalte.

Feld Typ Beschreibung
display_name String Erforderlich. Ein Anzeigename für die Kategorie.

Entry

Daten für eine einzelne Unterhaltungsnachricht.

Feld Typ Beschreibung
text String Erforderlich. Der Text dieser Unterhaltungsnachricht. Alle Texte müssen richtig formatiert sein. Die Modellqualität kann erheblich beeinträchtigt werden, wenn alle Buchstaben im Text entweder groß- oder kleingeschrieben sind. Wenn dieses Feld leer gelassen wird, wird ein Fehler zurückgegeben.
user_id Ganzzahl Optional. Eine Zahl, die den Unterhaltungsteilnehmer identifiziert. Jeder Teilnehmer sollte eine eigene user_id haben, die wiederholt verwendet wird, wenn der Teilnehmer an mehreren Unterhaltungen teilnimmt.
role String Erforderlich. Die Rolle des Unterhaltungsteilnehmers. Eine der folgenden Möglichkeiten: "KUNDENSERVICEMITARBEITER" oder "KUNDE".
start_timestamp_usec Ganzzahl Optional, wenn die Unterhaltung nur für die Hilfe zu FAQs, Artikelvorschläge und die Zusammenfassung verwendet wird. Andernfalls erforderlich. Der Zeitstempel für den Beginn dieses Unterhaltungsrunde in Mikrosekunden.

Beispiel

Das folgende Beispiel zeigt eine Datei mit Unterhaltungsdaten.

{
  "conversation_info":{
    "categories":[
      {
        "display_name":"Category 1"
      }
    ]
  },
  "entries": [
    {
      "start_timestamp_usec": 1000000,
      "text": "Hello, I'm calling in regards to ...",
      "role": "CUSTOMER",
      "user_id": 1
    },
    {
      "start_timestamp_usec": 5000000,
      "text": "Yes, I can answer your question ...",
      "role": "AGENT",
      "user_id": 2
    },
    ...
  ]
}

Unterhaltungen in Cloud Storage hochladen

Sie müssen Ihre Unterhaltungsdaten in einem Cloud Storage-Bucket in Ihrem Google Cloud-Projekt bereitstellen. Beim Erstellen des Buckets:

  • Sie müssen das Google Cloud-Projekt ausgewählt haben, das Sie für Dialogflow verwenden.
  • Verwenden Sie die Standard Storage-Klasse.
  • Legen Sie den Bucket-Speicherort auf einen Standort fest, der Ihrem Standort am nächsten ist. Wenn Sie die Unterhaltungsdaten bereitstellen, benötigen Sie die Standort-ID, z. B. us-west1. Am besten notieren Sie sich diese.
  • Sie benötigen den Bucket-Namen auch, wenn Sie die Unterhaltungsdaten bereitstellen.

Folgen Sie der Cloud Storage-Kurzanleitung, um einen Bucket zu erstellen und Dateien hochzuladen.