Playbook-Bewertungen

In dieser Anleitung wird beschrieben, wie Sie die integrierte Funktion für die Auswertung in der Dialogflow CX-Konsole verwenden, um die Funktionalität Ihres Agents zu überprüfen und Regressionen nach Updates zu verhindern. Dialogflow bietet vorgefertigte Messwerte, mit denen Sie die Leistung Ihres Agents bewerten können.

Für alle Messwerte mit Ausnahme der Latenz ist mindestens ein Testlauf erforderlich, eine „Golden Response“, mit der Dialogflow die Leistung des Agents vergleicht, um seine Leistung zu berechnen. Jeder Testlauf kann im Kontext einer Umgebung gemessen werden. So können Sie verschiedene Versionen von Playbooks, Abläufen und Tools angeben, die bei der Leistungsbewertung des Agents verwendet werden sollen.

(Optional) Umgebung erstellen

Das Erstellen einer Umgebung ist optional. Wenn Sie keine erstellen, ist der Standardwert Entwurf.

  1. Klicken Sie zum Erstellen einer Umgebung im Menü auf der linken Seite auf Umgebungen und wählen Sie + Erstellen aus.
  2. Wählen Sie die Versionen der Playbooks, Abläufe und Tools aus, mit denen Sie die Leistung des Kundenservicemitarbeiters messen möchten.
  3. Klicken Sie auf Speichern, um die Umgebung zu speichern.

Testlauf erstellen

Sie haben die Möglichkeit, einen Testfall aus einer vorhandenen Unterhaltung in Ihrem Unterhaltungsverlauf zu erstellen, eine neue Unterhaltung zu erstellen, die als Testfall gespeichert werden soll, oder Testfälle in Dialogflow zu importieren.

Testlauf in der Console erstellen

  1. Rufen Sie im Menü auf der linken Seite Unterhaltungsverlauf auf.
  2. Wenn Sie eine neue Unterhaltung erstellen möchten, aktivieren Sie Ihren Agent (z. B. durch Anrufen der Telefonnummer des Agents), um eine Unterhaltung im Unterhaltungsverlauf zu erstellen. Wählen Sie eine Unterhaltung aus, die Sie als Testlauf verwenden möchten.
  3. Sehen Sie sich die Unterhaltung an und prüfen Sie die Antworten des Kundenservicemitarbeiters, die aufgerufenen Tools und wie sich die einzelnen Antworten anhören. Wenn Sie zufrieden sind, klicken Sie rechts oben im Fenster auf Testlauf erstellen.
  4. Geben Sie einen Anzeigenamen für den Testfall an und legen Sie fest, welche Ereignisse auf Konversationsebene erwartet werden. Dazu können Tools, Playbooks und Abläufe gehören, die Ihrer Meinung nach im Rahmen der Unterhaltung aufgerufen werden sollten. Klicken Sie auf + Erwartung hinzufügen, um weitere Erwartungen hinzuzufügen. Wenn die Erwartungen in der aufgeführten Reihenfolge (von oben nach unten) ausgewertet werden sollen, aktivieren Sie Sequenzielle Validierung.
  5. Klicken Sie auf Speichern, um den Testfall zu speichern.

Testläufe hochladen

  1. Testläufe müssen im folgenden CSV-Format vorliegen.
  2. Klicken Sie oben im Menü „Testfälle“ auf Importieren, um Testfälle in das System hochzuladen.
  3. Wählen Sie im Pop-up-Menü entweder die lokal gespeicherte Datei aus oder geben Sie den Pfad zum Cloud Storage-Bucket ein.
  4. Ihre Testläufe sollten jetzt im Menü „Testläufe“ angezeigt werden.

Testlauf ausführen

  1. Klicken Sie im Menü auf der linken Seite auf Testläufe und wählen Sie die Testläufe aus, mit denen Sie Ihren Agent vergleichen möchten. Das kann ein einzelner Testlauf oder mehrere sein.
  2. Klicken Sie auf Ausgewählte Testläufe ausführen.

Testergebnisse

  1. Auf Ergebnisse zugreifen: Die neuesten Ausführungsergebnisse des Testlaufs werden nach Abschluss für jeden Testlauf in der Ansicht Testlauf angezeigt:
    1. Semantische Ähnlichkeit: Misst, wie ähnlich die Unterhaltungen des Agents der „goldenen Antwort“ (Antworten im Testlauf) waren. Für diesen Messwert sind Golden Responses erforderlich. Die Werte können 0 (inkonsistent), 0,5 (etwas konsistent) oder 1 (sehr konsistent) sein.
    2. Genauigkeit von Tool-Aufrufen: Ein Wert, der angibt, wie genau die Tools, die während der Unterhaltung aufgerufen werden sollen, in der Unterhaltung enthalten sind. Die Werte reichen von 0 bis 1. Wenn in der Unterhaltung keine Tools verwendet werden, wird die Genauigkeit als -- (N/A) angezeigt.
    3. Latenz: Die Gesamtzeit, die der Agent benötigt, um eine Endnutzeranfrage zu verarbeiten und dem Nutzer zu antworten (die Differenz zwischen dem Ende der Nutzeräußerung und dem Beginn der Agent-Antwort). Die Einheit ist Sekunden.
  2. Goldenen Testfall aktualisieren: Wenn die letzte Ausführung erwartete Änderungen aufgrund eines Agent-Updates widerspiegelt, können Sie auf „Als golden speichern“ klicken, um den ursprünglichen Testfall zu überschreiben.
  3. Ergebnisse filtern und sortieren: Sie können die Auswertungsergebnisse nach einem der generierten Messwerte oder nach einer bestimmten Umgebung filtern und sortieren. So können Sie Leistungsänderungen nach jedem Update nachvollziehen.

Formatierung für den Batchimport von Testläufen

In diesem Abschnitt wird beschrieben, wie Sie eine CSV-Datei zum Importieren von Batch-Testläufen für Ihren Agent formatieren. Das System liest diese Datei, um eine strukturierte Reihe von Testläufen zu erstellen, die jeweils einen oder mehrere Gesprächsabschnitte enthalten.

Ein einzelner Testlauf kann sich über mehrere Zeilen in der CSV-Datei erstrecken. In der ersten Zeile eines Testlaufs werden die allgemeinen Eigenschaften definiert, z. B. Name und Sprache. Jede nachfolgende Zeile für diesen Testlauf definiert eine einzelne Unterhaltungsrunde (der Nutzer sagt etwas, der Agent soll antworten).

Die CSV-Datei muss eine Kopfzeile als erste Zeile enthalten. In dieser Kopfzeile werden die Daten in jeder Spalte definiert.

Erforderliche Header

Die beiden erforderlichen Header müssen in der angegebenen Reihenfolge stehen. Beide sind für die erste Zeile eines neuen Testlaufs erforderlich. Sie können einen neuen Testlauf starten, indem Sie neue DisplayName- und LanguageCode-Werte angeben.

  • DisplayName: Der Name Ihres Testlaufs. Dieser Wert wird nur für die erste Zeile eines neuen Testlaufs ausgefüllt.
  • LanguageCode: Der Sprachcode für den Test, z. B. en, en-US oder es.

Optionale Header

Sie können die folgenden optionalen Header einfügen, um weitere Details für Ihre Testläufe anzugeben. Sie können in beliebiger Reihenfolge nach den ersten beiden erforderlichen Spalten angegeben werden.

Metadaten für Testlauf

  • Tags: Durch Leerzeichen getrennte Tags zum Organisieren von Tests (z. B. „Zahlungen-Onboarding“).
  • Hinweise: Freitext-Hinweise oder eine Beschreibung des Zwecks des Testlaufs.
  • TestCaseConfigV2.StartResource: Geben Sie den Flow oder das Playbook an, mit dem der Test gestartet werden soll.

Nutzereingabe

  • UserInput.Input.Text: Der Text, den der Nutzer in einem bestimmten Zug „eingibt“.
  • UserInput.InjectedParameters: Parameter, die zu Beginn eines Zuges in die Unterhaltung eingefügt werden sollen, formatiert als JSON-String.

Agent-Ausgabe

  • AgentOutput.QueryResult.ResponseMessages.Text: Der genaue Text, mit dem der Kundenservicemitarbeiter geantwortet hat.
  • AgentOutput.QueryResult.Parameters: Die Parameter, die Ihrer Meinung nach vom Agent extrahiert wurden, formatiert als JSON-String.

Erwartungen

  • OrderedExpectations.ExpectedFlow: Der Flow, der nach dem Zug aktiv sein soll.
  • OrderedExpectations.ExpectedIntent: Die Intention, die für den Turn erwartet wird.
  • OrderedExpectations.ExpectedAgentReply: Der Text, mit dem der Agent antworten soll. Kann ein Teilstring der vollständigen Antwort sein.
  • OrderedExpectations.ExpectedOutputParameter: Die Parameter, die am Ende des Zuges festgelegt werden sollen, formatiert als JSON-String.

Audio-Metadaten

  • AudioTurnMetadata Metadaten für audiobasierte Tests, formatiert als JSON-String.

Testlauf erstellen

Testläufe sind nach Datenzeilen organisiert.

  1. Wenn Sie einen neuen Testlauf starten möchten, füllen Sie die Metadatenzeile aus.
    • Regel: Diese Zeile muss einen Wert in der Spalte DisplayName haben.
    • Aktion: Geben Sie Werte für DisplayName und LanguageCode ein. Sie können in dieser Zeile auch Tags, Notizen oder eine TestCaseConfigV2.StartResource hinzufügen. Spalten für Gesprächsrunden (z. B. UserInput.Input.Text) sollten in dieser Zeile leer bleiben. Wenn Sie Tags verwenden, trennen Sie die einzelnen Tags durch ein Leerzeichen. Beispiel: tag1 tag2 tag3. Wenn Sie TestCaseConfigV2.StartResource verwenden, stellen Sie dem Ressourcennamen start_flow: oder start_playbook: voran. Beispiel: start_flow:projects/p/locations/l/agents/a/flows/f.
  2. Fügen Sie dem Testlauf, den Sie gerade gestartet haben, einen Gesprächsbeitrag hinzu, indem Sie direkt darunter eine neue Zeile einfügen.
    • Regel: Die Spalte „DisplayName“ muss leer sein. Dadurch wird dem Parser mitgeteilt, dass es sich um einen Zug handelt, der zum vorherigen Testlauf gehört.
    • Aktion: Füllen Sie die Spalten aus, in denen die Aktion des Nutzers und die erwartete Agent-Antwort für diese Runde beschrieben werden, z. B. UserInput.Input.Text und OrderedExpectations.ExpectedAgentReply. Für Spalten, für die JSON erforderlich ist, müssen Sie ein gültiges JSON-Objekt als String angeben. Beispiel: {"param_name": "param_value", "number_param": 123}.