Bewertung

Die Bewertung ist ein wichtiges Tool, um die Leistung Ihres Agents zu testen und sicherzustellen, dass er sich in bestimmten Situationen wie erwartet verhält. Damit können Sie Tests automatisieren, Regressionen nach Änderungen erkennen und die Qualität der Antworten Ihres Agenten messen, um die Qualität zu verbessern.

Klicken Sie zum Starten oben im Agent Builder auf die Schaltfläche Bewerten.

Bewertungskonzepte

Testlauf: Jeder Testlauf ist ein bestimmtes, in sich geschlossenes Testszenario oder ein Prompt, mit dem die Leistung des Agents bewertet werden soll. Sie können zwei verschiedene Arten von Testläufen erstellen:

  • Szenario: Eine KI-basierte Funktion, mit der Sie Ihre Tests starten und eine umfassende Testabdeckung sicherstellen können. Sie beschreiben das Ziel eines Nutzers und das System simuliert den Nutzer automatisch und generiert Konversationen, um die Fähigkeit des Agents zu testen, das Szenario robust zu bewältigen. Szenarien sind eine nützliche Möglichkeit, um zu experimentieren und Golden Conversations zu definieren.
  • Golden: Ideal für Regressionstests. Sie geben einen bestimmten, „idealen“ Konversationspfad an und die Auswertung prüft, ob das Verhalten des Kundenservicemitarbeiters diesem idealen Pfad entspricht, einschließlich der Tool-Aufrufe.

Lauf: Ein Bewertungslauf stellt eine vollständige, einzelne Ausführung einer Reihe von Golden- und Szenariotests für die Leistung des Agenten dar, den Sie testen. Jeder Lauf kann einen oder mehrere Testläufe enthalten.

Ergebnis: Das Ergebnis eines Testlaufs bezieht sich auf die einzelne Ausführung eines bestimmten Testlaufs in einem einzelnen Lauf. Wenn ein Testlauf während eines einzelnen Auswertungsdurchlaufs mehrmals ausgeführt wird (z. B. um Konsistenz, Unzuverlässigkeit usw. zu prüfen), ist jede einzelne Ausführung ein individuelles Ergebnis. Die Ergebnisse werden als rechteckige Symbole in Spalten in jeder Testlaufzeile angezeigt. Ein rotes „X“ bedeutet, dass der Lauf fehlgeschlagen ist, ein grünes Häkchen, dass er bestanden wurde.

Tags: Testfälle können zur einfacheren Verwaltung mit Tags gruppiert werden.

Testläufe erstellen

Wenn Sie Testfälle für Ihren Agent erstellen und darauf zugreifen möchten, klicken Sie oben im Agent Builder auf die Schaltfläche Bewerten. Sie können entweder Golden- oder szenariobasierte Testläufe erstellen und verwalten.

Szenario

Beim szenariobasierten Testlauf werden mithilfe von KI automatisch verschiedene Unterhaltungen basierend auf einem von Ihnen definierten allgemeinen Nutzerziel generiert. Bei diesen Testläufen geben Sie keine bestimmten Referenzunterhaltungen an, sondern wählen generierte Szenarien aus oder beschreiben bestimmte Szenarien, die getestet werden müssen. Das ist ein leistungsstarkes Tool, mit dem Sie Grenzfälle untersuchen und die Robustheit Ihres Agents testen können, ohne jeden möglichen Gesprächspfad manuell schreiben zu müssen.

Sobald diese Szenarien gut funktionieren, können Sie sie als „Golden Conversations“ speichern.

So erstellen Sie ein Szenario:

  1. Klicken Sie auf Szenario erstellen. Es werden mehrere Szenarien vorgeschlagen.
  2. Sie können entweder Szenarien auf Grundlage der Auswahl generieren oder ein neues Szenario von Grund auf erstellen.

Wenn Sie die Liste der Szenarien aufrufen, können Sie auf ein Szenario klicken, um die Details und die Konversationsliste für das jeweilige Szenario aufzurufen.

So speichern Sie ein Szenario als „Golden Conversation“:

  1. Wählen Sie das Szenario aus.
  2. Klicken Sie rechts oben auf die Menüschaltfläche.
  3. Wählen Sie Als „Golden Conversation“ speichern aus.

Ziel des Szenarionutzers

Jedes Szenario hat ein Nutzerziel, das die Ziele des Endnutzers bei der Verwendung der Agent-Anwendung beschreibt. Beispiel:

Securely book a specific room at a chosen hotel and receive a confirmation.

Basierend auf Ihrem Nutzerziel generiert CX Agent Studio automatisch Unterhaltungen, die für die Bewertung verwendet werden.

Szenariovariablen

Beim Definieren eines Szenarios können Sie Variablen angeben, die für das Szenario verwendet werden sollen.

Erwartungen an das Szenario

Um eine Auswertung durchzuführen, definieren Sie Erwartungen für den Testlauf.

Es gibt zwei Arten von Erwartungen:

  • Nachricht: Eine erwartete Endnutzer- oder Agent-Nachricht.
  • Toolaufruf: Ein Toolaufruf mit erwarteten Ein- und Ausgaben.

Erwartungen können die folgenden Bedingungen haben:

  • Erforderlich
  • Darf nicht
  • Nach dem Toolaufruf
  • Variablenwert

So erstellen Sie eine Erwartung:

  • Klicken Sie auf ein bestimmtes Szenario, um die zugehörigen Details aufzurufen.
  • Klicken Sie im Abschnitt Erwartungen auf Alle ansehen.
  • Folgen Sie der Anleitung in der Benutzeroberfläche, um Erwartungen für das Szenario zu formulieren.

Golden

Diese Testläufe werden verwendet, um ideale Unterhaltungspfade für Regressionstests zu definieren. So wird verhindert, dass wichtige Unterhaltungspfade unterbrochen werden, wenn Sie den Agenten aktualisieren. Es gibt mehrere Möglichkeiten, eine goldene Konversation zu erstellen:

So importieren Sie eine Unterhaltung aus dem Simulator:

  1. Starten Sie eine Unterhaltung mit dem Simulator.
  2. Klicken Sie rechts oben im Simulator auf das Dreipunkt-Menü, um das Simulatormenü aufzurufen.
  3. Klicken Sie auf Als „Golden“ speichern.
  4. Geben Sie einen Namen für den Golden Test Case ein und klicken Sie auf Speichern. Sie wird jetzt auf dem Tab Bewertung angezeigt.

So erstellen Sie einen Testfall aus dem Unterhaltungsverlauf:

  1. Rufen Sie den Tab Evaluation (Bewertung) auf und klicken Sie auf + Add test case -> Golden (+ Testlauf hinzufügen -> Golden).
  2. Klicken Sie auf Aus Chatverlauf auswählen.
  3. Wählen Sie im angezeigten Fenster die Unterhaltung aus, die Sie als Golden Test Case speichern möchten. Sie haben die Möglichkeit, nach Konversations-ID zu suchen.
  4. Wenn Sie die Schwärzung aktiviert haben, prüfen Sie die Antworten des Kundenservicemitarbeiters und die Variablen auf Schwärzungen, bevor Sie mit fehlenden Informationen fortfahren.
  5. Klicken Sie auf Hinzufügen.

So erstellen Sie einen Testlauf von Grund auf neu:

  1. Rufen Sie den Tab Evaluation (Bewertung) auf und klicken Sie auf + Add test case -> Golden (+ Testlauf hinzufügen -> Golden).
  2. Klicken Sie auf Von Grund auf neu erstellen.
  3. Geben Sie im angezeigten Fenster einen Anzeigenamen für den Testlauf ein.
  4. Fügen Sie nach Bedarf Text für die Nutzereingabe und die Erwartung des Agents hinzu. Klicken Sie auf + Nutzereingabe hinzufügen und + Erwartung des Kundenservicemitarbeiters hinzufügen, um Antworten hinzuzufügen. Klicken Sie auf + Zug hinzufügen, um dem Testlauf einen neuen Gesprächszug hinzuzufügen.
  5. Klicken Sie auf Erstellen, um den goldenen Testfall der Liste der Testfälle hinzuzufügen.

So erstellen Sie einen Testfall aus einer simulierten Unterhaltung in einem Szenariotestfall:

  1. Rufen Sie die Ergebnisseite des Testlaufs auf.
  2. Klicken Sie rechts neben der ausgewählten Konversation auf das Dreipunkt-Menü und dann auf Als Golden Conversation speichern.

So laden Sie Testfälle per Batch-Upload aus einer Datei hoch:

Weitere Informationen zum Dateiformat und eine CSV-Vorlage finden Sie auf der Seite CSV-Format für Golden-Testläufe.

Hohe Erwartungen

Um eine Auswertung durchzuführen, definieren Sie Erwartungen für den goldenen Testfall. Eine Erwartung ist ein bestimmtes Ergebnis, das Sie vom Agenten zu einem bestimmten Zeitpunkt im Gespräch erwarten. Bei der Bewertung wird das tatsächliche Agentenverhalten mit diesen Erwartungen verglichen.

Erwartungen können einen der folgenden Typen haben:

  • Nachricht: Eine erwartete Textantwort des Agents an den Endnutzer. Bei der Bewertung wird geprüft, ob die Antwort des Agenten semantisch mit dieser Erwartung übereinstimmt.
  • Toolaufruf: Eine Erwartung, dass der Agent ein bestimmtes Tool aufruft und antwortet. Sie können auch erwartete Eingabeargumente für den Tool-Aufruf angeben.
  • Übergabe an Kundenservicemitarbeiter: Eine Erwartung, dass der Agent die Unterhaltung an einen menschlichen Kundenservicemitarbeiter oder einen anderen Bot übergibt.

So erstellen Sie eine Erwartung:

  1. Klicken Sie auf einen bestimmten Golden-Testfall, um die zugehörigen Details aufzurufen.
  2. Klicken Sie im Bereich Details auf Golden ansehen.
  3. Folgen Sie der Anleitung in der Benutzeroberfläche, um Erwartungen hinzuzufügen oder zu ändern.

Bewertungseinstellungen

In der Überschriftenzeile der Liste der Testläufe können Sie die Auswertungseinstellungen konfigurieren:

  • Goldens:
    • Kriterien für „Bestanden“/„Nicht bestanden“: Legen Sie die Logik dafür fest, ob eine simulierte Unterhaltung bestanden oder nicht bestanden ist.
    • Ebene „Zug“: Diese Regeln bewerten jeden einzelnen Zug. Wenn einer dieser Grenzwerte nicht erreicht wird, wird der entsprechende Messwert rot dargestellt, um einen Fehler anzuzeigen.
      • Semantische Ähnlichkeit: Schwellenwert für die semantische Ähnlichkeit.
      • Tool-Richtigkeit: Grenzwert für die Tool-Richtigkeit.
      • Halluzinationen: Wenn diese Option deaktiviert ist, werden Halluzinationen nicht in die Bewertung „Bestanden/Nicht bestanden“ einbezogen.
    • Erwartungsniveau: Diese Regeln bewerten die Erwartungen innerhalb eines Zuges. Wenn einer dieser Grenzwerte nicht erreicht wird, wird der entsprechende Messwert rot dargestellt, um einen Fehler anzuzeigen.
      • Tool-Richtigkeit: Grenzwert für die Tool-Richtigkeit.
    • Golden Run-Methode: Wählen Sie zwischen der naiven oder der stabilen Replay-Validierung aus.
    • Tool-Fake: Es werden simulierte Daten anstelle von echten Produktions-API-Aufrufen verwendet.
  • Scenarios:
    • Kriterien für das Bestehen/Nichtbestehen von Szenarien: Legen Sie die Logik dafür fest, ob eine simulierte Unterhaltung bestanden oder nicht bestanden ist.
    • Initiator der Unterhaltung: Legen Sie fest, wer die Unterhaltung startet: Nutzer oder Modell.
    • Tool-Fake: Es werden simulierte Daten anstelle von echten Produktions-API-Aufrufen verwendet.
  • Audiobewertung
    • Aufnahmen zur Audiobewertung

Bewertungen ausführen

Um eine Auswertung auszuführen, können Sie entweder in der Testfallzeile auf die Schaltfläche „Ausführen“ klicken oder mehrere Testfälle auswählen und ausführen.

Wenn Sie mehrere Versionen gespeichert haben, können Sie auswählen, welche Agent-Version verwendet werden soll, oder Ihren Agent-Entwurf automatisch als neue Version für den Lauf speichern.

Nach einem Bewertungsdurchlauf werden die Messwerte aktualisiert und die Ergebnisse präsentiert.

Wenn Sie auf eine bestimmte Laufbewertung klicken, sehen Sie die detaillierten Ergebnisse für einen Lauf. Zusätzlich zu den Standardmesswerten werden die folgenden angezeigt:

  • Fehlgeschlagene Züge
  • Paginierte Liste aller Turn-Details, einschließlich der tatsächlichen und erwarteten Agent-Antworten.

Bei goldenen Testläufen wird möglicherweise der Begriff „stable replay“ (stabile Wiedergabe) verwendet, um zu verdeutlichen, dass der Test in einer konsistenten Umgebung ausgeführt wurde (d.h. ohne Kontext-/Eingabeänderungen).

KI zum Verbessern von Testläufen verwenden (VORSCHAU)

Sie können optional KI verwenden, um Fehler bei einem Lauf zu beheben und Möglichkeiten zur Verbesserung der Agentenqualität vorzuschlagen. KI-Vorschläge sind optimal, wenn die Anzahl der Läufe (Laufanzahl) mindestens 3 beträgt. Wenn Sie KI aktivieren möchten, wählen Sie die Testläufe aus, die Sie auswerten möchten, und klicken Sie auf Auswahl ausführen. Aktivieren Sie im Pop‑up-Fenster das Kästchen neben Probleme mit KI finden.

Nach Abschluss des Laufs werden auf der Ergebnisseite KI-basierte Vorschläge angezeigt. Gemini generiert automatisch eine herunterladbare loss_report, in der Aspekte der Agentenleistung zusammengefasst und Bereiche hervorgehoben werden, die verbessert werden können.

Jeder Nutzer kann die von der KI vorgeschlagenen Korrekturen sehen. Nur die Person, die den Lauf gestartet hat, kann jedoch auf Grundlage der Ergebnisse Maßnahmen ergreifen.

Klicken Sie auf Gemini fragen, um mit dem Helfer-Agenten zu interagieren. Zuerst wird der Verlustbericht angezeigt, in dem allgemeine Probleme mit dem Modell oder dem Agenten erläutert werden. Sie können den Helfer-Agenten bitten, den Bericht zu erläutern. Er fasst den Bericht dann zusammen und schlägt möglicherweise Korrekturen vor. Nachdem die Korrekturen angewendet wurden, können Sie den Helfer-Agenten bitten, die Evaluierung noch einmal auszuführen.

Messwerte

Jedes Testergebnis enthält eine Reihe von Messwerten, mit denen die Leistung des Agents anhand der ausgewählten Testläufe gemessen wird. Messwerte werden entweder auf Ebene der Antwort oder der Erwartung (Unterhaltung) berechnet, wie in der Konsole angegeben.

In jedem Fall können Sie die Werte, die für das Bestehen des Laufs erforderlich sind, im Menü Einstellungen auf dem Tab Bewerten anpassen.

Richtigkeit des Tools

Wird für Golden- und Szenario-Testläufe berechnet. Dieser Messwert gibt den Prozentsatz der erwarteten Parameter an, die bei einem erwarteten Tool-Aufruf und den zugehörigen erwarteten Parameterwerten übereinstimmten. Verpasste Tool-Aufrufe werden mit 0 bewertet, Tool-Aufrufe ohne Eingabeparameter mit 1, sofern vorhanden. Wenn während einer Golden Evaluation ein unerwarteter Tool-Aufruf erfolgt, wird das Ergebnis als Fehler betrachtet. Dies hat jedoch keine Auswirkungen auf den Wert für die Tool-Richtigkeit.

Nutzerziel erreicht

Berechnet für Szenarien. Die Nutzerzielerreichung ist ein binärer Messwert, der für die Bewertung von Nutzersimulationen entwickelt wurde. Es wird gemessen, ob der simulierte Nutzer glaubt, dass seine Ziele erreicht wurden (0=Nein, 1=Ja). Die Eingaben sind die user_goal, die durch die Konfiguration des simulierten Nutzers und ein Konversationsprotokoll definiert werden. Wenn in der bereitgestellten user_goal kein explizites oder implizites Ziel angegeben ist, ist der Ausgabewert -1.

KI-Halluzinationen

Verfügbar für goldene Testfälle und Szenariotestfälle. Die Halluzinationswerte werden für jede generierte Antwort berechnet. Dieser Messwert gibt an, ob der KI-Agent Behauptungen aufgestellt hat, die nicht durch den Kontext des KI-Agenten gerechtfertigt sind (0=Nein, 1=Ja). Der Kontext besteht aus allen vorherigen Unterhaltungsrunden, Sitzungsvariablen, Tool-Aufrufen und Agent-Anweisungen. Dieser Messwert wird nur für Turns mit Tool-Aufrufen berechnet. Es werden keine Halluzinationen in Tool-Aufrufen erkannt. Tool-Aufrufe, die als Kontext bereitgestellt werden, werden als korrekt angenommen. Um Fehlalarme zu minimieren, kann für den Messwert der Wert „N/A“ zurückgegeben werden, wenn eine Antwort keine faktischen Behauptungen oder nur Allgemeinwissen enthält, das bereits etabliert ist.

Sie können Halluzinationen in den Bewertungseinstellungen aktivieren und deaktivieren.

Semantische Übereinstimmung

Wird für Golden-Testläufe berechnet. Dieser Messwert gibt an, inwieweit eine beobachtete Agent-Äußerung mit einer erwarteten Agent-Äußerung übereinstimmt. Die semantische Übereinstimmung wird auf Turn-Ebene berechnet. Die zurückgegebenen Werte reichen von 0 (völlig inkonsistent oder widersprüchlich) bis 4 (völlig konsistent).

Erwartungen an das Szenario

Berechnet für Szenarien. Dieser Messwert gibt an, ob das Verhalten des Agents für die simulierten Nutzer zufriedenstellend war (0=nein, 1=ja). Es werden zwei Arten von simulierten Nutzererwartungen unterstützt:

  • Erwartungen an Toolaufrufe: Werden ähnlich wie die Korrektheit von Toolaufrufen berechnet, mit den folgenden Ausnahmen:
    • Die Ergebnisse sind entweder 0 (Nein) oder 1 (Ja).
    • Unerwartete Tool-Aufrufe werden nicht bestraft. Mit Erwartungen wird die Menge der Toolaufrufe angegeben, die erforderlich sind, damit ein Gespräch den Erwartungen des simulierten Nutzers entspricht.
    • Wenn eine Tool-Aufruf-Eingabeerwartung erfüllt ist, wird der Aufruf zur Laufzeit abgefangen und durch einen simulierten Rückgabewert ersetzt.
  • Erwartungen an Agentenantworten: Prüft, ob eine Agentenantwort im Gespräch einen erwarteten String enthält.

Aufgabe abschließen

Berechnet für Szenarien. Die Aufgabenerledigung ist ein Maß für die Qualität von Unterhaltungen. Dabei wird gemeinsam gemessen, ob die Ziele des Nutzers erreicht wurden UND ob das Verhalten des Kundenservicemitarbeiters korrekt war. Sie wird so definiert:

User_Goal_Satisfied AND no_hallucinations_detected AND Expectations Satisfied

Nutzeridentitäten:

Personas sind simulierte Nutzer-Personas, die Sie anpassen und für Agent-Tests mit Szenario-Testfällen verwenden können. Diese Funktion ist nützlich, um sicherzustellen, dass der Agent angemessen mit den Arten von menschlichen Nutzern interagiert, die er wahrscheinlich zur Laufzeit trifft.

Wenn Sie keine Persona auswählen, wird für jedes Szenarioergebnis eine zufällige Persona ausgewählt.

Diese Funktion kann sowohl mit Text- als auch mit Audioeingaben verwendet werden.

Identität erstellen

  1. Wenn Sie eine Persona erstellen möchten, rufen Sie den Tab Bewerten auf und klicken Sie neben dem Symbol „Einstellungen“ auf Persona-Verwaltung.
  2. Klicken Sie auf + Persona hinzufügen.
  3. Geben Sie im Pop-up-Menü einen Namen, eine Nutzerpersönlichkeit und zusätzlichen Nutzerkontext ein, z. B. Alter, Standort und Grund des Anrufs.
  4. Klicken Sie auf + Hinzufügen.

So führen Sie eine Bewertung mit einer Identität durch:

  1. Kehren Sie zur Hauptseite Bewerten zurück und wählen Sie einen oder mehrere Szenariotests aus. Klicken Sie auf Auswahl ausführen.
  2. Wählen Sie im Pop-up-Fenster die gerade erstellte Persona aus dem Drop-down-Menü Personas aus und klicken Sie auf Ausführen.