Die automatische Bewertung von Zusammenfassungen (automatische Bewertung) ist entscheidend, um von der manuellen, tabellenbasierten Qualitätssicherung zu einer automatisierten, skalierbaren Validierung von Zusammenfassungsmodellen überzugehen. Diese Funktion liefert die empirischen Daten, die erforderlich sind, um Modellversionen zu verkaufen oder benutzerdefinierte Prompt-Änderungen zu validieren.
Vor der automatischen Bewertung mussten Menschen Transkripte lesen und Zusammenfassungen manuell bewerten. Das war ein langsamer, teurer und subjektiver Prozess. Die automatische Auswertung von Zusammenfassungen verbessert die Validierung von Zusammenfassungsmodellen auf folgende Weise:
- Skalierbarkeit:Hunderte von Unterhaltungen werden in etwa 20 bis 30 Minuten ausgewertet.
- Konsistenz:LLM-basierte Juroren bewerten Genauigkeit, Einhaltung und Vollständigkeit.
- Vergleich:Hier wird nebeneinander dargestellt, dass Modell A besser als Modell B ist.
Hinweise
- Für die Auswertung benötigen Sie einen Zusammenfassungsgenerator (die Modellkonfiguration) und ein Dataset (die Unterhaltungen).
- Wenn Sie ein Customer Experience Insights-Dataset verwenden möchten, aber noch keines erstellt haben, rufen Sie die Customer Experience Insights-Konsole auf. Wenn Sie Rohdateien mit Transkripten haben, konvertieren Sie sie in das unterstützte Format für den Upload.
Die beiden Datenquellen
Sie haben zwei Möglichkeiten, Konversationsdaten zu erfassen.
| Quelltyp | Optimal für… | Funktionsweise |
| Agent Assist-Speicher | Live-/Produktionstraffic | Sie wählen einen Zeitraum und eine Stichprobengröße aus. Bei der automatischen Bewertung der Zusammenfassung werden zufällige Stichproben aus dem tatsächlichen Traffic in Ihrem System gezogen. |
| Dataset für dialogorientierte Insights | Bestimmte Szenarien testen | Sie wählen ein kuratiertes Dataset aus, das in Customer Experience Insights erstellt wurde. Diese Methode eignet sich am besten für Golden Sets oder bestimmte Testläufe. |
Schritt 1: Generator erstellen
- Rufen Sie Bewertungen auf und klicken Sie auf Neue Bewertung.
- Geben Sie die folgenden Informationen ein:
- Anzeigename: Verwenden Sie eine Namenskonvention, die die Modellversion und das Datum enthält.
- Funktion: Wählen Sie Zusammenfassung aus.
- Generator: Wählen Sie den Generator aus, den Sie testen möchten.
Schritt 2: Unterhaltungs-Dataset erstellen
Wählen Sie eine der folgenden zusammenfassenden Datenquellen aus.
- Neue Zusammenfassungen für alle Unterhaltungen generieren: Empfohlen für das Testen neuer Modellversionen.
- Nur fehlende Zusammenfassungen aus dem Dataset generieren: Empfohlen, wenn nicht für alle Konversationsabschriften entsprechende Zusammenfassungen auf Grundlage des im vorherigen Schritt ausgewählten Generators vorhanden sind.
- Vorhandene Zusammenfassungen aus dem Dataset verwenden. Keine Zusammenfassungen erstellen: Empfohlen für die Bewertung von Inhalten, die bereits erstellt wurden, ohne sie neu zu generieren, oder für den Vergleich der Leistung verschiedener Zusammenfassungsgeneratoren.
Schritt 3: Cloud Storage-Ressource auswählen
Wählen Sie einen Cloud Storage-Ordner in einem Bucket aus, in dem das Ergebnis gespeichert werden soll.
In der Agent Assist-Konsole werden zwar allgemeine Ergebnisse angezeigt, Sie können die detaillierten zeilenweisen Daten aber als CSV-Datei exportieren. Dies ist die zentrale Quelle für die detaillierte Fehlerbehebung.
Schritt 4: Messwerte interpretieren
Nach Abschluss des Durchlaufs wird eine Übersicht mit den Ergebnissen für jeden Bewertungsmesswert angezeigt.
Aufschlüsseln
Wenn Sie auf eine bestimmte Unterhaltungszeile klicken, werden die folgenden Details angezeigt:
- Das Transkript mit dem Rohdialog
- Die Zusammenfassungskandidaten
- Eine automatische Bewertung der Zusammenfassung für einen bestimmten Wert
Schritt 5: Vergleichsmodus verwenden
Sie können zwei unterschiedliche Ausführungen für die Bewertung auswählen und vergleichen. Vergleichen Sie Bewertungsmodelle für denselben Datensatz, damit Sie die gleichen Informationen vergleichen. Wenn Sie das Dataset zwischen den Ausführungen ändern, ist der Vergleich ungültig. Prüfen Sie immer, ob die Dataset-ID in den Metadaten übereinstimmt.
So sehen Sie, warum Sie Ihr Zusammenfassungsmodell auf die neueste Version aktualisieren sollten:
- Führen Sie die Bewertung A mit Ihrem aktuellen Modell durch.
- Führen Sie die Bewertung B mit dem neuesten Modell für dasselbe Dataset aus.
- Wählen Sie beide Auswertungen in der Liste aus und klicken Sie auf Vergleichen.
In der Agent Assist-Konsole werden die höheren Werte hervorgehoben.
Tipps und Best Practices für die Fehlerbehebung
- Eigene Rohtextdateien zur Auswertung hochladen: Erstellen Sie zuerst ein Dataset für Customer Experience Insights.
- In der Console wird der Abschnitt „Kurze Zusammenfassung“ angezeigt, aber im Zusammenfassungstext wird er an zweiter Stelle aufgeführt. Die Reihenfolge in der Seitenleiste stimmt möglicherweise nicht genau mit der Reihenfolge der Textgenerierung überein. Verlassen Sie sich auf den Textinhalt und den CSV-Export für die endgültige Struktur.
- Informationen zu automatischen Bewertungen Sie sind vertrauenswürdig, aber überprüfen Sie sie. Das Modell für die automatische Bewertung ist so kalibriert, dass es menschliche Interaktionen nachahmt. Es gibt jedoch Grenzfälle. Verwenden Sie immer den Cloud Storage-CSV-Export, um eine kleine Stichprobe manuell zu prüfen und so Vertrauen in die automatische Bewertung aufzubauen.