In diesem Dokument werden die Empfehlungen von Google für die optimale Nutzung von Quality AI beschrieben. Wenn Sie die Richtlinien in diesem Dokument befolgen, erhalten Sie mit Quality AI die genauesten und nützlichsten Informationen für Ihre geschäftlichen Anforderungen.
Übersichten
Über Scorecards haben Sie Zugriff auf Messwerte zur Agentenleistung und detaillierte Anleitungen zum Beantworten von Fragen zu einem Gespräch. Sie müssen Ihre Konversationsdaten, Fragen und möglichen Antwortoptionen sowie Anleitungen zur Interpretation dieser Antworten eingeben. Die besten Ergebnisse erzielen Sie, wenn Sie Ihre Beispielkonversationen auf der Seite Scorecards in der Quality AI-Konsole hochladen.
Mit Scorecards können Sie Ihre Fragen gruppieren und für jede Gruppe separate Ergebnisse ansehen. Erstellen Sie mehrere Scorecards mit unterschiedlichen Fragen, um Unterhaltungen anhand verschiedener Kriterien zu bewerten. Anschließend können Sie die Qualitäts- und Konversationsscores für jede Scorecard ansehen, um einen Kundenservicemitarbeiter anhand separater Kriterien zu bewerten.
Konversationsdaten
Konversationsdaten sind Transkripte von Sprach- oder Chatunterhaltungen, in denen personenbezogene Daten entfernt wurden. Laden Sie mindestens 2.000 Unterhaltungen für jede Geschäftseinheit oder jedes Callcenter hoch.
Sie können auch Audioaufnahmen von Sprachunterhaltungen hochladen. Für optimale Ergebnisse sollten Sie Audioinhalte mit den folgenden Spezifikationen aufnehmen:
- Zwei Kanäle
- Abtastrate von 16.000 Hz (oder 8.000–48.000 Hz)
- Verlustfreie Codierung: FLAC oder LINEAR16
- Verlustfreie Codierung für WAV-Audiodateien: LINEAR16 oder MULAW
Die Metadaten für Audioaufzeichnungen eines Sprachanrufs sollten die folgenden Informationen enthalten:
- Channel-Labels zur Identifizierung des Kundenservicemitarbeiters und des Kunden
- Agent-ID, Name, Standort, Team und CSAT
- Die Sprache der Audiodaten als BCP-47-Sprachcode, z. B. „en-US“
Fragen
Die Fragen und Anleitungen zum Beantworten der Fragen in jeder Scorecard liefern wertvolle Informationen für Quality AI, um Unterhaltungen und die Leistung von Kundenservicemitarbeitern zu bewerten. Um die Genauigkeit automatischer Bewertungen zu maximieren, sollten Sie Fragen und Anleitungen mit den folgenden Konzepten im Hinterkopf formulieren:
- Klarheit: Stellen Sie Fragen, die klar formuliert sind und von einem Menschen verstanden werden können.
- Spezifität: Fügen Sie Antwortoptionen und Anleitungen hinzu, die so spezifisch wie möglich sind.
- Details: Geben Sie Anweisungen an, die genügend Details enthalten, damit ein Mensch die Unterhaltungen zuverlässig bewerten kann.
- Beispiele: Quality AI ist noch genauer, wenn Sie Beispiele aus echten Unterhaltungen angeben, die jede Antwort auf Ihre Fragen veranschaulichen.
Fragen können verschiedene Formen annehmen. Hier sind einige nützliche Fragetemplates:
- „Hat der Kundenservicemitarbeiter…?“ mit einer bestimmten Aktion. Dieses Format gibt an, dass der Bewerter nach etwas suchen muss, das der Agent gesagt hat.
- „Hat der Kunde…?“ mit einer bestimmten Aktion. Dieses Format weist darauf hin, dass der Prüfer nach etwas suchen muss, das der Kunde gesagt hat.
- Wenn Sie mit Fragewörtern wie was oder warum beginnen, wird die Bewertung des gesamten Gesprächs gefördert.
Fragen mit mehreren Antworten
Nutzer stellen oft Fragen, die nur mit „Ja“ oder „Nein“ beantwortet werden können. Eine Frage kann sich jedoch möglicherweise nicht auf die Konversation beziehen, was N/A rechtfertigt.
Alternativ könnte die Frage in verschiedenen Situationen als „Ja“ oder „Nein“ interpretiert werden, was zu inkonsistenten Antworten mit nur zwei Optionen führt. Wenn Sie Fragen einbeziehen, die andere Arten von Antworten erfordern, erhält das KI-Modell ein besseres Verständnis der Unterhaltung.
Akustische Analyse
Quality AI bewertet Unterhaltungstranskripte und kann keine akustische Analyse durchführen. Fragen ausschließen, die eine akustische Analyse erfordern. Weder ein Mensch noch Quality AI können beispielsweise die Frage „Hat der Kundenservicemitarbeiter eine Begrüßung mit einem optimistischen Ton verwendet?“ allein durch Lesen eines Transkripts des Gesprächs beantworten.
Tags
Mit dem optionalen Tag können Sie eine kleinere Kategorie erstellen, um ähnliche Fragen zu gruppieren. Für eine einzelne Unterhaltung berechnet Quality AI einen Gesamtscore für die Unterhaltung. Sie können Fragen mit einem der drei Tags gruppieren: „Unternehmen“, „Kunde“ oder „Compliance“. Für jedes Tag berechnet Quality AI auch einen Wert, der nur Fragen mit diesem Tag berücksichtigt.
Anleitung
Anweisungen definieren, wie jede Antwort interpretiert wird. Sie müssen daher spezifisch sein und dürfen keinen Raum für Interpretationen lassen. Die Definition sorgt dafür, dass bei jeder Bewertung einer Konversation dieselbe Antwort gegeben wird.
Format
Fügen Sie eine kurze Beschreibung des Zwecks der Frage und dann eine Beschreibung der Kriterien für jede mögliche Antwortoption ein. Das bedeutet, dass Sie die genauen Umstände definieren müssen, unter denen jemand die einzelnen Antwortmöglichkeiten geben würde.
Die folgenden Anweisungen gelten beispielsweise für eine Ja-/Nein-Frage: „Hat der Kundenservicemitarbeiter das Hauptanliegen des Kunden vor dem Cross-Selling behandelt?“
Anleitung:
Mit dieser Frage soll ermittelt werden, ob der Kundenservicemitarbeiter das Hauptanliegen des Kunden bearbeitet hat, bevor er versucht hat, ein zusätzliches Produkt zu verkaufen. Das sorgt für ein positiveres Image unserer Marke.
Bewerte mit „Ja“, wenn der Kundenservicemitarbeiter das primäre Problem behoben und dann versucht hat, etwas zu verkaufen. Beispiel: „Ich habe gerade Ihre Kontoinformationen aktualisiert. Ich sehe, dass du dein Smart-Home-Gerät als defekt markiert hast. Möchten Sie ein Ersatzgerät bestellen?“
Bewerte mit „Nein“, wenn der Kundenservicemitarbeiter versucht hat, ein Produkt zu verkaufen, bevor er das primäre Problem gelöst hat. Beispiel: „Bevor ich Ihre Kontoinformationen aktualisiere, sehe ich, dass Sie vor fünf Jahren einen Laptop bei uns gekauft haben. Möchten Sie unser neues Modell ausprobieren?“
Geben Sie „–“ ein, wenn kein Verkaufsversuch unternommen wurde.
Antworttypen
Der Antworttyp hängt von der Struktur der Frage ab. In diesem Abschnitt finden Sie Vorschläge für den Einstieg, aber keine vollständige Liste der Anwendungsfälle.
Ja/Nein
„Ja“/„Nein“ ist der häufigste Antworttyp, da diese Fragen schnell ausgewertet werden können und die Antworten oft intuitiver sind als bei anderen Antworttypen. Fragen, die sich für den Antworttyp „Ja/Nein“ eignen, beginnen oft mit „Hat…“ und fragen, ob eine bestimmte Aktion stattgefunden hat. Diese Fragen können auch als Richtig-oder-falsch-Fragen formuliert werden.
In Beispielkonversationen werden Ja/Nein-Antworten als „Wahr“- oder „Falsch“-Wert in den folgenden Formaten aufgezeichnet:
- Die Antwort „Ja“ ist
true. - Eine „Nein“-Antwort ist
false.
Numbers
Numerische Antworten sind nützlich für Fragen, bei denen es um die Anzahl von etwas, einen Geldbetrag oder eine Bewertung auf einer Skala geht. Fragen, die von diesem Antworttyp profitieren, beginnen oft mit „Wie viele…“. „Wie viel…“ oder „Auf einer Skala von…“ und Sie werden aufgefordert, eine einzige Antwort zu geben.
In Beispielunterhaltungen haben numerische Antworten das folgende Format:
- Die Antwort auf Frage 40.5 ist
40.5.
Text
Textantworten erfordern den größten Aufwand von einem menschlichen Annotator. Fragen, die von Textantworten profitieren, beginnen oft mit Fragewörtern wie „Was…“ oder „Warum…“ und erfordern oft eine Bewertung des gesamten Gesprächs. Textantworten fördern eine größere Vielfalt bei den Antworten. Daher muss in der Anleitung klar erläutert werden, wie die Frage zu interpretieren ist und wann die einzelnen Antwortmöglichkeiten zugewiesen werden sollen.
In Beispielunterhaltungen haben Textantworten das folgende Format:
- Eine Antwort mit dem Status „Abgeschlossen“ ist
"CONCLUDED".
Bewertungen zuweisen
Wenn Sie eine Frage erstellen, können Sie jeder Antwortoption eine numerische Punktzahl zuweisen. Diese Werte geben die Wichtigkeit jeder Antwortmöglichkeit für die Berechnung des Gesamt-Unterhaltungswerts an.
Ein nützlicher Bereich für die Punktzahl von Antwortmöglichkeiten ist 0–10. Dieser Bereich bietet eine gewisse Variation für die Spezifität und ist mit einem Prozentsatz vergleichbar. Eine Antwortoption mit dem Wert 0 hat keine Auswirkungen auf die Berechnung des Gesprächsscores. Eine Antwortmöglichkeit mit einem Wert von 10 hat den größten Einfluss auf den Konversationswert. Mit anderen Worten: Die Antwortmöglichkeit mit einer 10 erhöht den Unterhaltungsscore stärker als jede Antwortmöglichkeit mit einem niedrigeren Score. Eine Antwortoption mit einem Wert von 5 erhöht den Unterhaltungswert um die Hälfte des Werts der Antwort mit 10.
–
Klicken Sie das Kästchen an, um N/A als Antwortoption zu aktivieren, wenn eine Frage nicht auf eine Unterhaltung zutrifft. Wenn Quality AI „N/A“ als Antwort auswählt, wird die Frage aus der Berechnung der Konversationsbewertung entfernt.
Beispiele für Eingaben für Übersichten
Die folgenden Beispiele zeigen, wie Sie alle Informationen hinzufügen, die für eine nützliche Übersicht erforderlich sind. Für jede Übersicht sind die folgenden Informationen erforderlich:
- Fragen zur Unterhaltung.
- Anleitung zur Interpretation der Frage und Definition der einzelnen Antwortmöglichkeiten.
- Antworttyp (kann Text, Zahl oder Ja/Nein sein).
- Antwortoptionen, die die möglichen Antworten basierend auf dem Antworttyp definieren (können „Ja“ und „Nein“, eine Liste von Zahlen oder einige Textantworten sein).
- Mit dieser Einstellung können Sie die Punkte festlegen, die für jede Antwortoption vergeben werden. Die maximale Punktzahl für eine einzelne Frage wird durch die höchste Punktzahl unter allen Antwortmöglichkeiten bestimmt.
Sie können die folgenden Elemente einfügen, um die Fragen auf Ihrer Scorecard zu organisieren. Sie sind jedoch nicht erforderlich:
- Tag, um die Fragen in Kategorien zu gruppieren (z. B. geschäftlich, Kunde oder Compliance).
Beispiel 1
- Frage: Was war das Ergebnis des Gesprächs?
- Tag: Kunde
Anleitung: Ziel jeder Unterhaltung ist es, eine Lösung oder ein Ergebnis zu erzielen, das in eine von vier möglichen Kategorien fällt: abgeschlossen, weitergeleitet, umgeleitet oder eskaliert.
Abgeschlossene Unterhaltungen sind solche, die erfolgreich gelöst wurden und keine weiteren Maßnahmen erfordern. Das Problem des Kunden wurde behoben und die Unterhaltung wurde beendet.
Weitergeleitete Unterhaltungen sind solche, die von einer anderen Abteilung oder einem anderen Kundenservicemitarbeiter bearbeitet werden müssen. Der Kunde wurde möglicherweise an einen Spezialisten weitergeleitet, der ihm bei seinem Problem besser helfen kann.
Weitergeleitete Unterhaltungen sind solche, die von einem anderen Channel bearbeitet werden müssen. Ein Kunde wurde beispielsweise von einem Telefonanruf zu einer Onlinechatsitzung weitergeleitet.
Eskalierte Unterhaltungen sind solche, bei denen ein Manager oder Vorgesetzter hinzugezogen werden muss. Der Kunde wurde möglicherweise aufgrund der Schwere des Problems oder weil er mit der vom ersten Kundenservicemitarbeiter angebotenen Lösung nicht zufrieden ist, an einen anderen Kundenservicemitarbeiter weitergeleitet.
Antworttyp: Text
Antwortoption Punktzahl Abgeschlossen 1 Übertragen 1 Weitergeleitet 1 Eskaliert 0 Fügen Sie „N/A“ als Antwortoption hinzu. Wenn diese Option ausgewählt ist, wird die Frage nicht in die Berechnung der Gesamtpunktzahl einbezogen.
Beispiel 2
- Frage: Wie effektiv war die Kommunikation zwischen dem Kundenservicemitarbeiter und dem Kunden auf einer Skala von 0 bis 5?
- Tag: Business, Compliance, Customer
Anleitung: Skalierung und Kriterien
0, Sehr schlecht: Keine Kommunikation oder völliges Missverständnis. Anstößige, missbräuchliche oder schädliche Sprache. Völliger Mangel an Respekt oder Empathie.
1. Sehr schlecht: Erhebliche Kommunikationsschwierigkeiten. Häufige Unterbrechungen oder das Sprechen übereinander. Minimaler Aufwand, um die Inhalte zu verstehen oder sich mit ihnen zu identifizieren. Abweisendes oder respektloses Verhalten.
2. Schlecht: Einige Kommunikationsschwierigkeiten. Gelegentliche Missverständnisse oder Unklarheiten. Geringes Interesse oder Engagement. Gelegentliche Respektlosigkeit oder Unsensibilität.
3. Durchschnittlich: Grundlegende Kommunikation erreicht. Es ist etwas Aufwand erforderlich, um sich zu verständigen und verstanden zu werden.Das Engagement und die Verbindung sind moderat. Im Allgemeinen respektvoll, aber mit Verbesserungspotenzial.
4. Gut: Klare und effektive Kommunikation. Aktives Zuhören und Verständnis. Sinnvolles Engagement und Kontakte. Gegenseitiger Respekt und Empathie werden gezeigt.
5 – Ausgezeichnet: Außergewöhnliche Kommunikation und außergewöhnliches Verständnis. Intensive Interaktion und Verbindung. Starkes Gefühl der Zusammenarbeit und gegenseitigen Unterstützung. Hohes Maß an Respekt, Empathie und Mitgefühl.
Bei der Bewertung zu berücksichtigende Faktoren:
Klarheit: War die Kommunikation klar und leicht verständlich?
Verständnis: Haben die Teilnehmer aktiv zugehört und die Perspektiven der anderen verstanden?
Interaktion: Haben sich die Teilnehmer aktiv an der Unterhaltung beteiligt und Interesse an den Beiträgen der anderen gezeigt?
Respekt: Wurde während des gesamten Gesprächs gegenseitiger Respekt und Rücksichtnahme gezeigt?
Empathie: Haben die Teilnehmer Empathie und Verständnis für die Gefühle der anderen gezeigt?
Zusammenarbeit: Hatten die Teilnehmer das Gefühl, dass sie zusammenarbeiten und im Team arbeiten, oder hatten sie das Gefühl, dass sie gegeneinander antreten?
Ergebnis: Wurden die beabsichtigten Ziele des Gesprächs erreicht oder hat es zu einem positiven Ergebnis geführt?
Denken Sie daran: Der Kontext ist wichtig. Berücksichtigen Sie den Kontext und den Zweck des Gesprächs. Was in einer Situation angemessen ist, muss es in einer anderen nicht sein.
Subjektivität: Die Bewertung kann subjektiv sein. Verschiedene Personen können dieselbe Unterhaltung leicht unterschiedlich interpretieren.
Konzentrieren Sie sich auf Verbesserungen: Nutzen Sie Bewertungen als Tool zum Lernen und zur Verbesserung und nicht nur als Möglichkeit, zu urteilen oder zu kritisieren.
Dieses Framework bietet eine grundlegende Anleitung für die Bewertung von Unterhaltungen. Sie können die Kriterien jedoch an Ihre spezifischen Anforderungen und Ziele anpassen.
Antworttyp: Zahl
Antwortmöglichkeiten und Punktzahlen:
Antwortoption Punktzahl 0 0 1 1 2 2 3 3 4 4 5 5
Fügen Sie „N/A“ als Antwortoption hinzu. Wenn diese Option ausgewählt ist, wird die Frage nicht in die Berechnung der Gesamtpunktzahl einbezogen.
Beispiel 3
- Frage: Hat der Kundenservicemitarbeiter den Kunden mit einer angemessenen Begrüßung begrüßt?
- Tag: Kunde
- Anleitung: Der Kundenservicemitarbeiter (Agent) sollte die Unterhaltung immer mit einer angemessenen Eröffnung und Begrüßung beginnen. Dies ist ein wichtiger Schritt, um eine positive und professionelle Beziehung zum Kunden aufzubauen. Die Eröffnung sollte warm, freundlich und einladend sein und dem Kunden das Gefühl geben, dass er geschätzt und respektiert wird. Der Kundenservicemitarbeiter sollte auch darauf achten, dass die Begrüßung für den Kontext und den kulturellen Hintergrund des Kunden angemessen ist. Wenn der Kundenservicemitarbeiter das Gespräch mit einer angemessenen Eröffnung und Begrüßung beginnt, kann er einen positiven ersten Eindruck hinterlassen, eine Beziehung aufbauen und die Grundlage für eine erfolgreiche Interaktion mit dem Kunden schaffen.
- Antworttyp: Ja/Nein
Antwortmöglichkeiten und Punktzahlen:
Antwortoption Punktzahl „Ja“ 1 „Nein“ 0
Fügen Sie „N/A“ als Antwortoption hinzu. Wenn diese Option ausgewählt ist, wird die Frage nicht in die Berechnung der Gesamtpunktzahl einbezogen.
Beispielunterhaltungen hinzufügen
Beispielkonversationen sind hilfreich, um die Interpretation von Fragen zu verdeutlichen. Zum Abstimmen und Anpassen des KI-Modells sind Beispielkonversationen mit Antworten für jede Frage erforderlich. Das KI-Modell lernt aus echten Konversationsdaten. Verwenden Sie daher Beispiele aus Ihren bestehenden Konversationen in Customer Experience Insights. Wenn Sie keine Beispielunterhaltungen angeben, verwendet Quality AI ein Fundierungsmodell, das die erwarteten Antworten auf Ihre Fragen nicht kennt.
Um die Leistung des KI-Modells zu verbessern, sollten Sie mindestens Folgendes angeben:
- 100 Beispielunterhaltungen pro Frage
- 40 Beispielunterhaltungen pro Antwortmöglichkeit
Wenn Sie weniger als 100 Beispielkonversationen für eine einzelne Frage angeben, lernt das KI-Modell nicht, wie diese Frage richtig bewertet wird. Ihre Beispielunterhaltungen werden gespeichert und das Modell lernt, sobald Sie genügend haben. In einer einzelnen Unterhaltung kann dem Modell beigebracht werden, wie mehrere Fragen bewertet werden. Sie können die Genauigkeit der Bewertung für jede Frage weiter verbessern, indem Sie weitere Beispielunterhaltungen hinzufügen.
Geben Sie für jede Frage in Ihrer Scorecard einen Prozentsatz der Konversationen an, um die einzelnen Antwortmöglichkeiten zu veranschaulichen. Im folgenden Beispiel sehen Sie, wie viele Unterhaltungen Sie einbeziehen könnten, um zwei mögliche Antworten zu veranschaulichen. Diese spezielle Aufteilung ist nicht erforderlich.
Wenn eine Frage auf einer Scorecard lautet: „Hat der Kundenservicemitarbeiter Empathie gegenüber dem Kunden gezeigt?“ und die Antwort auf diese Frage „Ja“ oder „Nein“ lauten kann, fügen Sie Folgendes ein:
| Frage | Mögliche Antworten | Anteil der Unterhaltungen |
|---|---|---|
| Hat der Kundenservicemitarbeiter Empathie gegenüber dem Kunden gezeigt? | „Ja“ | 75 % |
| „Nein“ | 25 % |
Beispiel für das Format einer Unterhaltung
Beispielunterhaltungen müssen mindestens Kennzeichnungen für jede Unterhaltung, Scorecard und Frage sowie die erwartete Antwort enthalten. Ihre Beispielunterhaltungen können auch die Antwortmöglichkeiten, Punktzahlen und Anleitungen enthalten. Beispielkonversationen werden als FeedbackLabel-Ressource hochgeladen. Informationen zum Bearbeiten von Beispielkonversationen mit der API finden Sie im Einrichtungsleitfaden.
CSV
Sie müssen Beispielkonversationen in einer CSV-Datei hochladen. Die erste Zeile Ihrer CSV-Datei muss die Kopfzeile sein und die Datei muss die folgenden Kategorien enthalten:
- ConversationId
- QaScorecardId
- QaQuestionId
- QaAnswerLabel oder individuelle Felder wie QaAnswerScore und QaAnswerValue
Quality AI kann automatisch eine Beispielvorlage für Unterhaltungen mit den oben genannten IDs erstellen. Sie können auswählen, welche Scorecard für Ihre Beispielunterhaltungen verwendet werden soll, und die Vorlage filtern, damit nur bestimmte Unterhaltungen berücksichtigt werden. Eine Anleitung zum Erstellen einer Vorlage und zum Hochladen von Beispielkonversationen finden Sie im Einrichtungsleitfaden für Quality AI.
CSV-Beispieldateien für Unterhaltungen können verschiedene Formate haben. Ja-/Nein-Antworten entsprechen beispielsweise dem Wert „true“ (wahr) oder „false“ (falsch), Zahlen bleiben gleich und Textantworten werden in Anführungszeichen gesetzt. Das bedeutet, dass true als Antworttyp „Ja/Nein“ angezeigt wird und die ausgewählte Antwortoption „Ja“ ist. "Yes" wird dagegen als Textantworttyp mit der ausgewählten Antwortoption „Ja“ angezeigt. Die folgenden Beispiele veranschaulichen einige mögliche CSV-Formate.
- Für den einzelnen Header
QaAnswerValuewird keine Punktzahl zugewiesen.ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue convo_id,scorecard_test_id,question_id_q3,"NO" convo_id,scorecard_test_id,question_id_q6,"YES" convo_id,scorecard_test_id,question_id_q6,true convo_id,scorecard_test_id,question_id_q6,false convo_id,scorecard_test_id,question_id_q6,40.5
- Umfasst sowohl
QaAnswerValue- als auchQaAnswerScore-Header.ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue,QaAnswerScore convo_id,scorecard_test_id,question_id_q3,"NO",score: 1.0 convo_id,scorecard_test_id,question_id_q6,"YES",score: 1.0
- Der Header
QaAnswerLabelumfasst sowohl eine Punktzahl als auch eine Antwort, die jedoch nicht durch ein Komma getrennt sind.ConversationId,QaScorecardId,QaQuestionId,QaAnswerLabel convo_id,scorecard_test_id,question_id_q3,score: 1.0 "NO" convo_id,scorecard_test_id,question_id_q6,score: 0.5 40.5 convo_id,scorecard_test_id,question_id_q6,na_value:true convo_id,scorecard_test_id,question_id_q3,true
Tabelle
In einer Tabelle ist das visuelle Format für Ihre Beispielkonversationen eine Tabelle, in der jede Zeile Informationen zur Identifizierung einer einzelnen Antwort und jede Spalte separate Identifikationen enthält, wie in der folgenden Tabelle dargestellt:
| Unterhaltungs-ID | Scorecard-ID | Frage-ID | Antwort |
|---|---|---|---|
| 44748735396 | 5727080762913918243 | 4097398336657302301 | "YES" |
| 44748735396 | 5727080762913918243 | 3576133206121890384 | "NO" |
| 3495523396 | 5727080762913918243 | 4097398336657302301 | "YES" |
| 3495523396 | 5727080762913918243 | 3576133206121890384 | "NO" |
Unterhaltung auswerten
Menschliche Kommentatoren verwenden Scorecard-Fragen und Anleitungen, um Unterhaltungen manuell zu bewerten und die richtigen Antworten auf jede Frage in Beispielunterhaltungen zu ermitteln. Wenn mehrere Personen dasselbe Gespräch bewerten, geben sie manchmal unterschiedliche Antworten auf die einzelnen Fragen. Diese Inkonsistenz zwischen den Bewertungen führt zu Rauschen und Verwirrung im Machine-Learning-Prozess. Wenn in einem Gespräch dieselbe oder eine ähnliche Frage mit mehreren unterschiedlichen Antworten verknüpft ist, kann die Quality AI die Zuordnung zwischen Fragen und Antworten nicht lernen.
Die folgenden Faktoren können zu Inkonsistenzen führen, wenn mehrere Personen dieselben Fragen für eine einzelne Konversation beantworten:
- Subjektive Fragen, die zu unterschiedlichen Interpretationen zwischen den Annotatoren führen.
- Rubriken mit unzureichenden Details oder unklaren Richtlinien.
- Verschiedene Versionen einer Frage, Antwortoptionen oder Anweisungen, z. B.:
- Sie können mit einfachen Ja/Nein-Antwortoptionen beginnen und später zu einem detaillierteren Ansatz mit den Optionen „no-a“, „no-b“ und „no-c“ wechseln.
- Wenn Sie den Ja/Nein-Ansatz jedoch mit den Optionen „no-a“, „no-b“ und „no-c“ kombinieren, wird das Modell verwirrt.
- Eine Bewertungsaufgabe, die eine hohe kognitive Belastung erfordert.
Konsistenz messen
Um die Konsistenz Ihrer Beispielunterhaltungen zu messen, bitten Sie mehrere Annotatoren, dieselbe Unterhaltung unabhängig voneinander zu bewerten. Berechnen Sie dann die Übereinstimmungen zwischen ihnen mithilfe des Cohen-Kappa-Koeffizienten. Sie möchten einen Cohen-Kappa-Koeffizienten von mindestens 0,2 sehen. Wenn die Konsistenz gering ist, haben Sie folgende Möglichkeiten:
- Formulieren Sie die Frage und die Anleitung so, dass weniger Spielraum für Interpretationen bleibt.
- Kommunizieren Sie mit den Annotatoren, damit sie Unstimmigkeiten beheben und sich auf einen einheitlichen Bewertungsstandard einigen können.
- Kontinuierliche Überwachung der Konsistenz zwischen den Annotatoren.
- Zusätzliche Schulungen für Annotatoren, deren Antworten häufig vom Bewertungsstandard abweichen.