Übersicht
Die automatische Spracherkennung (ASR), auch als maschinelle Transkription oder Speech-to-Text (STT) bezeichnet, verwendet maschinelles Lernen, um Audiodaten mit Sprache in Text umzuwandeln. ASR bietet zahlreiche Anwendungen, z. B. Untertitel, virtuelle Assistenten, interaktive Sprachdialogsysteme („Interactive Voice Responses“, IVRs) und Diktate. Systeme für maschinelles Lernen sind jedoch selten zu 100% genau und ASR ist da keine Ausnahme. Wenn Sie bei kritischen Systemen auf ASR zurückgreifen möchten, ist es sehr wichtig, die Genauigkeit oder die Gesamtqualität zu messen, damit Sie verstehen, wie das System in Ihrem umfassenderen System funktioniert, in das es integriert ist.
Sobald Sie die Genauigkeit gemessen haben, können Sie die Systeme optimieren, um eine noch bessere Genauigkeit für Ihre spezifische Situation zu liefern. In der Cloud Speech-to-Text API von Google kann die Genauigkeit durch Auswahl des am besten geeigneten Erkennungsmodells und durch Verwendung unserer Speech Adaptation API optimiert werden. Wir bieten eine Vielzahl von Modellen an, die auf verschiedene Anwendungsfälle zugeschnitten sind, wie z. B. lange Audiodateien, medizinische Gespräche oder Telefongespräche.
Sprachgenauigkeit definieren
Die Genauigkeit der Sprache kann auf verschiedene Weise gemessen werden. Je nach Bedarf kann es sinnvoll sein, mehrere Messwerte zu verwenden. Die branchenübliche Standardmethode für den Vergleich ist jedoch die Wortfehlerrate Word Error Rate (WER), oft als WER abgekürzt. Die WER misst den Prozentsatz der falschen Worttranskriptionen im gesamten Satz. Eine niedrigere WER bedeutet, dass das System genauer ist.
Möglicherweise wird im Zusammenhang mit der ASR-Genauigkeit auch der Begriff Ground Truth verwendet. Die Ground Truth ist die zu 100% genaue Transkription, die in der Regel von Menschen erstellt wird und mit der Sie die Genauigkeit vergleichen und messen.
Word Error Rate (WER)
WER ist die Kombination aus drei Arten von Transkriptionsfehlern, die auftreten können:
- Einfügungsfehler („Insertion Error“, I): Wörter im Hypothesentranskript, die im Ground Truth nicht vorhanden sind.
- Ersetzungsfehler („Substitution Errors“, S): Wörter, die sowohl in der Hypothese als auch in der Ground-Truth vorhanden sind, aber nicht korrekt transkribiert sind.
- Löschfehler („Deletion Errors“, D): Wörter, die in der Hypothese fehlen, aber in der Ground-Truth vorhanden sind.
\[WER = {S+R+Q \over N}\]
Um die WER zu berechnen, addieren Sie die Gesamtzahl der einzelnen Fehler und teilen Sie das Ergebnis durch die Gesamtzahl der Wörter (N) im Ground-Truth-Transkript. In Situationen mit sehr niedriger Genauigkeit kann die WER mehr als 100% betragen, z. B. wenn eine große Menge an neuem Text eingefügt wird. Hinweis: Das Ersetzen ist im Wesentlichen das Löschen und das Einfügen. Einige Substitutionen sind weniger wichtig als andere. So kann es beispielsweise einen Unterschied machen, ob ein einzelner Buchstabe oder ein Wort ersetzt wird.
Beziehung zwischen WER und Konfidenzwert
Der WER-Messwert ist unabhängig von einem Konfidenzwert und sie korrelieren normalerweise nicht miteinander. Ein Konfidenzwert basiert auf der Wahrscheinlichkeit, während die WER darauf basiert, ob das Wort korrekt erkannt wurde oder nicht. Wenn das Wort nicht korrekt erkannt wird, bedeutet dies, dass selbst kleine grammatikalische Fehler eine hohe WER verursachen können. Ein korrekt erkanntes Wort führt zu einer niedrigen WER, was wiederum zu einer geringen Wahrscheinlichkeit führen kann, was die Konfidenz gering werden lässt, wenn das Wort nicht sehr häufig vorkommt oder das Audio sehr verrauscht ist.
Ebenso kann ein Wort, das häufig verwendet wird, mit hoher Wahrscheinlichkeit von der ASR richtig transkribiert werden, was den Konfidenzwert entsprechend erhöht. Wenn beispielsweise ein Unterschied zwischen „I“ und „eye“ erkannt wird, kann eine hohe Konfidenz auftreten, da „I“ ein gängigeres Wort ist, aber der WER-Messwert wird dadurch gesenkt.
Zusammenfassend lässt sich sagen, dass die Messwerte für Konfidenz und WER unabhängig voneinander sind und nicht miteinander korreliert werden sollten.
Normalisierung
Bei der Berechnung des WER-Messwerts wird die maschinelle Transkription mit einer von Menschen erstellten Ground-Truth-Transkription verglichen. Der Text aus beiden Transkriptionen wird vor dem Vergleich normalisiert. Bei einem Vergleich der maschinellen Transkription mit der von Menschen bereitgestellten Ground-Truth-Transkription werden Satzzeichen entfernt und die Groß- und Kleinschreibung ignoriert.
Konventionen für die Grundwahrheit
Beachten Sie, dass es kein einheitliches von Menschen erstelltes Transkriptionsformat für ein bestimmtes Audio gibt. Dabei sind viele Aspekte zu berücksichtigen. Audiodaten können zum Beispiel andere nicht-sprachliche Vokalaussprachen enthalten, wie „huh“, „yep“, „ähm“. Einige Cloud STT-Modelle wie „medical_conversations“ verwenden diese Vokalaussprachen, andere dagegen nicht. Daher ist es wichtig, dass die Ground-Truth-Konventionen mit den Konventionen des zu bewertenden Modells übereinstimmen. Die folgenden allgemeinen Richtlinien werden verwendet, um eine Groundtruth-Texttranskription für ein bestimmtes Audio vorzubereiten.
- Zusätzlich zu den normalen Buchstaben können Sie die Ziffern 0–9 verwenden.
- Verwenden Sie keine Symbole wie „@“, „#“, „$“, „.“. Verwenden Sie Wörter wie „at“, „hash“, „Dollar“, „Punkt“.
- Verwenden Sie „%“ nur, wenn dem Zeichen eine Zahl vorangestellt ist. Verwenden Sie andernfalls das Wort „Prozent“.
Verwenden Sie „\$“ nur, wenn eine Zahl folgt, z. B. „Milch kostet $ \3,99“.
Verwenden Sie Wörter für Zahlen unter 10.
- Beispiel: „Ich habe vier Katzen und 12 Hüte.“
Verwenden Sie Zahlen für Maßeinheiten, Währungen und große Faktoren wie Million, Milliarde oder Billion. Beispiel: „7,5 Millionen“ statt „siebeneinhalb Millionen“.
Verwenden Sie in den folgenden Fällen keine Abkürzungen:
Do's Don'ts Warriors versus Lakers Warriors vs Lakers Ich wohne in der Hauptstraße 123 Ich wohne in der Hauptstr. 123
Sprachgenauigkeit messen
So ermitteln Sie die Genauigkeit mithilfe von Audiodateien:
Testaudiodateien sammeln
Sammeln Sie eine repräsentative Stichprobe von Audiodateien, um ihre Qualität zu messen. Dieses Beispiel sollte zufällig sein und der Zielumgebung so nahe wie möglich kommen. Wenn Sie beispielsweise Gespräche aus einem Call Center zur Qualitätssicherung transkribieren möchten, sollten Sie nach dem Zufallsprinzip einige tatsächliche Anrufe auswählen, die mit denselben Geräten aufgezeichnet wurden, über die auch Ihr Produktionston läuft. Wenn die Audiodaten mit dem Mikrofon Ihres Mobiltelefons oder Computers aufgenommen wurden und nicht repräsentativ für Ihren Anwendungsfall sind, sollten Sie die Aufnahmen nicht verwenden.
Nehmen Sie mindestens 30 Minuten Audiodaten auf, um einen statistisch signifikanten Messwert zu erhalten. Wir empfehlen, Audioinhalte mit einer Länge von 30 Minuten bis 3 Stunden zu verwenden. In diesem Lab wird Ihnen das Audio zur Verfügung gestellt.
Grundwahrheitstranskriptionen erhalten
Genaue Transkriptionen der Audiodateien erstellen Dazu gehört in der Regel eine einfache oder doppelte manuelle Transkription des Ziel-Audios. Ihr Ziel ist es, eine 100% genaue Transkription zu erhalten, um die automatisierten Ergebnisse damit zu vergleichen.
Es ist wichtig, dass die Ground-Truth-Transkriptionen so genau wie möglich den Transkriptionskonventionen Ihres Ziel-ASR-Systems entsprechen. Achten Sie beispielsweise darauf, dass Satzzeichen, Zahlen und Großschreibung einheitlich sind.
Lassen Sie eine Maschinentranskription erstellen und beheben Sie alle Probleme im Text, die Ihnen auffallen.
Maschinentranskription erstellen
Senden Sie die Audiodaten an die Google Speech-to-Text API und erhalten Sie Ihre Hypothesentranskription unter Verwendung der Speech-to-Text UI.
Ground Truth mit dem Audio abgleichen
Klicken Sie im UI-Tool auf „Ground Truth anhängen“, um eine bestimmte Audiodatei mit der bereitgestellten Ground-Truth zu verknüpfen. Nachdem Sie den Anhang fertiggestellt haben, sehen Sie Ihren WER-Messwert und eine Darstellung aller Unterschiede.