Best Practices

Dieses Dokument enthält Empfehlungen zur Bereitstellung von Sprachdaten für die Cloud Speech-to-Text API. Diese Richtlinien sind auf mehr Effizienz und Erkennungsgenauigkeit sowie optimale Antwortzeiten des Dienstes ausgelegt. Die Cloud Speech-to-Text API funktioniert am besten, wenn sich die an den Dienst gesendeten Daten innerhalb der Parameter befinden, die in diesem Dokument beschrieben werden.

Wenn Sie diese Richtlinien einhalten und dennoch nicht die gewünschten Ergebnisse erhalten, informieren Sie sich unter Fehlerbehebung und Support.

Für optimale Ergebnisse... Vermeiden Sie möglichst...
Erfassen Sie Audiodateien mit einer Abtastrate von mindestens 16.000 Hz. Niedrigere Abtastraten können die Erkennungsgenauigkeit reduzieren. Vermeiden Sie jedoch ein erneutes Abtasten. In der Telefonie beträgt die Abtastrate in der Regel 8.000 Hz. Diese Rate sollte für das Senden an den Dienst verwendet werden werden.
Verwenden Sie einen verlustfreien Codec zur Aufnahme und Übertragung von Audiodateien. Empfohlen werden LINEAR16 oder FLAC. Die Verwendung von MP3, MP4, M4A, µ-law, a-law oder anderen verlustbehafteten Codecs während der Aufzeichnung oder Übertragung kann die Erkennungsgenauigkeit verringern. Wenn die Audiodatei bereits codiert ist und diese Codierung nicht von der API unterstützt wird, transcodieren Sie sie mit einer der beiden verlustfreien Codierungen FLAC oder LINEAR16. Wenn Ihre Anwendung einen verlustbehafteten Codec verwenden muss, um Bandbreite zu sparen, empfehlen wir die Codecs AMR_WB, OGG_OPUS oder SPEEX_WITH_HEADER_BYTE in dieser bevorzugten Reihenfolge.
Die Erkennungsmethode ist so konzipiert, dass Hintergrundstimmen und Rauschen ohne zusätzliche Rauschunterdrückung verarbeitet werden. Für optimale Ergebnisse positionieren Sie das Mikrofon jedoch möglichst nah am Sprecher, besonders wenn Hintergrundgeräusche vorhanden sind. Übermäßige Hintergrundgeräusche und Echos können die Erkennungsgenauigkeit reduzieren, besonders wenn ein verlustbehafteter Codec verwendet wird.
Wenn Sie eine Audiodatei von mehreren Personen aufnehmen und jede Person auf einem separaten Kanal aufgezeichnet wird, senden Sie jeden Kanal separat, um die besten Erkennungsergebnisse zu erhalten. Wenn alle Sprecher in einem einzigen Kanal aufgezeichnet wurden, senden Sie die Aufzeichnung unverändert. Wenn mehrere Personen gleichzeitig oder in unterschiedlichen Lautstärken sprechen, kann dies als Hintergrundgeräusch interpretiert und ignoriert werden.
Verwenden Sie Hinweise in Form von Wörtern oder Sätzen, um Namen und Begriffe zum Vokabular hinzuzufügen und so die Erkennungsgenauigkeit bestimmter Wörter und Satzteile zu erhöhen. Die Erkennungsmethode verfügt bereits über ein großes Vokabular. Manche Spezialbegriffe und die korrekte Aussprache von Namen werden aber eventuell nicht erkannt.
Für kurze Abfragen oder Befehle verwenden Sie StreamingRecognize, wobei single_utterance auf „true“ gesetzt ist. So lässt sich das Erkennen kurzer Äußerungen optimieren und die Latenz minimieren. Recognize oder LongRunningRecognize für kurze Abfragen oder Befehle

Abtastrate

Stellen Sie die Abtastrate der Audioquelle möglichst auf 16.000 Hz ein. Andernfalls setzen Sie sample_rate_hertz auf die Abtastrate der Audioquelle, statt erneut abzutasten.

Framegröße

Die Streamingerkennung erfasst Live-Audiodateien, die aus einem Mikrofon oder einer anderen Audioquelle stammen. Der Audiostream wird in sogenannte Frames aufgeteilt und in aufeinanderfolgenden StreamingRecognizeRequest-Nachrichten gesendet. Jede beliebige Framegröße ist zulässig. Größere Frames sind effizienter, verlängern aber die Latenz. Für ein ausgewogenes Verhältnis von Latenz und Effizienz wird eine Framegröße von 100 Millisekunden empfohlen.

Vorverarbeitung von Audiodateien

Es empfiehlt sich, Audiodateien bereitzustellen, die so sauber wie möglich sind und eine gute Qualität haben. Außerdem sollten Sie für ein gut positioniertes Mikrofon sorgen. Wenn Sie eine Signalverarbeitung mit Rauschunterdrückung verwenden, bevor Sie die Audiodatei an den Dienst senden, verringert sich dadurch in der Regel die Erkennungsgenauigkeit. Der Dienst ist auf das Verarbeiten von Störgeräuschen ausgelegt.

Für optimale Ergebnisse:

  • Positionieren Sie das Mikrofon so nah wie möglich am Sprecher, besonders wenn Hintergrundgeräusche vorhanden sind.
  • Vermeiden Sie das Übersteuern von Audiosignalen.
  • Verwenden Sie keine automatische Verstärkungsregelung (Automatic Gain Control, AGC).
  • Deaktivieren Sie jegliche Rauschunterdrückung.
  • Hören Sie sich einige Beispiel-Audiodateien an. Diese sollten klar klingen, ohne Verzerrungen oder unerwartetes Rauschen.

Anfragekonfiguration

Geben Sie eine möglichst genaue Beschreibung der Audiodateien an, die Sie in der Anfrage an die Cloud Speech-to-Text API senden. Wenn RecognitionConfig die richtigen Werte für sampleRateHertz, encoding und languageCode enthält, erhalten Sie für Ihre Anfrage eine genaue Transkription und Abrechnung.