- JSON-Darstellung
- AudioEncoding
- SpeechAdaptation
- ABNFGrammar
- TranscriptNormalization
- Eintrag
- SpeechContext
- SpeakerDiarizationConfig
- RecognitionMetadata
- InteractionType
- MicrophoneDistance
- OriginalMediaType
- RecordingDeviceType
Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung.
| JSON-Darstellung |
|---|
{ "encoding": enum ( |
| Felder | |||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
encoding |
Codierung von Audiodaten, die in allen |
||||||||||||||||||
sampleRateHertz |
Sampling-Rate der in allen |
||||||||||||||||||
audioChannelCount |
Die Anzahl der Kanäle in den Audioeingabedaten. Legen Sie dies NUR für die MEHRKANAL-Erkennung fest. Gültige Werte für LINEAR16, OGG_OPUS und FLAC sind |
||||||||||||||||||
enableSeparateRecognitionPerChannel |
Dies muss explizit auf |
||||||||||||||||||
languageCode |
Erforderlich. Die Sprache der übermittelten Audiodaten, angegeben als BCP-47-Sprachcode. Beispiel: "en-US". Unter Sprachunterstützung finden Sie eine Liste der aktuell unterstützten Sprachcodes. |
||||||||||||||||||
alternativeLanguageCodes[] |
Eine Liste mit bis zu drei zusätzlichen BCP-47-Sprachcodes, in der mögliche alternative Sprachen der bereitgestellten Audiodaten aufgeführt sind. Unter Sprachunterstützung finden Sie eine Liste der aktuell unterstützten Sprachcodes. Wenn alternative Sprachen aufgelistet sind, enthält das Erkennungsergebnis die Erkennung in der erkannten Sprache, die am wahrscheinlichsten ist, einschließlich des Hauptsprachencodes. Das Erkennungsergebnis enthält den Sprachcode der Sprache, die in dem Audio erkannt wird. Hinweis: Diese Funktion wird nur für Anwendungsfälle der Sprachsteuerung und der Sprachsuche unterstützt, und die Leistung kann für andere Anwendungsfälle variieren (z. B. Transkription von Telefonanrufen). |
||||||||||||||||||
maxAlternatives |
Maximale Anzahl der zurückzugebenden Erkennungshypothesen. Genauer gesagt die maximale Anzahl von |
||||||||||||||||||
profanityFilter |
Wenn der Wert auf |
||||||||||||||||||
adaptation |
Durch die Konfiguration der Sprachanpassung wird die Genauigkeit der Spracherkennung verbessert. Weitere Informationen finden Sie in der Dokumentation zur Sprachanpassung. Wenn die Sprachanpassung festgelegt ist, wird das Feld |
||||||||||||||||||
transcriptNormalization |
Optional. Mit der Transkriptnormalisierung können Sie automatisch bestimmte Teile des Transkripts durch von Ihnen ausgewählte Formulierungen ersetzen lassen. Bei StreamingRecognize gilt diese Normalisierung nur für stabile Teiltranskripte (Stabilität > 0, 8) und endgültige Transkripte. |
||||||||||||||||||
speechContexts[] |
Array von |
||||||||||||||||||
enableWordTimeOffsets |
Bei |
||||||||||||||||||
enableWordConfidence |
Bei |
||||||||||||||||||
enableAutomaticPunctuation |
Wenn „true“, werden den Hypothesen für das Erkennungsergebnis Satzzeichen hinzugefügt. Diese Funktion steht nur für ausgewählte Sprachen zur Verfügung. Wird sie für andere Sprachen festgelegt, hat dies keine Auswirkungen. Mit dem Standardwert "false" werden den Ergebnishypothesen keine Satzzeichen hinzugefügt. |
||||||||||||||||||
enableSpokenPunctuation |
Das Verhalten der gesprochenen Satzzeichen für den Anruf. Wenn nicht festgelegt, wird das Standardverhalten basierend auf dem ausgewählten Modell verwendet. Bei „command_and_search“ werden gesprochene Satzzeichen standardmäßig aktiviert. Wenn „true“, werden gesprochene Satzzeichen in der Anfrage durch die entsprechenden Symbole ersetzt. Beispiel: „Wie geht es dir Fragezeichen“ wird zu „Wie geht es dir?“. Weitere Informationen finden Sie unter https://cloud.google.com/speech-to-text/docs/spoken-punctuation. Bei „false“ werden gesprochene Satzzeichen nicht ersetzt. |
||||||||||||||||||
enableSpokenEmojis |
Das Verhalten der gesprochenen Emojis für den Anruf. Wenn nicht festgelegt, wird das Standardverhalten basierend auf dem ausgewählten Modell verwendet. Wenn „true“, wird für die Anfrage die Formatierung von gesprochenen Emojis hinzugefügt. Dadurch werden gesprochene Emojis im endgültigen Transkript durch die entsprechenden Unicode-Symbole ersetzt. Bei „false“ werden gesprochene Emojis nicht ersetzt. |
||||||||||||||||||
enableSpeakerDiarization |
Wenn „true“, wird die Sprechererkennung für jedes erkannte Wort in der besten Alternative des Erkennungsergebnisses aktiviert. Dazu wird ein „speakerLabel“ in „WordInfo“ verwendet. Hinweis: Verwenden Sie stattdessen diarizationConfig. |
||||||||||||||||||
diarizationSpeakerCount |
Wenn festgelegt, gibt dies die geschätzte Anzahl der Sprecher in der Unterhaltung an. Die Standardeinstellung ist „2“. Wird ignoriert, sofern „enableSpeakerDiarization“ nicht auf „true“ gesetzt ist. Hinweis: Verwenden Sie stattdessen diarizationConfig. |
||||||||||||||||||
diarizationConfig |
Konfiguration zum Aktivieren der Sprecherbestimmung und Festlegen zusätzlicher Parameter, um die Bestimmung besser an Ihre Anwendung anzupassen. Hinweis: Wenn diese Option aktiviert ist, senden wir alle Wörter vom Beginn des Audios für die beste Alternative in jeder nachfolgenden STREAMING-Antwort. Damit sollen die Sprechertags verbessert werden, da unsere Modelle lernen, die Sprecher im Gespräch im Laufe der Zeit zu identifizieren. Bei Nicht-Streaming-Anfragen werden die Ergebnisse der Sprecherbestimmung nur in der besten Alternative des FINAL SpeechRecognitionResult bereitgestellt. |
||||||||||||||||||
metadata |
Metadaten zu dieser Anfrage. |
||||||||||||||||||
model |
Auswahl des Modells für die jeweilige Anfrage. Wählen Sie das für Ihre Domain am besten geeignete Modell aus, um die besten Ergebnisse zu erzielen. Wird kein Modell explizit angegeben, wird ein Modell basierend auf den Parametern in der RecognitionConfig automatisch ausgewählt.
|
||||||||||||||||||
useEnhanced |
Auf „true“ setzen, um ein optimiertes Modell für die Spracherkennung zu verwenden. Wenn Wenn |
||||||||||||||||||
AudioEncoding
Die Codierung der Audiodaten, die in der Anfrage gesendet wurden.
Bei allen Codierungen werden nur Audiodaten mit einem Kanal unterstützt (Mono), sofern die Felder audioChannelCount und enableSeparateRecognitionPerChannel nicht festgelegt sind.
Für optimale Ergebnisse sollte die Audioquelle mit einer verlustfreien Codierung (FLAC oder LINEAR16) erfasst und übertragen werden. Die Genauigkeit der Spracherkennung kann reduziert werden, wenn verlustbehaftete Codecs zum Erfassen oder Übertragen von Audio verwendet werden, insbesondere wenn Hintergrundgeräusche vorhanden sind. Zu verlustbehafteten Codecs gehören MULAW, AMR, AMR_WB, OGG_OPUS, SPEEX_WITH_HEADER_BYTE, MP3 und WEBM_OPUS.
Die Audiodateiformate FLAC und WAV enthalten einen Header, der den enthaltenen Audioinhalt beschreibt. Sie können die Erkennung für WAV-Dateien anfordern, die mit LINEAR16 oder MULAW codierte Audiodaten enthalten. Wenn Sie in Ihrer Anfrage das Audiodateiformat FLAC oder WAV senden, müssen Sie kein AudioEncoding festlege. Das Audiocodierungsformat wird aus dem Dateiheader bestimmt. Wenn Sie beim Senden von FLAC- oder WAV-Audiodaten eine AudioEncoding angeben, muss die Codierungskonfiguration mit der im Audioheader beschriebenen Codierung übereinstimmen. Andernfalls gibt die Anfrage den Fehlercode google.rpc.Code.INVALID_ARGUMENT zurück.
| Enums | |
|---|---|
ENCODING_UNSPECIFIED |
Nicht angegeben. |
LINEAR16 |
Unkomprimierte 16-Bit-Little-Endian-Samples mit Vorzeichen (Lineare PCM). |
FLAC |
Als Codierung wird FLAC (Free Lossless Audio Codec) empfohlen, da sie verlustfrei arbeitet, sodass die Erkennung nicht beeinträchtigt wird, und nur etwa halb so viel Bandbreite wie LINEAR16 benötigt. Die Streamcodierung FLAC unterstützt 16-Bit- und 24-Bit-Samples, jedoch werden nicht alle Felder in STREAMINFO unterstützt. |
MULAW |
8-Bit-Samples zur Kompandierung von 14-Bit-Audiosamples mit G.711 PCMU/mu-law. |
AMR |
Adaptiver Codec für Multi-Rate-Schmalband. sampleRateHertz muss 8.000 betragen. |
AMR_WB |
Adaptiver Codec für Multi-Rate-Breitband. sampleRateHertz muss 16.000 betragen. |
OGG_OPUS |
Opuscodierte Audioframes im Ogg-Container (OggOpus). Die sampleRateHertz muss 8.000, 12.000, 16.000, 24.000 oder 48.000 betragen. |
SPEEX_WITH_HEADER_BYTE |
Die Verwendung verlustbehafteter Codierungen wird zwar nicht empfohlen, aber wenn eine Codierung mit sehr niedriger Bitrate erforderlich ist, ist OGG_OPUS gegenüber einer Speex-Codierung klar vorzuziehen. Die von der Cloud Speech API unterstützte Speex-Codierung hat in jedem Block ein Header-Byte, wie im MIME-Typ audio/x-speex-with-header-byte. Es handelt sich um eine Variante der in RFC 5574 definierten RTP Speex-Codierung. Der Stream besteht aus einer Abfolge von Blöcken, ein Block pro RTP-Paket. Jeder Block beginnt mit einem Byte, aus dem die Länge des Blocks in Byte hervorgeht, gefolgt von einem oder mehreren Frames an Speex-Daten, die gemäß RFC 5574 auf eine ganzzahlige Anzahl von Byte (Oktetten) aufgefüllt werden. Mit anderen Worten, jeder RTP-Header wird durch ein einzelnes Byte ersetzt, aus dem die Blocklänge hervorgeht. Es wird ausschließlich Speex-Breitband unterstützt. sampleRateHertz muss 16.000 sein. |
MP3 |
MP3-Audio. Die MP3-Codierung ist ein Beta-Feature, das nur in v1p1beta1 verfügbar ist. Unterstützt alle gängigen MP3-Bitraten (von 32 bis 320 kbit/s). Bei Verwendung dieser Codierung muss sampleRateHertz mit der Abtastrate der verwendeten Datei übereinstimmen. |
WEBM_OPUS |
Opus-codierte Audioframes in einem WebM-Container (WebM). sampleRateHertz muss 8.000, 12.000, 16.000, 24.000 oder 48.000 betragen. |
ALAW |
8-Bit-Samples zur Kompandierung von 13-Bit-Audiosamples mit G.711 PCMU/a-law. |
SpeechAdaptation
Konfiguration der Sprachanpassung.
| JSON-Darstellung |
|---|
{ "phraseSets": [ { object ( |
| Felder | |
|---|---|
phraseSets[] |
Eine Sammlung von Wortgruppensätzen. Wenn Sie die Hinweise inline angeben möchten, lassen Sie das Feld |
phraseSetReferences[] |
Eine Sammlung von Ressourcennamen für Wortgruppen, die verwendet werden sollen. |
customClasses[] |
Eine Sammlung benutzerdefinierter Klassen. Wenn Sie die Klassen inline angeben möchten, lassen Sie das |
abnfGrammar |
Die Augmented Backus-Naur Form (ABNF) ist eine standardisierte Grammatiknotation, die aus einer Reihe von Ableitungsregeln besteht. Spezifikationen: https://www.w3.org/TR/speech-grammar |
ABNFGrammar
| JSON-Darstellung |
|---|
{ "abnfStrings": [ string ] } |
| Felder | |
|---|---|
abnfStrings[] |
Alle Deklarationen und Regeln einer ABNF-Grammatik, die in mehrere Strings aufgeteilt werden, die am Ende verkettet werden. |
TranscriptNormalization
Konfiguration der Transkriptionsnormalisierung. Mit der Transkriptnormalisierung können Sie automatisch bestimmte Teile des Transkripts durch von Ihnen ausgewählte Formulierungen ersetzen lassen. Bei StreamingRecognize gilt diese Normalisierung nur für stabile Teiltranskripte (Stabilität > 0, 8) und endgültige Transkripte.
| JSON-Darstellung |
|---|
{
"entries": [
{
object ( |
| Felder | |
|---|---|
entries[] |
Eine Liste mit Ersatzeinträgen. Wir werden jeweils einen Eintrag ersetzen. Der zweite Eintrag in ["cat" => "dog", "mountain cat" => "mountain dog"] wird beispielsweise nie angewendet, da der erste Eintrag immer zuerst verarbeitet wird. Maximal 100 Einträge. |
Eintrag
Eine einzelne Ersatzkonfiguration.
| JSON-Darstellung |
|---|
{ "search": string, "replace": string, "caseSensitive": boolean } |
| Felder | |
|---|---|
search |
Was ersetzt werden soll. Darf maximal 100 Zeichen lang sein. |
replace |
Wodurch soll sie ersetzt werden? Darf maximal 100 Zeichen lang sein. |
caseSensitive |
Gibt an, ob bei der Suche zwischen Groß- und Kleinschreibung unterschieden wird. |
SpeechContext
Liefert dem Spracherkennungsmodul "Hinweise" für bestimmte Wörter und Wendungen, die bei den Ergebnissen zu bevorzugen sind.
| JSON-Darstellung |
|---|
{ "phrases": [ string ], "boost": number } |
| Felder | |
|---|---|
phrases[] |
Eine Liste von Strings, die Wörter und Wortgruppen "Hinweise" enthalten, damit die Spracherkennung sie mit größerer Wahrscheinlichkeit erkennt. Kann zur Verbesserung der Genauigkeit für bestimmte Wörter und Wendungen verwendet werden, z. B. wenn der Nutzer bestimmte Befehle häufig spricht. Lässt sich ebenfalls verwenden, um weitere Wörter zum Vokabular des Erkennungsmoduls hinzuzufügen. Siehe Nutzungsbeschränkungen. Listenelemente können auch auf Klassen für Wortgruppen festgelegt werden, die gängige Konzepte in natürlicher Sprache darstellen. Anstatt beispielsweise für jeden Monat des Jahres Phrasenhinweise anzugeben, erhöht die Verwendung der Klasse $MONTH die Wahrscheinlichkeit, dass Audio mit Monaten korrekt transkribiert wird. |
boost |
Hinweis-Boost Ein positiver Wert erhöht die Wahrscheinlichkeit, dass eine bestimmte Wortgruppe gegenüber anderen ähnlich klingenden Wortgruppen erkannt wird. Je höher der Boost, desto höher ist auch die Wahrscheinlichkeit einer fälschlichen Erkennung. Negative Boost-Werte entsprechen der Anti-Bias-Funktion. Die Funktion zur Vermeidung von Bias ist nicht aktiviert. Der negative Boost wird daher einfach ignoriert. Für |
SpeakerDiarizationConfig
Konfiguration zum Aktivieren der Sprecherbestimmung.
| JSON-Darstellung |
|---|
{ "enableSpeakerDiarization": boolean, "minSpeakerCount": integer, "maxSpeakerCount": integer, "speakerTag": integer } |
| Felder | |
|---|---|
enableSpeakerDiarization |
Wenn „true“, wird die Sprechererkennung für jedes erkannte Wort in der besten Alternative des Erkennungsergebnisses aktiviert. Dazu wird ein „speakerLabel“ in „WordInfo“ verwendet. |
minSpeakerCount |
Mindestanzahl der Sprecher in der Unterhaltung. Dieser Bereich bietet Ihnen mehr Flexibilität, da das System die richtige Anzahl der Sprecher automatisch bestimmen kann. Wenn nicht festgelegt, beträgt der Standardwert 2. |
maxSpeakerCount |
Maximale Anzahl der Sprecher in der Unterhaltung. Dieser Bereich bietet Ihnen mehr Flexibilität, da das System die richtige Anzahl der Sprecher automatisch bestimmen kann. Wenn nicht festgelegt, beträgt der Standardwert 6. |
speakerTag |
Nur Ausgabe. nicht in Verwendung. |
RecognitionMetadata
Beschreibung der zu erkennenden Audiodaten.
| JSON-Darstellung |
|---|
{ "interactionType": enum ( |
| Felder | |
|---|---|
interactionType |
Der Anwendungsfall, der die zu erkennenden Audioinhalte am genauesten beschreibt. |
industryNaicsCodeOfAudio |
Die vertikale Branche, die auf diese Spracherkennungsanfrage am genauesten zutrifft. Dies ist ein nützlicher Hinweis auf das Thema, um das es in der Audiodatei geht. Geben Sie die vertikale Branche mit dem sechsstelligen NAICS-Code an, siehe https://www.naics.com/search/. |
microphoneDistance |
Der Audiotyp, mit dem sich die zu erkennende Audiodatei am besten beschreiben lässt. |
originalMediaType |
Das Medium, auf dem die Sprache ursprünglich aufgezeichnet wurde. |
recordingDeviceType |
Die Art von Gerät, mit dem die Sprache aufgezeichnet wurde. |
recordingDeviceName |
Das für die Aufzeichnung verwendete Gerät. Beispiele: "Nexus 5X", "Polycom SoundStation IP 6000", "POTS", "VoIP" oder "Cardioid Microphone". |
originalMimeType |
MIME-Typ der ursprünglichen Audiodatei. Beispiele: |
obfuscatedId |
Die verschleierte (dem Datenschutz unterliegende) ID des Nutzers. Mit dieser wird die Anzahl der einzelnen Nutzer bestimmt, die den Dienst verwenden. |
audioTopic |
Beschreibung des Inhalts, z. B. "Aufnahmen von Anhörungen des Supreme Courts aus dem Jahr 2012". |
InteractionType
Kategorien von Anwendungsfällen, mit denen sich die Anfrage wegen Spracherkennung beschreiben lässt.
| Enums | |
|---|---|
INTERACTION_TYPE_UNSPECIFIED |
Der Anwendungsfall ist entweder unbekannt oder entspricht nicht einem der anderen unten angegebenen Werte. |
DISCUSSION |
Mehrere Personen in einer Unterhaltung oder Diskussion. Zum Beispiel bei einer Sitzung mit mindestens zwei aktiven Teilnehmern. In der Regel befinden sich alle Hauptsprecher im selben Raum (wenn nicht, siehe PHONE_CALL). |
PRESENTATION |
Mindestens eine Person, die vor anderen einen Vortrag oder eine Präsentation hält, vorwiegend ohne Unterbrechung. |
PHONE_CALL |
Ein Telefonanruf oder eine Videokonferenz mit mindestens zwei aktiven Teilnehmern, die sich nicht im selben Raum befinden. |
VOICEMAIL |
Eine aufgezeichnete Nachricht, die für eine andere Person bestimmt ist. |
PROFESSIONALLY_PRODUCED |
Professionell produzierte Audioinhalte (z. B. Fernsehsendung, Podcast). |
VOICE_SEARCH |
Transkription von gesprochenen Suchanfragen und Erkundigungen. |
VOICE_COMMAND |
Transkription von Sprachbefehlen, z. B. zum Steuern eines Geräts. |
DICTATION |
Transkription von Sprache zum Erstellen eines schriftlichen Dokuments, z. B. einer Textnachricht, einer E-Mail oder eines Berichts. |
MicrophoneDistance
Aufzählung der Arten von Erfassungseinstellungen zur Beschreibung einer Audiodatei.
| Enums | |
|---|---|
MICROPHONE_DISTANCE_UNSPECIFIED |
Der Audiotyp ist nicht bekannt. |
NEARFIELD |
Die Audiodaten wurden mit einem Aufnahmegerät in geringem Abstand erfasst. Zum Beispiel Telefon, Diktiergerät oder Handmikrofon. In der Regel befindet sich der Sprecher in einem Abstand von höchstens einem Meter zum Mikrofon. |
MIDFIELD |
Der Sprecher befindet sich in einem Abstand von höchstens drei Metern zum Mikrofon. |
FARFIELD |
Der Sprecher befindet sich in einem Abstand von über drei Metern zum Mikrofon. |
OriginalMediaType
Das Medium, auf dem die Sprache ursprünglich aufgezeichnet wurde.
| Enums | |
|---|---|
ORIGINAL_MEDIA_TYPE_UNSPECIFIED |
Ursprünglicher Medientyp unbekannt. |
AUDIO |
Bei den Sprachdaten handelt es sich um eine Audioaufzeichnung. |
VIDEO |
Die Sprachdaten wurden ursprünglich auf Video aufgezeichnet. |
RecordingDeviceType
Die Art von Gerät, mit dem die Sprache aufgezeichnet wurde.
| Enums | |
|---|---|
RECORDING_DEVICE_TYPE_UNSPECIFIED |
Das Aufnahmegerät ist unbekannt. |
SMARTPHONE |
Die Sprache wurde auf einem Smartphone aufgezeichnet. |
PC |
Die Sprache wurde mit einem PC oder Tablet aufgezeichnet. |
PHONE_LINE |
Die Sprache wurde über eine Telefonleitung aufgezeichnet. |
VEHICLE |
Die Sprache wurde in einem Fahrzeug aufgezeichnet. |
OTHER_OUTDOOR_DEVICE |
Die Sprache wurde im Freien aufgezeichnet. |
OTHER_INDOOR_DEVICE |
Die Sprache wurde in einem geschlossenen Raum aufgenommen. |