RecognitionConfig

Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung.

JSON-Darstellung
{
  "encoding": enum (AudioEncoding),
  "sampleRateHertz": integer,
  "audioChannelCount": integer,
  "enableSeparateRecognitionPerChannel": boolean,
  "languageCode": string,
  "alternativeLanguageCodes": [
    string
  ],
  "maxAlternatives": integer,
  "profanityFilter": boolean,
  "adaptation": {
    object (SpeechAdaptation)
  },
  "transcriptNormalization": {
    object (TranscriptNormalization)
  },
  "speechContexts": [
    {
      object (SpeechContext)
    }
  ],
  "enableWordTimeOffsets": boolean,
  "enableWordConfidence": boolean,
  "enableAutomaticPunctuation": boolean,
  "enableSpokenPunctuation": boolean,
  "enableSpokenEmojis": boolean,
  "enableSpeakerDiarization": boolean,
  "diarizationSpeakerCount": integer,
  "diarizationConfig": {
    object (SpeakerDiarizationConfig)
  },
  "metadata": {
    object (RecognitionMetadata)
  },
  "model": string,
  "useEnhanced": boolean
}
Felder
encoding

enum (AudioEncoding)

Codierung von Audiodaten, die in allen RecognitionAudio-Nachrichten gesendet werden. Dieses Feld ist für Audiodateien vom Typ FLAC und WAV optional und für alle anderen Audioformate erforderlich. Weitere Informationen finden Sie unter AudioEncoding.

sampleRateHertz

integer

Sampling-Rate der in allen RecognitionAudio-Nachrichten gesendeten Audiodaten in Host. Gültige Werte sind: 8.000-48.000. 16.000 ist optimal. Stellen Sie die Abtastrate der Audioquelle auf 16.000 Hz ein, um die besten Ergebnisse zu erzielen. Falls dies nicht möglich ist, verwenden Sie die native Abtastrate der Audioquelle (anstatt eine erneute Abtastung durchzuführen). Dieses Feld ist für FLAC- und WAV-Audiodateien optional, aber für alle anderen Audioformate erforderlich. Weitere Informationen finden Sie unter AudioEncoding.

audioChannelCount

integer

Die Anzahl der Kanäle in den Audioeingabedaten. Legen Sie dies NUR für die MEHRKANAL-Erkennung fest. Gültige Werte für LINEAR16, OGG_OPUS und FLAC sind 1 bis 8. Als Wert für MULAW, AMR, AMR_WB und SPEEX_WITH_HEADER_BYTE ist nur 1 gültig. Wird der Wert auf 0 gesetzt oder weggelassen, wird standardmäßig ein Kanal (Mono) verwendet. Hinweis: Standardmäßig wird nur der erste Kanal erkannt. Wenn Sie eine unabhängige Erkennung für jeden Kanal ausführen möchten, setzen Sie enableSeparateRecognitionPerChannel auf „true“.

enableSeparateRecognitionPerChannel

boolean

Dies muss explizit auf true und audioChannelCount > 1 festgelegt werden, damit jeder Kanal separat erkannt wird. Das Erkennungsergebnis enthält das Feld channelTag, das darüber Aufschluss gibt, zu welchem Kanal das jeweilige Ergebnis gehört. Wenn es nicht auf "true" gesetzt ist, wird nur der erste Kanal erkannt. Die Anfrage wird kumulativ für alle erkannten Kanäle abgerechnet: audioChannelCount multipliziert mit der Länge der Audioinhalte.

languageCode

string

Erforderlich. Die Sprache der übermittelten Audiodaten, angegeben als BCP-47-Sprachcode. Beispiel: "en-US". Unter Sprachunterstützung finden Sie eine Liste der aktuell unterstützten Sprachcodes.

alternativeLanguageCodes[]

string

Eine Liste mit bis zu drei zusätzlichen BCP-47-Sprachcodes, in der mögliche alternative Sprachen der bereitgestellten Audiodaten aufgeführt sind. Unter Sprachunterstützung finden Sie eine Liste der aktuell unterstützten Sprachcodes. Wenn alternative Sprachen aufgelistet sind, enthält das Erkennungsergebnis die Erkennung in der erkannten Sprache, die am wahrscheinlichsten ist, einschließlich des Hauptsprachencodes. Das Erkennungsergebnis enthält den Sprachcode der Sprache, die in dem Audio erkannt wird. Hinweis: Diese Funktion wird nur für Anwendungsfälle der Sprachsteuerung und der Sprachsuche unterstützt, und die Leistung kann für andere Anwendungsfälle variieren (z. B. Transkription von Telefonanrufen).

maxAlternatives

integer

Maximale Anzahl der zurückzugebenden Erkennungshypothesen. Genauer gesagt die maximale Anzahl von SpeechRecognitionAlternative-Nachrichten in jedem SpeechRecognitionResult. Der Server gibt möglicherweise weniger als maxAlternatives zurück. Gültige Werte sind 030. Bei einem Wert von 0 oder 1 wird maximal ein Ergebnis zurückgegeben. Bei Auslassung wird ein Maximum von 1 zurückgegeben.

profanityFilter

boolean

Wenn der Wert auf true gesetzt ist, versucht der Server, vulgäre Sprache herauszufiltern, und ersetzt in den gefilterten Wörtern alle Buchstaben mit Ausnahme des Anfangsbuchstabens durch Sternchen, z.B. „S******“. Wenn diese Option auf false gesetzt oder weggelassen wird, werden Obszönitäten nicht herausgefiltert.

adaptation

object (SpeechAdaptation)

Durch die Konfiguration der Sprachanpassung wird die Genauigkeit der Spracherkennung verbessert. Weitere Informationen finden Sie in der Dokumentation zur Sprachanpassung. Wenn die Sprachanpassung festgelegt ist, wird das Feld speechContexts überschrieben.

transcriptNormalization

object (TranscriptNormalization)

Optional. Mit der Transkriptnormalisierung können Sie automatisch bestimmte Teile des Transkripts durch von Ihnen ausgewählte Formulierungen ersetzen lassen. Bei StreamingRecognize gilt diese Normalisierung nur für stabile Teiltranskripte (Stabilität > 0, 8) und endgültige Transkripte.

speechContexts[]

object (SpeechContext)

Array von SpeechContext. Zur Bereitstellung von Kontext zur Unterstützung der Spracherkennung. Weitere Informationen finden Sie unter Sprachanpassung.

enableWordTimeOffsets

boolean

Bei true enthält das beste Ergebnis eine Liste von Wörtern sowie die Zeitverschiebungen (Zeitstempel) zu den Anfangs- und Endzeiten dieser Wörter. Bei false werden keine Informationen zum zeitlichen Versatz auf Wortebene zurückgegeben. Der Standardwert ist false.

enableWordConfidence

boolean

Bei true enthält das beste Ergebnis eine Liste von Wörtern sowie den Konfidenzwert für diese Wörter. Bei false werden keine Konfidenzinformationen auf Wortebene zurückgegeben. Der Standardwert ist false.

enableAutomaticPunctuation

boolean

Wenn „true“, werden den Hypothesen für das Erkennungsergebnis Satzzeichen hinzugefügt. Diese Funktion steht nur für ausgewählte Sprachen zur Verfügung. Wird sie für andere Sprachen festgelegt, hat dies keine Auswirkungen. Mit dem Standardwert "false" werden den Ergebnishypothesen keine Satzzeichen hinzugefügt.

enableSpokenPunctuation

boolean

Das Verhalten der gesprochenen Satzzeichen für den Anruf. Wenn nicht festgelegt, wird das Standardverhalten basierend auf dem ausgewählten Modell verwendet. Bei „command_and_search“ werden gesprochene Satzzeichen standardmäßig aktiviert. Wenn „true“, werden gesprochene Satzzeichen in der Anfrage durch die entsprechenden Symbole ersetzt. Beispiel: „Wie geht es dir Fragezeichen“ wird zu „Wie geht es dir?“. Weitere Informationen finden Sie unter https://cloud.google.com/speech-to-text/docs/spoken-punctuation. Bei „false“ werden gesprochene Satzzeichen nicht ersetzt.

enableSpokenEmojis

boolean

Das Verhalten der gesprochenen Emojis für den Anruf. Wenn nicht festgelegt, wird das Standardverhalten basierend auf dem ausgewählten Modell verwendet. Wenn „true“, wird für die Anfrage die Formatierung von gesprochenen Emojis hinzugefügt. Dadurch werden gesprochene Emojis im endgültigen Transkript durch die entsprechenden Unicode-Symbole ersetzt. Bei „false“ werden gesprochene Emojis nicht ersetzt.

enableSpeakerDiarization
(deprecated)

boolean

Wenn „true“, wird die Sprechererkennung für jedes erkannte Wort in der besten Alternative des Erkennungsergebnisses aktiviert. Dazu wird ein „speakerLabel“ in „WordInfo“ verwendet. Hinweis: Verwenden Sie stattdessen diarizationConfig.

diarizationSpeakerCount
(deprecated)

integer

Wenn festgelegt, gibt dies die geschätzte Anzahl der Sprecher in der Unterhaltung an. Die Standardeinstellung ist „2“. Wird ignoriert, sofern „enableSpeakerDiarization“ nicht auf „true“ gesetzt ist. Hinweis: Verwenden Sie stattdessen diarizationConfig.

diarizationConfig

object (SpeakerDiarizationConfig)

Konfiguration zum Aktivieren der Sprecherbestimmung und Festlegen zusätzlicher Parameter, um die Bestimmung besser an Ihre Anwendung anzupassen. Hinweis: Wenn diese Option aktiviert ist, senden wir alle Wörter vom Beginn des Audios für die beste Alternative in jeder nachfolgenden STREAMING-Antwort. Damit sollen die Sprechertags verbessert werden, da unsere Modelle lernen, die Sprecher im Gespräch im Laufe der Zeit zu identifizieren. Bei Nicht-Streaming-Anfragen werden die Ergebnisse der Sprecherbestimmung nur in der besten Alternative des FINAL SpeechRecognitionResult bereitgestellt.

metadata

object (RecognitionMetadata)

Metadaten zu dieser Anfrage.

model

string

Auswahl des Modells für die jeweilige Anfrage. Wählen Sie das für Ihre Domain am besten geeignete Modell aus, um die besten Ergebnisse zu erzielen. Wird kein Modell explizit angegeben, wird ein Modell basierend auf den Parametern in der RecognitionConfig automatisch ausgewählt.

Modell Beschreibung

latest_long

Optimal für lange Inhalte wie Medien oder Unterhaltungen.

latest_short

Optimal für kurzformatige Inhalte wie Befehle oder gerichtete Sprache in einer einzigen Aufnahme.

command_and_search

Optimal für kurze Abfragen wie Sprachbefehle oder Sprachsuche

phone_call

Am besten geeignet für Audiodaten, die aus einem Telefonanruf stammen (normalerweise mit einer Abtastrate von 8 kHz aufgezeichnet)

video

Optimal für Audiodaten, die aus einem Video stammen oder mehrere Sprecher enthalten. Idealerweise werden die Audiodaten mit einer Abtastrate von 16 kHz oder mehr aufgezeichnet. Dies ist ein Premium-Modell, das mehr kostet als der Standardsatz.

default

Am besten geeignet für Audiodaten, die zu keinem spezifischen Audiomodell gehören, beispielsweise langformatiger Audioinhalt. Idealerweise sollten dies High-Fidelity-Audiodaten sein, die mit einer Abtastrate von 16 kHz oder mehr aufgezeichnet werden.

medical_conversation

Optimal für Audiodaten, die aus einer Unterhaltung zwischen einem Gesundheitsdienstleister und einem Patienten stammen.

medical_dictation

Optimal für Audiodaten, die aus Diktatnotizen eines medizinischen Dienstleisters stammen.

useEnhanced

boolean

Auf „true“ setzen, um ein optimiertes Modell für die Spracherkennung zu verwenden. Wenn useEnhanced auf „true“ gesetzt ist und das Feld model nicht festgelegt ist, wird ein geeignetes erweitertes Modell ausgewählt, sofern ein erweitertes Modell für das Audio vorhanden ist.

Wenn useEnhanced „true“ ist und keine erweiterte Version des angegebenen Modells vorhanden ist, wird die Sprache mit der Standardversion des angegebenen Modells erkannt.

AudioEncoding

Die Codierung der Audiodaten, die in der Anfrage gesendet wurden.

Bei allen Codierungen werden nur Audiodaten mit einem Kanal unterstützt (Mono), sofern die Felder audioChannelCount und enableSeparateRecognitionPerChannel nicht festgelegt sind.

Für optimale Ergebnisse sollte die Audioquelle mit einer verlustfreien Codierung (FLAC oder LINEAR16) erfasst und übertragen werden. Die Genauigkeit der Spracherkennung kann reduziert werden, wenn verlustbehaftete Codecs zum Erfassen oder Übertragen von Audio verwendet werden, insbesondere wenn Hintergrundgeräusche vorhanden sind. Zu verlustbehafteten Codecs gehören MULAW, AMR, AMR_WB, OGG_OPUS, SPEEX_WITH_HEADER_BYTE, MP3 und WEBM_OPUS.

Die Audiodateiformate FLAC und WAV enthalten einen Header, der den enthaltenen Audioinhalt beschreibt. Sie können die Erkennung für WAV-Dateien anfordern, die mit LINEAR16 oder MULAW codierte Audiodaten enthalten. Wenn Sie in Ihrer Anfrage das Audiodateiformat FLAC oder WAV senden, müssen Sie kein AudioEncoding festlege. Das Audiocodierungsformat wird aus dem Dateiheader bestimmt. Wenn Sie beim Senden von FLAC- oder WAV-Audiodaten eine AudioEncoding angeben, muss die Codierungskonfiguration mit der im Audioheader beschriebenen Codierung übereinstimmen. Andernfalls gibt die Anfrage den Fehlercode google.rpc.Code.INVALID_ARGUMENT zurück.

Enums
ENCODING_UNSPECIFIED Nicht angegeben.
LINEAR16 Unkomprimierte 16-Bit-Little-Endian-Samples mit Vorzeichen (Lineare PCM).
FLAC Als Codierung wird FLAC (Free Lossless Audio Codec) empfohlen, da sie verlustfrei arbeitet, sodass die Erkennung nicht beeinträchtigt wird, und nur etwa halb so viel Bandbreite wie LINEAR16 benötigt. Die Streamcodierung FLAC unterstützt 16-Bit- und 24-Bit-Samples, jedoch werden nicht alle Felder in STREAMINFO unterstützt.
MULAW 8-Bit-Samples zur Kompandierung von 14-Bit-Audiosamples mit G.711 PCMU/mu-law.
AMR Adaptiver Codec für Multi-Rate-Schmalband. sampleRateHertz muss 8.000 betragen.
AMR_WB Adaptiver Codec für Multi-Rate-Breitband. sampleRateHertz muss 16.000 betragen.
OGG_OPUS Opuscodierte Audioframes im Ogg-Container (OggOpus). Die sampleRateHertz muss 8.000, 12.000, 16.000, 24.000 oder 48.000 betragen.
SPEEX_WITH_HEADER_BYTE Die Verwendung verlustbehafteter Codierungen wird zwar nicht empfohlen, aber wenn eine Codierung mit sehr niedriger Bitrate erforderlich ist, ist OGG_OPUS gegenüber einer Speex-Codierung klar vorzuziehen. Die von der Cloud Speech API unterstützte Speex-Codierung hat in jedem Block ein Header-Byte, wie im MIME-Typ audio/x-speex-with-header-byte. Es handelt sich um eine Variante der in RFC 5574 definierten RTP Speex-Codierung. Der Stream besteht aus einer Abfolge von Blöcken, ein Block pro RTP-Paket. Jeder Block beginnt mit einem Byte, aus dem die Länge des Blocks in Byte hervorgeht, gefolgt von einem oder mehreren Frames an Speex-Daten, die gemäß RFC 5574 auf eine ganzzahlige Anzahl von Byte (Oktetten) aufgefüllt werden. Mit anderen Worten, jeder RTP-Header wird durch ein einzelnes Byte ersetzt, aus dem die Blocklänge hervorgeht. Es wird ausschließlich Speex-Breitband unterstützt. sampleRateHertz muss 16.000 sein.
MP3 MP3-Audio. Die MP3-Codierung ist ein Beta-Feature, das nur in v1p1beta1 verfügbar ist. Unterstützt alle gängigen MP3-Bitraten (von 32 bis 320 kbit/s). Bei Verwendung dieser Codierung muss sampleRateHertz mit der Abtastrate der verwendeten Datei übereinstimmen.
WEBM_OPUS Opus-codierte Audioframes in einem WebM-Container (WebM). sampleRateHertz muss 8.000, 12.000, 16.000, 24.000 oder 48.000 betragen.
ALAW 8-Bit-Samples zur Kompandierung von 13-Bit-Audiosamples mit G.711 PCMU/a-law.

SpeechAdaptation

Konfiguration der Sprachanpassung.

JSON-Darstellung
{
  "phraseSets": [
    {
      object (PhraseSet)
    }
  ],
  "phraseSetReferences": [
    string
  ],
  "customClasses": [
    {
      object (CustomClass)
    }
  ],
  "abnfGrammar": {
    object (ABNFGrammar)
  }
}
Felder
phraseSets[]

object (PhraseSet)

Eine Sammlung von Wortgruppensätzen. Wenn Sie die Hinweise inline angeben möchten, lassen Sie das Feld name des Satzes leer und füllen Sie die restlichen Felder aus. Für jeden Satz von Wortgruppen kann jede benutzerdefinierte Klasse verwendet werden.

phraseSetReferences[]

string

Eine Sammlung von Ressourcennamen für Wortgruppen, die verwendet werden sollen.

customClasses[]

object (CustomClass)

Eine Sammlung benutzerdefinierter Klassen. Wenn Sie die Klassen inline angeben möchten, lassen Sie das name der Klasse leer und füllen Sie die restlichen Felder aus. Geben Sie der Klasse ein eindeutiges customClassId. Verweisen Sie in den Hinweisphrasen über customClassId auf die inline definierte Klasse.

abnfGrammar

object (ABNFGrammar)

Die Augmented Backus-Naur Form (ABNF) ist eine standardisierte Grammatiknotation, die aus einer Reihe von Ableitungsregeln besteht. Spezifikationen: https://www.w3.org/TR/speech-grammar

ABNFGrammar

JSON-Darstellung
{
  "abnfStrings": [
    string
  ]
}
Felder
abnfStrings[]

string

Alle Deklarationen und Regeln einer ABNF-Grammatik, die in mehrere Strings aufgeteilt werden, die am Ende verkettet werden.

TranscriptNormalization

Konfiguration der Transkriptionsnormalisierung. Mit der Transkriptnormalisierung können Sie automatisch bestimmte Teile des Transkripts durch von Ihnen ausgewählte Formulierungen ersetzen lassen. Bei StreamingRecognize gilt diese Normalisierung nur für stabile Teiltranskripte (Stabilität > 0, 8) und endgültige Transkripte.

JSON-Darstellung
{
  "entries": [
    {
      object (Entry)
    }
  ]
}
Felder
entries[]

object (Entry)

Eine Liste mit Ersatzeinträgen. Wir werden jeweils einen Eintrag ersetzen. Der zweite Eintrag in ["cat" => "dog", "mountain cat" => "mountain dog"] wird beispielsweise nie angewendet, da der erste Eintrag immer zuerst verarbeitet wird. Maximal 100 Einträge.

Eintrag

Eine einzelne Ersatzkonfiguration.

JSON-Darstellung
{
  "search": string,
  "replace": string,
  "caseSensitive": boolean
}
Felder
search

string

Was ersetzt werden soll. Darf maximal 100 Zeichen lang sein.

replace

string

Wodurch soll sie ersetzt werden? Darf maximal 100 Zeichen lang sein.

caseSensitive

boolean

Gibt an, ob bei der Suche zwischen Groß- und Kleinschreibung unterschieden wird.

SpeechContext

Liefert dem Spracherkennungsmodul "Hinweise" für bestimmte Wörter und Wendungen, die bei den Ergebnissen zu bevorzugen sind.

JSON-Darstellung
{
  "phrases": [
    string
  ],
  "boost": number
}
Felder
phrases[]

string

Eine Liste von Strings, die Wörter und Wortgruppen "Hinweise" enthalten, damit die Spracherkennung sie mit größerer Wahrscheinlichkeit erkennt. Kann zur Verbesserung der Genauigkeit für bestimmte Wörter und Wendungen verwendet werden, z. B. wenn der Nutzer bestimmte Befehle häufig spricht. Lässt sich ebenfalls verwenden, um weitere Wörter zum Vokabular des Erkennungsmoduls hinzuzufügen. Siehe Nutzungsbeschränkungen.

Listenelemente können auch auf Klassen für Wortgruppen festgelegt werden, die gängige Konzepte in natürlicher Sprache darstellen. Anstatt beispielsweise für jeden Monat des Jahres Phrasenhinweise anzugeben, erhöht die Verwendung der Klasse $MONTH die Wahrscheinlichkeit, dass Audio mit Monaten korrekt transkribiert wird.

boost

number

Hinweis-Boost Ein positiver Wert erhöht die Wahrscheinlichkeit, dass eine bestimmte Wortgruppe gegenüber anderen ähnlich klingenden Wortgruppen erkannt wird. Je höher der Boost, desto höher ist auch die Wahrscheinlichkeit einer fälschlichen Erkennung. Negative Boost-Werte entsprechen der Anti-Bias-Funktion. Die Funktion zur Vermeidung von Bias ist nicht aktiviert. Der negative Boost wird daher einfach ignoriert. Für boost kann eine Vielzahl positiver Werte verwendet werden. In den meisten Anwendungsfällen sind jedoch Werte zwischen 0 und 20 am besten geeignet. Wir empfehlen, den optimalen Wert für Ihren Anwendungsfall mithilfe einer binären Suche zu ermitteln.

SpeakerDiarizationConfig

Konfiguration zum Aktivieren der Sprecherbestimmung.

JSON-Darstellung
{
  "enableSpeakerDiarization": boolean,
  "minSpeakerCount": integer,
  "maxSpeakerCount": integer,
  "speakerTag": integer
}
Felder
enableSpeakerDiarization

boolean

Wenn „true“, wird die Sprechererkennung für jedes erkannte Wort in der besten Alternative des Erkennungsergebnisses aktiviert. Dazu wird ein „speakerLabel“ in „WordInfo“ verwendet.

minSpeakerCount

integer

Mindestanzahl der Sprecher in der Unterhaltung. Dieser Bereich bietet Ihnen mehr Flexibilität, da das System die richtige Anzahl der Sprecher automatisch bestimmen kann. Wenn nicht festgelegt, beträgt der Standardwert 2.

maxSpeakerCount

integer

Maximale Anzahl der Sprecher in der Unterhaltung. Dieser Bereich bietet Ihnen mehr Flexibilität, da das System die richtige Anzahl der Sprecher automatisch bestimmen kann. Wenn nicht festgelegt, beträgt der Standardwert 6.

speakerTag
(deprecated)

integer

Nur Ausgabe. nicht in Verwendung.

RecognitionMetadata

Beschreibung der zu erkennenden Audiodaten.

JSON-Darstellung
{
  "interactionType": enum (InteractionType),
  "industryNaicsCodeOfAudio": integer,
  "microphoneDistance": enum (MicrophoneDistance),
  "originalMediaType": enum (OriginalMediaType),
  "recordingDeviceType": enum (RecordingDeviceType),
  "recordingDeviceName": string,
  "originalMimeType": string,
  "obfuscatedId": string,
  "audioTopic": string
}
Felder
interactionType

enum (InteractionType)

Der Anwendungsfall, der die zu erkennenden Audioinhalte am genauesten beschreibt.

industryNaicsCodeOfAudio

integer (uint32 format)

Die vertikale Branche, die auf diese Spracherkennungsanfrage am genauesten zutrifft. Dies ist ein nützlicher Hinweis auf das Thema, um das es in der Audiodatei geht. Geben Sie die vertikale Branche mit dem sechsstelligen NAICS-Code an, siehe https://www.naics.com/search/.

microphoneDistance

enum (MicrophoneDistance)

Der Audiotyp, mit dem sich die zu erkennende Audiodatei am besten beschreiben lässt.

originalMediaType

enum (OriginalMediaType)

Das Medium, auf dem die Sprache ursprünglich aufgezeichnet wurde.

recordingDeviceType

enum (RecordingDeviceType)

Die Art von Gerät, mit dem die Sprache aufgezeichnet wurde.

recordingDeviceName

string

Das für die Aufzeichnung verwendete Gerät. Beispiele: "Nexus 5X", "Polycom SoundStation IP 6000", "POTS", "VoIP" oder "Cardioid Microphone".

originalMimeType

string

MIME-Typ der ursprünglichen Audiodatei. Beispiele: audio/m4a, audio/x-alaw-basic, audio/mp3, audio/3gpp. Eine Liste der möglichen Audio-MIME-Typen finden Sie unter http://www.iana.org/assignments/media-types/media-types.xhtml#audio.

obfuscatedId
(deprecated)

string (int64 format)

Die verschleierte (dem Datenschutz unterliegende) ID des Nutzers. Mit dieser wird die Anzahl der einzelnen Nutzer bestimmt, die den Dienst verwenden.

audioTopic

string

Beschreibung des Inhalts, z. B. "Aufnahmen von Anhörungen des Supreme Courts aus dem Jahr 2012".

InteractionType

Kategorien von Anwendungsfällen, mit denen sich die Anfrage wegen Spracherkennung beschreiben lässt.

Enums
INTERACTION_TYPE_UNSPECIFIED Der Anwendungsfall ist entweder unbekannt oder entspricht nicht einem der anderen unten angegebenen Werte.
DISCUSSION Mehrere Personen in einer Unterhaltung oder Diskussion. Zum Beispiel bei einer Sitzung mit mindestens zwei aktiven Teilnehmern. In der Regel befinden sich alle Hauptsprecher im selben Raum (wenn nicht, siehe PHONE_CALL).
PRESENTATION Mindestens eine Person, die vor anderen einen Vortrag oder eine Präsentation hält, vorwiegend ohne Unterbrechung.
PHONE_CALL Ein Telefonanruf oder eine Videokonferenz mit mindestens zwei aktiven Teilnehmern, die sich nicht im selben Raum befinden.
VOICEMAIL Eine aufgezeichnete Nachricht, die für eine andere Person bestimmt ist.
PROFESSIONALLY_PRODUCED Professionell produzierte Audioinhalte (z. B. Fernsehsendung, Podcast).
VOICE_COMMAND Transkription von Sprachbefehlen, z. B. zum Steuern eines Geräts.
DICTATION Transkription von Sprache zum Erstellen eines schriftlichen Dokuments, z. B. einer Textnachricht, einer E-Mail oder eines Berichts.

MicrophoneDistance

Aufzählung der Arten von Erfassungseinstellungen zur Beschreibung einer Audiodatei.

Enums
MICROPHONE_DISTANCE_UNSPECIFIED Der Audiotyp ist nicht bekannt.
NEARFIELD Die Audiodaten wurden mit einem Aufnahmegerät in geringem Abstand erfasst. Zum Beispiel Telefon, Diktiergerät oder Handmikrofon. In der Regel befindet sich der Sprecher in einem Abstand von höchstens einem Meter zum Mikrofon.
MIDFIELD Der Sprecher befindet sich in einem Abstand von höchstens drei Metern zum Mikrofon.
FARFIELD Der Sprecher befindet sich in einem Abstand von über drei Metern zum Mikrofon.

OriginalMediaType

Das Medium, auf dem die Sprache ursprünglich aufgezeichnet wurde.

Enums
ORIGINAL_MEDIA_TYPE_UNSPECIFIED Ursprünglicher Medientyp unbekannt.
AUDIO Bei den Sprachdaten handelt es sich um eine Audioaufzeichnung.
VIDEO Die Sprachdaten wurden ursprünglich auf Video aufgezeichnet.

RecordingDeviceType

Die Art von Gerät, mit dem die Sprache aufgezeichnet wurde.

Enums
RECORDING_DEVICE_TYPE_UNSPECIFIED Das Aufnahmegerät ist unbekannt.
SMARTPHONE Die Sprache wurde auf einem Smartphone aufgezeichnet.
PC Die Sprache wurde mit einem PC oder Tablet aufgezeichnet.
PHONE_LINE Die Sprache wurde über eine Telefonleitung aufgezeichnet.
VEHICLE Die Sprache wurde in einem Fahrzeug aufgezeichnet.
OTHER_OUTDOOR_DEVICE Die Sprache wurde im Freien aufgezeichnet.
OTHER_INDOOR_DEVICE Die Sprache wurde in einem geschlossenen Raum aufgenommen.