- HTTP-Anfrage
- Anfragetext
- Antworttext
- Autorisierungsbereiche
- SpeechRecognitionResult
- SpeechRecognitionAlternative
- WordInfo
- SpeechAdaptationInfo
- Testen!
Führt synchrone Spracherkennung durch: Die Ergebnisse erhalten Sie, wenn alle Audioinhalte gesendet und verarbeitet wurden.
HTTP-Anfrage
POST https://speech.googleapis.com/v1p1beta1/speech:recognize
Die URL verwendet die Syntax der gRPC-Transcodierung.
Anfragetext
Der Anfragetext enthält Daten mit folgender Struktur:
| JSON-Darstellung |
|---|
{ "config": { object ( |
| Felder | |
|---|---|
config |
Erforderlich. Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung. |
audio |
Erforderlich. Die zu erkennenden Audiodaten. |
Antworttext
Die einzige Nachricht, die von der Methode speech.recognize an den Client zurückgegeben wird. Sie enthält das Ergebnis als null oder mehr aufeinanderfolgende SpeechRecognitionResult-Nachrichten.
Bei Erfolg enthält der Antworttext Daten mit der folgenden Struktur:
| JSON-Darstellung |
|---|
{ "results": [ { object ( |
| Felder | |
|---|---|
results[] |
Sequenzielle Liste der Transkriptionsergebnisse, die den sequenziellen Teilen einer Audiodatei entsprechen. |
totalBilledTime |
Wenn verfügbar, die abgerechneten Audiosekunden für die entsprechende Anfrage. Die Dauer in Sekunden mit bis zu neun Nachkommastellen und am Ende mit " |
speechAdaptationInfo |
Liefert Informationen zum Anpassungsverhalten in der Antwort |
requestId |
Die ID, die der Anfrage zugeordnet ist. Dies ist eine eindeutige ID, die nur für die jeweilige Anfrage gilt. |
usingLegacyModels |
Gibt an, ob in der Anfrage Legacy-ASR-Modelle verwendet wurden (die nicht automatisch auf Conformer-Modelle migriert wurden). |
Autorisierungsbereiche
Erfordert den folgenden OAuth-Bereich:
https://www.googleapis.com/auth/cloud-platform
Weitere Informationen finden Sie unter Authentication Overview.
SpeechRecognitionResult
Ein Spracherkennungsergebnis, das einem Teil der Audiodaten entspricht.
| JSON-Darstellung |
|---|
{
"alternatives": [
{
object ( |
| Felder | |
|---|---|
alternatives[] |
Kann eine oder mehrere Erkennungshypothesen enthalten (bis zum Maximum, das in |
channelTag |
Bei Mehrkanalaudio ist dies die Kanalnummer, die dem erkannten Ergebnis für die Audiodaten aus diesem Kanal entspricht. Bei audioChannelCount = N können die Ausgangswerte zwischen 1 und N liegen. |
resultEndTime |
Zeitverschiebung des Endes dieses Ergebnisses relativ zum Beginn des Audios. Die Dauer in Sekunden mit bis zu neun Nachkommastellen und am Ende mit " |
languageCode |
Nur Ausgabe. Der Sprachcode BCP-47 der Sprache in diesem Ergebnis. Es wurde erkannt, dass dieser Sprachcode wahrscheinlich in der Audiodatei gesprochen wird. |
SpeechRecognitionAlternative
Alternative Hypothesen.
| JSON-Darstellung |
|---|
{
"transcript": string,
"confidence": number,
"words": [
{
object ( |
| Felder | |
|---|---|
transcript |
Transkriptionstext mit den vom Nutzer gesprochenen Wörtern In Sprachen, in denen Wörter durch Leerzeichen getrennt werden, kann das Transkript ein vorangestelltes Leerzeichen enthalten, wenn es nicht das erste Ergebnis ist. Sie können die einzelnen Ergebnisse verketten, um das vollständige Transkript ohne Trennzeichen zu erhalten. |
confidence |
Eine Konfidenzschätzung zwischen 0,0 und 1,0. Je höher der Wert ist, desto höher ist die geschätzte Wahrscheinlichkeit, dass die Wörter korrekt erkannt wurden. Dieses Feld wird nur für die beste Alternative eines Nicht-Streaming-Ergebnisses oder eines Streaming-Ergebnisses festgelegt, bei dem |
words[] |
Eine Liste von wortspezifischen Informationen zu jedem erkannten Wort. Hinweis: Wenn |
WordInfo
Wortspezifische Informationen zu erkannten Wörtern
| JSON-Darstellung |
|---|
{ "startTime": string, "endTime": string, "word": string, "confidence": number, "speakerTag": integer, "speakerLabel": string } |
| Felder | |
|---|---|
startTime |
Zeitverschiebung, bezogen auf den Beginn der Audiodaten und entsprechend dem Anfang des gesprochenen Worts. Dieses Feld wird nur bei Die Dauer in Sekunden mit bis zu neun Nachkommastellen und am Ende mit " |
endTime |
Zeitverschiebung, bezogen auf den Beginn der Audiodaten und entsprechend dem Ende des gesprochenen Worts. Dieses Feld wird nur bei Die Dauer in Sekunden mit bis zu neun Nachkommastellen und am Ende mit " |
word |
Das Wort, auf das sich diese Informationen beziehen. |
confidence |
Eine Konfidenzschätzung zwischen 0,0 und 1,0. Je höher der Wert ist, desto höher ist die geschätzte Wahrscheinlichkeit, dass die Wörter korrekt erkannt wurden. Dieses Feld wird nur für die beste Alternative eines Nicht-Streaming-Ergebnisses oder eines Streaming-Ergebnisses festgelegt, bei dem |
speakerTag |
Nur Ausgabe. Jedem Sprecher in der Audiodatei wird ein bestimmter Ganzzahlwert zugewiesen. Dieses Feld gibt an, welcher dieser Sprecher jenes Wort gesprochen hat. Der Wertebereich reicht von 1 bis diarizationSpeakerCount. speakerTag wird festgelegt, wenn enableSpeakerDiarization = 'true' ist, und nur für die beste Alternative. Hinweis: Verwenden Sie stattdessen „speakerLabel“. |
speakerLabel |
Nur Ausgabe. Ein Labelwert, der jedem einzelnen Sprecher in den Audiodaten zugewiesen wird. Dieses Feld gibt an, welcher Sprecher dieses Wort gesprochen hat. Bei einigen Modellen wie „medical_conversation“ kann dies die tatsächliche Sprecherrolle sein, z. B. „patient“ oder „provider“. In der Regel ist dies jedoch eine Nummer, die einen Sprecher identifiziert. Dieses Feld wird nur festgelegt, wenn „enableSpeakerDiarization“ = „true“ ist, und nur für die beste Alternative. |
SpeechAdaptationInfo
Informationen zur Verwendung der Sprachanpassung in Ergebnissen
| JSON-Darstellung |
|---|
{ "adaptationTimeout": boolean, "timeoutMessage": string } |
| Felder | |
|---|---|
adaptationTimeout |
Gibt an, ob beim Anwenden der Sprachanpassung eine Zeitüberschreitung aufgetreten ist. Wenn „true“, hatte die Anpassung keine Auswirkungen auf das Transkript in der Antwort. |
timeoutMessage |
Wenn festgelegt, wird eine Meldung zurückgegeben, die angibt, welcher Teil der Anfrage zur Sprachanpassung das Zeitlimit überschritten hat. |