Method: speech.recognize

Führt synchrone Spracherkennung durch: Die Ergebnisse erhalten Sie, wenn alle Audioinhalte gesendet und verarbeitet wurden.

HTTP-Anfrage

POST https://speech.googleapis.com/v1p1beta1/speech:recognize

Die URL verwendet die Syntax der gRPC-Transcodierung.

Anfragetext

Der Anfragetext enthält Daten mit folgender Struktur:

JSON-Darstellung
{
  "config": {
    object (RecognitionConfig)
  },
  "audio": {
    object (RecognitionAudio)
  }
}
Felder
config

object (RecognitionConfig)

Erforderlich. Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung.

audio

object (RecognitionAudio)

Erforderlich. Die zu erkennenden Audiodaten.

Antworttext

Die einzige Nachricht, die von der Methode speech.recognize an den Client zurückgegeben wird. Sie enthält das Ergebnis als null oder mehr aufeinanderfolgende SpeechRecognitionResult-Nachrichten.

Bei Erfolg enthält der Antworttext Daten mit der folgenden Struktur:

JSON-Darstellung
{
  "results": [
    {
      object (SpeechRecognitionResult)
    }
  ],
  "totalBilledTime": string,
  "speechAdaptationInfo": {
    object (SpeechAdaptationInfo)
  },
  "requestId": string,
  "usingLegacyModels": boolean
}
Felder
results[]

object (SpeechRecognitionResult)

Sequenzielle Liste der Transkriptionsergebnisse, die den sequenziellen Teilen einer Audiodatei entsprechen.

totalBilledTime

string (Duration format)

Wenn verfügbar, die abgerechneten Audiosekunden für die entsprechende Anfrage.

Die Dauer in Sekunden mit bis zu neun Nachkommastellen und am Ende mit "s". Beispiel: "3.5s".

speechAdaptationInfo

object (SpeechAdaptationInfo)

Liefert Informationen zum Anpassungsverhalten in der Antwort

requestId

string (int64 format)

Die ID, die der Anfrage zugeordnet ist. Dies ist eine eindeutige ID, die nur für die jeweilige Anfrage gilt.

usingLegacyModels

boolean

Gibt an, ob in der Anfrage Legacy-ASR-Modelle verwendet wurden (die nicht automatisch auf Conformer-Modelle migriert wurden).

Autorisierungsbereiche

Erfordert den folgenden OAuth-Bereich:

  • https://www.googleapis.com/auth/cloud-platform

Weitere Informationen finden Sie unter Authentication Overview.

SpeechRecognitionResult

Ein Spracherkennungsergebnis, das einem Teil der Audiodaten entspricht.

JSON-Darstellung
{
  "alternatives": [
    {
      object (SpeechRecognitionAlternative)
    }
  ],
  "channelTag": integer,
  "resultEndTime": string,
  "languageCode": string
}
Felder
alternatives[]

object (SpeechRecognitionAlternative)

Kann eine oder mehrere Erkennungshypothesen enthalten (bis zum Maximum, das in maxAlternatives angegeben ist). Diese Alternativen sind nach Genauigkeit geordnet. Die beste (erste) Alternative ist dabei der Einstufung des Erkennungsmoduls zufolge die wahrscheinlichste.

channelTag

integer

Bei Mehrkanalaudio ist dies die Kanalnummer, die dem erkannten Ergebnis für die Audiodaten aus diesem Kanal entspricht. Bei audioChannelCount = N können die Ausgangswerte zwischen 1 und N liegen.

resultEndTime

string (Duration format)

Zeitverschiebung des Endes dieses Ergebnisses relativ zum Beginn des Audios.

Die Dauer in Sekunden mit bis zu neun Nachkommastellen und am Ende mit "s". Beispiel: "3.5s".

languageCode

string

Nur Ausgabe. Der Sprachcode BCP-47 der Sprache in diesem Ergebnis. Es wurde erkannt, dass dieser Sprachcode wahrscheinlich in der Audiodatei gesprochen wird.

SpeechRecognitionAlternative

Alternative Hypothesen.

JSON-Darstellung
{
  "transcript": string,
  "confidence": number,
  "words": [
    {
      object (WordInfo)
    }
  ]
}
Felder
transcript

string

Transkriptionstext mit den vom Nutzer gesprochenen Wörtern In Sprachen, in denen Wörter durch Leerzeichen getrennt werden, kann das Transkript ein vorangestelltes Leerzeichen enthalten, wenn es nicht das erste Ergebnis ist. Sie können die einzelnen Ergebnisse verketten, um das vollständige Transkript ohne Trennzeichen zu erhalten.

confidence

number

Eine Konfidenzschätzung zwischen 0,0 und 1,0. Je höher der Wert ist, desto höher ist die geschätzte Wahrscheinlichkeit, dass die Wörter korrekt erkannt wurden. Dieses Feld wird nur für die beste Alternative eines Nicht-Streaming-Ergebnisses oder eines Streaming-Ergebnisses festgelegt, bei dem isFinal=true gilt. Die Genauigkeit dieses Feldes kann nicht garantiert werden und Nutzer sollten sich nicht darauf verlassen, dass es immer zur Verfügung steht. Der Standardwert 0,0 ist ein Sentinel-Wert, der angibt, dass confidence nicht festgelegt wurde.

words[]

object (WordInfo)

Eine Liste von wortspezifischen Informationen zu jedem erkannten Wort. Hinweis: Wenn enableSpeakerDiarization zutrifft, werden alle Wörter ab dem Beginn des Audios angezeigt.

WordInfo

Wortspezifische Informationen zu erkannten Wörtern

JSON-Darstellung
{
  "startTime": string,
  "endTime": string,
  "word": string,
  "confidence": number,
  "speakerTag": integer,
  "speakerLabel": string
}
Felder
startTime

string (Duration format)

Zeitverschiebung, bezogen auf den Beginn der Audiodaten und entsprechend dem Anfang des gesprochenen Worts. Dieses Feld wird nur bei enableWordTimeOffsets=true und nur in der obersten Hypothese festgelegt. Diese Funktion befindet sich in der Entwicklungsphase, sodass die Genauigkeit der Zeitverschiebung variieren kann.

Die Dauer in Sekunden mit bis zu neun Nachkommastellen und am Ende mit "s". Beispiel: "3.5s".

endTime

string (Duration format)

Zeitverschiebung, bezogen auf den Beginn der Audiodaten und entsprechend dem Ende des gesprochenen Worts. Dieses Feld wird nur bei enableWordTimeOffsets=true und nur in der obersten Hypothese festgelegt. Diese Funktion befindet sich in der Entwicklungsphase, sodass die Genauigkeit der Zeitverschiebung variieren kann.

Die Dauer in Sekunden mit bis zu neun Nachkommastellen und am Ende mit "s". Beispiel: "3.5s".

word

string

Das Wort, auf das sich diese Informationen beziehen.

confidence

number

Eine Konfidenzschätzung zwischen 0,0 und 1,0. Je höher der Wert ist, desto höher ist die geschätzte Wahrscheinlichkeit, dass die Wörter korrekt erkannt wurden. Dieses Feld wird nur für die beste Alternative eines Nicht-Streaming-Ergebnisses oder eines Streaming-Ergebnisses festgelegt, bei dem isFinal=true gilt. Die Genauigkeit dieses Feldes kann nicht garantiert werden und Nutzer sollten sich nicht darauf verlassen, dass es immer zur Verfügung steht. Der Standardwert 0,0 ist ein Sentinel-Wert, der angibt, dass confidence nicht festgelegt wurde.

speakerTag
(deprecated)

integer

Nur Ausgabe. Jedem Sprecher in der Audiodatei wird ein bestimmter Ganzzahlwert zugewiesen. Dieses Feld gibt an, welcher dieser Sprecher jenes Wort gesprochen hat. Der Wertebereich reicht von 1 bis diarizationSpeakerCount. speakerTag wird festgelegt, wenn enableSpeakerDiarization = 'true' ist, und nur für die beste Alternative. Hinweis: Verwenden Sie stattdessen „speakerLabel“.

speakerLabel

string

Nur Ausgabe. Ein Labelwert, der jedem einzelnen Sprecher in den Audiodaten zugewiesen wird. Dieses Feld gibt an, welcher Sprecher dieses Wort gesprochen hat. Bei einigen Modellen wie „medical_conversation“ kann dies die tatsächliche Sprecherrolle sein, z. B. „patient“ oder „provider“. In der Regel ist dies jedoch eine Nummer, die einen Sprecher identifiziert. Dieses Feld wird nur festgelegt, wenn „enableSpeakerDiarization“ = „true“ ist, und nur für die beste Alternative.

SpeechAdaptationInfo

Informationen zur Verwendung der Sprachanpassung in Ergebnissen

JSON-Darstellung
{
  "adaptationTimeout": boolean,
  "timeoutMessage": string
}
Felder
adaptationTimeout

boolean

Gibt an, ob beim Anwenden der Sprachanpassung eine Zeitüberschreitung aufgetreten ist. Wenn „true“, hatte die Anpassung keine Auswirkungen auf das Transkript in der Antwort.

timeoutMessage

string

Wenn festgelegt, wird eine Meldung zurückgegeben, die angibt, welcher Teil der Anfrage zur Sprachanpassung das Zeitlimit überschritten hat.