Method: speech.recognize

同期音声認識を実行します。すべての音声が送信されて処理された後に結果を受信します。

HTTP リクエスト

POST https://speech.googleapis.com/v1p1beta1/speech:recognize

この URL は gRPC Transcoding 構文を使用します。

リクエストの本文

リクエストの本文には、次の構造のデータが含まれます。

JSON 表現
{
  "config": {
    object (RecognitionConfig)
  },
  "audio": {
    object (RecognitionAudio)
  }
}
フィールド
config

object (RecognitionConfig)

必須。認識機能にリクエストの処理方法を指定する情報を提供します。

audio

object (RecognitionAudio)

必須。認識する音声データ。

レスポンスの本文

speech.recognize メソッドによってクライアントに返される唯一のメッセージ。結果は、0 個以上の連続した SpeechRecognitionResult メッセージとして含まれます。

成功した場合、レスポンスの本文には次の構造のデータが含まれます。

JSON 表現
{
  "results": [
    {
      object (SpeechRecognitionResult)
    }
  ],
  "totalBilledTime": string,
  "speechAdaptationInfo": {
    object (SpeechAdaptationInfo)
  },
  "requestId": string,
  "usingLegacyModels": boolean
}
フィールド
results[]

object (SpeechRecognitionResult)

音声の連続する部分に対応する音声文字変換結果の連続するリスト。

totalBilledTime

string (Duration format)

対応するリクエストの課金対象音声秒数(利用可能な場合)。

s で終わる小数点以下 9 桁までの秒単位の期間。例: "3.5s"

speechAdaptationInfo

object (SpeechAdaptationInfo)

レスポンスの適応動作に関する情報を提供します

requestId

string (int64 format)

リクエストに関連付けられた ID。これは、特定のリクエストに固有の一意の ID です。

usingLegacyModels

boolean

リクエストで以前の ASR モデルが使用されたかどうか(コンフォーマー モデルを使用するように自動的に移行されなかったかどうか)。

認可スコープ

次の OAuth スコープが必要です。

  • https://www.googleapis.com/auth/cloud-platform

詳細については、Authentication Overview をご覧ください。

SpeechRecognitionResult

音声の一部に対応する音声認識の結果。

JSON 表現
{
  "alternatives": [
    {
      object (SpeechRecognitionAlternative)
    }
  ],
  "channelTag": integer,
  "resultEndTime": string,
  "languageCode": string
}
フィールド
alternatives[]

object (SpeechRecognitionAlternative)

1 つ以上の認識仮説(maxAlternatives で指定された最大数まで)を含む場合があります。これらの候補は精度順に並べられ、上位(最初)の候補は、認識ツールによってランク付けされた最も可能性の高い候補です。

channelTag

integer

マルチチャンネル音声の場合、これはそのチャンネルからの音声の認識結果に対応するチャンネル番号です。 audioChannelCount = N の場合、出力値の範囲は「1」から「N」までです。

resultEndTime

string (Duration format)

音声の先頭から相対的な、この結果の終了時点の時間オフセット。

s で終わる小数点以下 9 桁までの秒単位の期間。例: "3.5s"

languageCode

string

出力専用。この結果の言語の BCP-47 言語タグ。この言語コードは、音声内で話された可能性が高いと検出されたものです。

SpeechRecognitionAlternative

別の仮説(n-best リストとも呼ばれる)。

JSON 表現
{
  "transcript": string,
  "confidence": number,
  "words": [
    {
      object (WordInfo)
    }
  ]
}
フィールド
transcript

string

ユーザーが話した単語を表す音声文字変換テキスト。単語をスペースで区切る言語では、最初の結果でない場合、文字起こしの先頭にスペースが含まれることがあります。区切り文字を使用せずに、各結果を連結して完全な文字起こしを取得できます。

confidence

number

信頼度の推定値は 0.0~1.0。数値が大きいほど、認識された単語が正しい可能性が高くなります。このフィールドは、ストリーミング以外の結果の最上位の候補、または isFinal=true のストリーミング結果の最上位の候補に対してのみ設定されます。このフィールドは正確であることが保証されていません。また、ユーザーはこのフィールドが常に提供されることを前提にしないでください。デフォルトの 0.0 は、confidence が設定されなかったことを示す標識値です。

words[]

object (WordInfo)

認識された各単語の、単語固有の情報のリスト。注: enableSpeakerDiarization が true の場合、音声の最初からすべての単語が表示されます。

WordInfo

認識された単語の単語固有の情報。

JSON 表現
{
  "startTime": string,
  "endTime": string,
  "word": string,
  "confidence": number,
  "speakerTag": integer,
  "speakerLabel": string
}
フィールド
startTime

string (Duration format)

単語の発話の開始時点に対応する、音声の先頭からの相対的な時間オフセット。このフィールドは、enableWordTimeOffsets=true であり、かつ最上位の仮説にのみ設定されます。これは試験運用中の機能であり、時間オフセットの精度は変更される可能性があります。

s で終わる小数点以下 9 桁までの秒単位の期間。例: "3.5s"

endTime

string (Duration format)

単語の発話の終了時点に対応する、音声の先頭からの相対的な時間オフセット。このフィールドは、enableWordTimeOffsets=true であり、かつ最上位の仮説にのみ設定されます。これは試験運用中の機能であり、時間オフセットの精度は変更される可能性があります。

s で終わる小数点以下 9 桁までの秒単位の期間。例: "3.5s"

word

string

この情報セットに対応する単語。

confidence

number

信頼度の推定値は 0.0~1.0。数値が大きいほど、認識された単語が正しい可能性が高くなります。このフィールドは、ストリーミング以外の結果の最上位の候補、または isFinal=true のストリーミング結果の最上位の候補に対してのみ設定されます。このフィールドは正確であることが保証されていません。また、ユーザーはこのフィールドが常に提供されることを前提にしないでください。デフォルトの 0.0 は、confidence が設定されなかったことを示す標識値です。

speakerTag
(deprecated)

integer

出力専用。個別の整数値が音声内のすべての話者に割り当てられます。このフィールドは、この単語を発したと検出されたのが、話者のうちの誰であるかを指定します。値の範囲は「1」から diarizationSpeakerCount までです。speakerTag は、enableSpeakerDiarization =「true」の場合に、上位の変換候補に対してのみ設定されます。注: 代わりに speakerLabel を使用してください。

speakerLabel

string

出力専用。音声内の各話者に割り当てられたラベル値。このフィールドには、この単語を発話したと検出された話者を指定します。medical_conversation などの一部のモデルでは、これは実際の話者の役割(「患者」や「医療従事者」など)になりますが、通常は話者を識別する数値になります。このフィールドは、enableSpeakerDiarization = 'true' の場合にのみ、最上位の候補に対してのみ設定されます。

SpeechAdaptationInfo

結果での音声適応の使用に関する情報

JSON 表現
{
  "adaptationTimeout": boolean,
  "timeoutMessage": string
}
フィールド
adaptationTimeout

boolean

音声適応の適用時にタイムアウトが発生したかどうか。true の場合、レスポンスの音声文字変換に適合は影響しませんでした。

timeoutMessage

string

設定されている場合、音声適応リクエストのどの部分がタイムアウトしたかを指定するメッセージを返します。