- HTTP リクエスト
- リクエストの本文
- レスポンスの本文
- 認可スコープ
- SpeechRecognitionResult
- SpeechRecognitionAlternative
- WordInfo
- SpeechAdaptationInfo
- 試してみる
同期音声認識を実行します。すべての音声が送信されて処理された後に結果を受信します。
HTTP リクエスト
POST https://speech.googleapis.com/v1p1beta1/speech:recognize
この URL は gRPC Transcoding 構文を使用します。
リクエストの本文
リクエストの本文には、次の構造のデータが含まれます。
| JSON 表現 |
|---|
{ "config": { object ( |
| フィールド | |
|---|---|
config |
必須。認識機能にリクエストの処理方法を指定する情報を提供します。 |
audio |
必須。認識する音声データ。 |
レスポンスの本文
speech.recognize メソッドによってクライアントに返される唯一のメッセージ。結果は、0 個以上の連続した SpeechRecognitionResult メッセージとして含まれます。
成功した場合、レスポンスの本文には次の構造のデータが含まれます。
| JSON 表現 |
|---|
{ "results": [ { object ( |
| フィールド | |
|---|---|
results[] |
音声の連続する部分に対応する音声文字変換結果の連続するリスト。 |
totalBilledTime |
対応するリクエストの課金対象音声秒数(利用可能な場合)。
|
speechAdaptationInfo |
レスポンスの適応動作に関する情報を提供します |
requestId |
リクエストに関連付けられた ID。これは、特定のリクエストに固有の一意の ID です。 |
usingLegacyModels |
リクエストで以前の ASR モデルが使用されたかどうか(コンフォーマー モデルを使用するように自動的に移行されなかったかどうか)。 |
認可スコープ
次の OAuth スコープが必要です。
https://www.googleapis.com/auth/cloud-platform
詳細については、Authentication Overview をご覧ください。
SpeechRecognitionResult
音声の一部に対応する音声認識の結果。
| JSON 表現 |
|---|
{
"alternatives": [
{
object ( |
| フィールド | |
|---|---|
alternatives[] |
1 つ以上の認識仮説( |
channelTag |
マルチチャンネル音声の場合、これはそのチャンネルからの音声の認識結果に対応するチャンネル番号です。 audioChannelCount = N の場合、出力値の範囲は「1」から「N」までです。 |
resultEndTime |
音声の先頭から相対的な、この結果の終了時点の時間オフセット。
|
languageCode |
出力専用。この結果の言語の BCP-47 言語タグ。この言語コードは、音声内で話された可能性が高いと検出されたものです。 |
SpeechRecognitionAlternative
別の仮説(n-best リストとも呼ばれる)。
| JSON 表現 |
|---|
{
"transcript": string,
"confidence": number,
"words": [
{
object ( |
| フィールド | |
|---|---|
transcript |
ユーザーが話した単語を表す音声文字変換テキスト。単語をスペースで区切る言語では、最初の結果でない場合、文字起こしの先頭にスペースが含まれることがあります。区切り文字を使用せずに、各結果を連結して完全な文字起こしを取得できます。 |
confidence |
信頼度の推定値は 0.0~1.0。数値が大きいほど、認識された単語が正しい可能性が高くなります。このフィールドは、ストリーミング以外の結果の最上位の候補、または |
words[] |
認識された各単語の、単語固有の情報のリスト。注: |
WordInfo
認識された単語の単語固有の情報。
| JSON 表現 |
|---|
{ "startTime": string, "endTime": string, "word": string, "confidence": number, "speakerTag": integer, "speakerLabel": string } |
| フィールド | |
|---|---|
startTime |
単語の発話の開始時点に対応する、音声の先頭からの相対的な時間オフセット。このフィールドは、
|
endTime |
単語の発話の終了時点に対応する、音声の先頭からの相対的な時間オフセット。このフィールドは、
|
word |
この情報セットに対応する単語。 |
confidence |
信頼度の推定値は 0.0~1.0。数値が大きいほど、認識された単語が正しい可能性が高くなります。このフィールドは、ストリーミング以外の結果の最上位の候補、または |
speakerTag |
出力専用。個別の整数値が音声内のすべての話者に割り当てられます。このフィールドは、この単語を発したと検出されたのが、話者のうちの誰であるかを指定します。値の範囲は「1」から diarizationSpeakerCount までです。speakerTag は、enableSpeakerDiarization =「true」の場合に、上位の変換候補に対してのみ設定されます。注: 代わりに speakerLabel を使用してください。 |
speakerLabel |
出力専用。音声内の各話者に割り当てられたラベル値。このフィールドには、この単語を発話したと検出された話者を指定します。medical_conversation などの一部のモデルでは、これは実際の話者の役割(「患者」や「医療従事者」など)になりますが、通常は話者を識別する数値になります。このフィールドは、enableSpeakerDiarization = 'true' の場合にのみ、最上位の候補に対してのみ設定されます。 |
SpeechAdaptationInfo
結果での音声適応の使用に関する情報
| JSON 表現 |
|---|
{ "adaptationTimeout": boolean, "timeoutMessage": string } |
| フィールド | |
|---|---|
adaptationTimeout |
音声適応の適用時にタイムアウトが発生したかどうか。true の場合、レスポンスの音声文字変換に適合は影響しませんでした。 |
timeoutMessage |
設定されている場合、音声適応リクエストのどの部分がタイムアウトしたかを指定するメッセージを返します。 |