このページでは、Cloud Speech-to-Text に音声文字変換リクエストを送信するときに拡張音声認識モデルを指定する方法について説明します。
電話通話モデルと動画モデルの 2 つの拡張モデルがあります。これらのモデルは、これらの特定のソースの音声データをより正確に文字変換できるように最適化されています。サポート対象言語のページで、拡張モデルがご希望の言語で使用可能かを確認してください。
Google では、データロギングを介して収集されたデータに基づいて拡張モデルを作成し、改善しています。拡張モデルを使用するためにデータロギングを有効にする必要はありませんが、有効にすれば、Google のこうしたモデル改善の取り組みにご協力いただくことになり、使用料も割引となります。
拡張認識モデルを使用するには、RecognitionConfig で、次のフィールドを設定します。
useEnhancedをtrueに設定します。modelフィールドにphone_callまたはvideoの文字列を渡します。
Cloud STT では、speech:recognize、speech:longrunningrecognize、Streaming のすべての音声認識方法の拡張モデルをサポートしています。
次のサンプルコードは、音声文字変換リクエストで拡張モデルの使用を指定する方法を示しています。
プロトコル
詳細については、speech:recognize API エンドポイントをご覧ください。
同期音声認識を実行するには、POST リクエストを作成し、適切なリクエスト本文を指定します。次は、curl を使用した POST リクエストの例です。この例では、Google Cloud CLI を使用してアクセス トークンを生成します。gcloud CLI のインストール手順については、クイックスタートをご覧ください。
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "enableWordTimeOffsets": false, "enableAutomaticPunctuation": true, "model": "phone_call", "useEnhanced": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }'
リクエスト本文の構成の詳細については、RecognitionConfig のリファレンス ドキュメントをご覧ください。
リクエストが成功すると、サーバーは 200 OK HTTP ステータス コードと JSON 形式のレスポンスを返します。
{
"results": [
{
"alternatives": [
{
"transcript": "Hi, I'd like to buy a Chromecast. I was wondering whether you could help me with that.",
"confidence": 0.8930228
}
],
"resultEndTime": "5.640s"
},
{
"alternatives": [
{
"transcript": " Certainly, which color would you like? We are blue black and red.",
"confidence": 0.9101991
}
],
"resultEndTime": "10.220s"
},
{
"alternatives": [
{
"transcript": " Let's go with the black one.",
"confidence": 0.8818244
}
],
"resultEndTime": "13.870s"
},
{
"alternatives": [
{
"transcript": " Would you like the new Chromecast Ultra model or the regular Chromecast?",
"confidence": 0.94733626
}
],
"resultEndTime": "18.460s"
},
{
"alternatives": [
{
"transcript": " Regular Chromecast is fine. Thank you. Okay. Sure. Would you like to ship it regular or Express?",
"confidence": 0.9519095
}
],
"resultEndTime": "25.930s"
},
{
"alternatives": [
{
"transcript": " Express, please.",
"confidence": 0.9101229
}
],
"resultEndTime": "28.260s"
},
{
"alternatives": [
{
"transcript": " Terrific. It's on the way. Thank you. Thank you very much. Bye.",
"confidence": 0.9321616
}
],
"resultEndTime": "34.150s"
}
]
}
Go
Cloud STT 用のクライアント ライブラリをインストールして使用する方法については、Cloud STT クライアント ライブラリをご覧ください。詳細については、Cloud STT Go API のリファレンス ドキュメントをご覧ください。
Cloud STT に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Python
Cloud STT 用のクライアント ライブラリをインストールして使用する方法については、Cloud STT クライアント ライブラリをご覧ください。詳細については、Cloud STT Python API のリファレンス ドキュメントをご覧ください。
Cloud STT に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Java
Cloud STT 用のクライアント ライブラリをインストールして使用する方法については、Cloud STT クライアント ライブラリをご覧ください。詳細については、Cloud STT Java API のリファレンス ドキュメントをご覧ください。
Cloud STT に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Node.js
Cloud STT 用のクライアント ライブラリをインストールして使用する方法については、Cloud STT クライアント ライブラリをご覧ください。詳細については、Cloud STT Node.js API のリファレンス ドキュメントをご覧ください。
Cloud STT に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud STT リファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud STT リファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud STT リファレンス ドキュメントをご覧ください。
次のステップ
同期音声文字変換をリクエストする方法を確認する。