モデル適応を使用して、Cloud Speech-to-Text から取得する音声文字変換の結果の精度を改善できます。モデル適応を使用すると、音声データで他に提案される候補よりも高い頻度で Cloud STT が認識する必要がある単語やフレーズを指定できます。モデル適応は、特に次のようなユースケースで音声文字変換の精度を改善するうえで有用です。
- 頻繁に出現する可能性が高い単語やフレーズが音声に含まれている。
- まれにしか使用されない単語(固有名詞など)や一般的には使用されない単語が音声に含まれている可能性がある。
- 音声に雑音が入っていたり、はっきりと聞こえない。
このドキュメントを読む前に、モデル適応の概要で、この機能の仕組みの概要を確認してください。モデル適応リクエストごとのフレーズと文字の制限については、割り当てと上限をご覧ください。
コードサンプル
モデル適応は Cloud STT のオプション構成で、必要に応じて音声文字変換の結果をカスタマイズするために使用できます。認識リクエストの本文の構成については、RecognitionConfig のドキュメントをご覧ください。
次のコードサンプルは、SpeechAdaptation リソース(PhraseSet、CustomClass、モデル適応ブースト)を使用して音声文字変換の精度を改善する方法を示しています。将来のリクエストで PhraseSet または CustomClass を使用するには、リソース作成時にレスポンスで返されたリソース name をメモします。
ご使用の言語で利用可能なビルド済みクラスの一覧については、サポートされているクラストークンをご覧ください。
Python
Cloud STT 用のクライアント ライブラリをインストールして使用する方法については、Cloud STT クライアント ライブラリをご覧ください。詳細については、Cloud STT Python API のリファレンス ドキュメントをご覧ください。
Cloud STT に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。