このクイックスタートでは、独自の音声データに対するGoogle Cloud Cloud Speech-to-Text の精度を測定して向上させる方法について説明します。また、音声文字変換の精度を向上させるために API を通じて利用できるさまざまなモデルやオプションについても説明します。 Google Cloud コンソールで Speech-to-Text UI とグラウンド トゥルース ファイルを使用して精度を測定し、Cloud Speech-to-Text システムの分析情報を得る方法について説明します。
ML システムは本質的に不正確性を伴うものであり、自動音声認識(ASR)システム(Cloud Speech-to-Text システム)も例外ではありません。精度の正確な測定は具体的なユースケースや評価対象のシステムと密接に関係し、音声録音の品質や音響条件の違いが精度に大きく影響することがあります。したがって、すべてのお客様やすべてのユースケースに対して 1 つの精度スコアを用意することは現実的ではありません。重要な本番環境システムのパフォーマンスという観点で ASR システムの高い信頼性を確保するには、システムの広い文脈の中で Cloud Speech-to-Text のパフォーマンスを理解することが重要です。
このクイックスタート ガイドでは、業界標準の比較方法であるワードエラー率を使用します(ワードエラー率は WER という略語で表記されます)。WER の計算方法と解釈方法については、音声の精度を測定して改善するをご覧ください。
Google Cloud コンソールを使ってみる
Google Cloud アカウントに登録して、プロジェクトを作成していることを確認します。
- Google Cloud コンソールで [Speech] に移動し、Cloud Speech-to-Text UI に移動します。
- ユースケースや ASR システムの使用方法を音響的に表す音声ファイルを使用して、Cloud Speech-to-Text を使用して最初の音声文字変換を行うためのクイックスタートの手順に沿って操作を行います。
音声文字変換の精度の計算
- 音声ファイルの音声文字変換が完了したら、精度評価のセクションを使用します。音声文字変換の精度が計算されるまで、このセクションは空白です。
- セクションの上部にある [Upload Ground Truth] ボタンを使用すると、精度の計算を開始できます。
グラウンド トゥルースを指定する
- 音声文字変換の精度を計算するには、グラウンド トゥルース ファイルを指定します。 これは TXT ファイルまたは CSV ファイルです。通常は、人間が生成した音声文字変換ファイルであり、比較用として正しい音声文字変換または想定される音声文字変換が含まれています。
gs://cloud-samples-data/speech/brooklyn_bridge.wavを例として使用します。 グラウンド トゥルース ファイルにはHow old is the Brooklyn Bridgeが含まれています。利用可能なグラウンド トゥルース ファイルがない場合は、音声文字変換をテキスト形式でダウンロードすることをおすすめします。必要に応じて、音声文字変換ファイルを編集します。 音声文字変換ファイルをグラウンド トゥルース ファイルとしてアップロードします。- アップロードするか、または既存の Cloud Storage ファイルを使用してグラウンド トゥルース ファイルを指定し、[Save] をクリックします。
グラウンド トゥルースを確認する
- [Save] をクリックすると、指定したグラウンド トゥルース ファイルが正しいことを確認するためのメッセージが表示されます。グラウンド トゥルース ファイルが正しい音声文字変換を正確に表していることを確認してください。これは精度指標に直接影響するためです。
- [Confirm] をクリックして続行します。
評価結果を確認する
- 入力データのサイズによっては評価プロセスに時間がかかることがあります。完了すると、結果が表示されます。
- 評価が完了すると、次のセクションが表示されます。
- [Transcription Accuracy] の表、精度指標、プロセスで使用されたグラウンド トゥルース ファイルへのリンク。
- [
Transcription]。グラウンド トゥルース ファイルと比較するための切り替えボタン、精度の指標の内訳、ハイライトが表示されます。
- 精度の結果を確認して解釈し、改善が必要な領域を特定するために使用されている Cloud Speech-to-Text 認識ツールのパフォーマンスを把握します。この結果は、使用する入力や音声文字変換によって異なります。次の例では、Cloud Speech-to-Text システムを最適化するための貴重な分析情報を提供する精度結果の事例を示しています。
- WER が 0% の例:
Cloud Speech-to-Text の音声文字変換の精度ページのスクリーンショット。特定の文字変換に対して計算された評価結果が 0% のワードエラー率で示されています。 - WER が 40% の例:
Cloud Speech-to-Text の音声文字変換の精度ページのスクリーンショット。特定の文字変換に対して計算された評価結果が 40% のワードエラー率で示されています。
- WER が 0% の例:
オプション: グラウンド トゥルースの更新
既存の音声文字変換に対して別のグラウンド トゥルースを使用してテストするには、別のファイルを再接続し、更新したグラウンド トゥルース ファイルを使用してステップ 3 と 4 を再度行います。
使ってみる
Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Cloud STT のパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
Cloud STT を無料で試す