Cloud Speech-to-Text を初めて使用する場合は、V2 API を使用してください。既存のプロジェクトを最新バージョンに移行する方法については、移行ガイドをご覧ください。

精度の測定と向上

このクイックスタートでは、独自の音声データに対するGoogle Cloud Cloud Speech-to-Text の精度を測定して向上させる方法について説明します。また、音声文字変換の精度を向上させるために API を通じて利用できるさまざまなモデルやオプションについても説明します。 Google Cloud コンソールで Speech-to-Text UI とグラウンドトゥルースファイルを使用して精度を測定し、Cloud Speech-to-Text システムの分析情報を得る方法について説明します。

ML システムは本質的に不正確性を伴うものであり、自動音声認識（ASR）システム（Cloud Speech-to-Text システム）も例外ではありません。精度の正確な測定は具体的なユースケースや評価対象のシステムと密接に関係し、音声録音の品質や音響条件の違いが精度に大きく影響することがあります。したがって、すべてのお客様やすべてのユースケースに対して 1 つの精度スコアを用意することは現実的ではありません。重要な本番環境システムのパフォーマンスという観点で ASR システムの高い信頼性を確保するには、システムの広い文脈の中で Cloud Speech-to-Text のパフォーマンスを理解することが重要です。

このクイックスタートガイドでは、業界標準の比較方法であるワードエラー率を使用します（ワードエラー率は WER という略語で表記されます）。WER の計算方法と解釈方法については、音声の精度を測定して改善するをご覧ください。

Google Cloud コンソールを使ってみる

このタスクに必要な権限

このタスクを行うには、次の権限が必要です。

storage.buckets.get
storage.buckets.list

プロジェクトレベルまたはバケットレベル:

storage.objects.create
storage.objects.get
storage.objects.list
storage.objects.update

Google Cloud アカウントに登録して、プロジェクトを作成していることを確認します。

Google Cloud コンソールで [Speech] に移動し、Cloud Speech-to-Text UI に移動します。
ユースケースや ASR システムの使用方法を音響的に表す音声ファイルを使用して、Cloud Speech-to-Text を使用して最初の音声文字変換を行うためのクイックスタートの手順に沿って操作を行います。

音声文字変換の精度の計算

音声ファイルの音声文字変換が完了したら、精度評価のセクションを使用します。音声文字変換の精度が計算されるまで、このセクションは空白です。
セクションの上部にある [Upload Ground Truth] ボタンを使用すると、精度の計算を開始できます。

音声文字変換の精度セクションと [Upload Ground Truth] ボタンがハイライト表示されている、Cloud Speech-to-Text の音声文字変換の詳細ページ。

グラウンドトゥルースを指定する

音声文字変換の精度を計算するには、グラウンドトゥルースファイルを指定します。これは TXT ファイルまたは CSV ファイルです。通常は、人間が生成した音声文字変換ファイルであり、比較用として正しい音声文字変換または想定される音声文字変換が含まれています。
gs://cloud-samples-data/speech/brooklyn_bridge.wav を例として使用します。グラウンドトゥルースファイルには How old is the Brooklyn Bridge が含まれています。利用可能なグラウンドトゥルースファイルがない場合は、音声文字変換をテキスト形式でダウンロードすることをおすすめします。必要に応じて、音声文字変換ファイルを編集します。音声文字変換ファイルをグラウンドトゥルースファイルとしてアップロードします。
アップロードするか、または既存の Cloud Storage ファイルを使用してグラウンドトゥルースファイルを指定し、[Save] をクリックします。

グラウンドトゥルースファイルを選択またはアップロードするオプションを示す、Cloud Speech-to-Text の音声文字変換作成ページ。

グラウンドトゥルースを確認する

[Save] をクリックすると、指定したグラウンドトゥルースファイルが正しいことを確認するためのメッセージが表示されます。グラウンドトゥルースファイルが正しい音声文字変換を正確に表していることを確認してください。これは精度指標に直接影響するためです。
[Confirm] をクリックして続行します。

アップロードしたグラウンドトゥルースファイルのコンテンツを示す Cloud Speech-to-Text の音声文字変換ページ。

評価結果を確認する

入力データのサイズによっては評価プロセスに時間がかかることがあります。完了すると、結果が表示されます。
評価が完了すると、次のセクションが表示されます。
- [Transcription Accuracy] の表、精度指標、プロセスで使用されたグラウンドトゥルースファイルへのリンク。
- [Transcription]。グラウンドトゥルースファイルと比較するための切り替えボタン、精度の指標の内訳、ハイライトが表示されます。
精度の結果を確認して解釈し、改善が必要な領域を特定するために使用されている Cloud Speech-to-Text 認識ツールのパフォーマンスを把握します。この結果は、使用する入力や音声文字変換によって異なります。次の例では、Cloud Speech-to-Text システムを最適化するための貴重な分析情報を提供する精度結果の事例を示しています。
- WER が 0% の例:
  
  Cloud Speech-to-Text の音声文字変換の精度ページのスクリーンショット。特定の文字変換に対して計算された評価結果が 0% のワードエラー率で示されています。
- WER が 40% の例:
  
  Cloud Speech-to-Text の音声文字変換の精度ページのスクリーンショット。特定の文字変換に対して計算された評価結果が 40% のワードエラー率で示されています。

オプション: グラウンドトゥルースの更新

既存の音声文字変換に対して別のグラウンドトゥルースを使用してテストするには、別のファイルを再接続し、更新したグラウンドトゥルースファイルを使用してステップ 3 と 4 を再度行います。

使ってみる

Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Cloud STT のパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。

Cloud STT を無料で試す

精度の測定と向上 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。