本頁面由 Cloud Translation API 翻譯而成。

評估及改善語音辨識準確度

總覽

自動語音辨識 (ASR) 又稱機器轉錄或語音轉文字 (STT)，這項技術會運用機器學習，將含有語音的音訊轉錄為文字。ASR 的應用範圍十分廣泛，包括字幕、虛擬助理、互動式語音回應 (IVR) 和聽寫等。不過，機器學習系統很少能達到 100% 準確度，ASR 也不例外。如果打算在重要系統中使用 ASR，請務必評估其準確度或整體品質，瞭解 ASR 在整合系統中的成效。

測量準確度後，您可以調整系統，在特定情況下提供更高的準確度。在 Google 的 Cloud Speech-to-Text API 中，您可以選擇最合適的辨識模型，並使用 Speech Adaptation API 調整準確度。我們提供各種模型，可因應不同用途，例如長篇音訊、醫療或電話對話。

定義語音準確度

語音準確度可透過多種方式評估。視需求而定，您或許可以採用多個指標。不過，業界標準的比較方法是字詞錯誤率 (WER)，通常簡稱為 WER。WER 會評估整組轉錄內容中錯誤字詞的百分比。WER 越低，代表系統越準確。

您也可能會在 ASR 準確度的脈絡中看到「基準真相」一詞。基準真相是 100% 準確的轉錄稿 (通常由人工提供)，可用於比較和計算準確率。

字詞錯誤率 (WER)

WER 是三種轉錄錯誤的組合，可能發生的錯誤如下：

插入錯誤 (I)：假設轉錄稿中出現，但基準真相檔案中不存在的字詞。
替代錯誤 (S)：假設和基準真相檔案中都有的字詞，但轉錄內容不正確。
刪除錯誤 (D)：假設中缺少但基準真相中有的字詞。

\[WER = {S+R+Q \over N}\]

如要找出 WER，請將每種錯誤的總數加總，然後除以基準真相轉錄稿中的總字詞數 (N)。如果準確度極低 (例如插入大量新文字)，WER 可能會超過 100%。注意：替代基本上是先刪除再插入，且部分替代的嚴重程度較低。舉例來說，替換單一字母與替換單字可能會有差異。

WER 與可信度分數的關係

WER 指標與信賴分數無關，通常也不會相互關聯。可信度分數是根據可能性計算，而 WER 則是根據字詞是否正確辨識計算。如果系統無法正確辨識字詞，即使是微小的文法錯誤，也可能導致 WER 偏高。如果字詞辨識正確，WER 就會偏低，但如果字詞不常出現或音訊噪音過多，可信度仍可能偏低。

同樣地，如果某個字詞經常使用，ASR 就很可能正確轉錄，進而提高信賴度分數。舉例來說，如果系統辨識出「I」和「eye」之間的差異，由於「I」是較常用的字，因此可能會出現高信賴度，但 WER 指標會因此降低。

總而言之，信賴度和 WER 指標彼此獨立，不應預期會相互關聯。

正規化

計算 WER 指標時，系統會比較機器轉錄內容與人工提供的基準真相轉錄內容。比較前，系統會先將兩份轉錄稿的文字標準化，比較機器轉錄內容與人工提供的真值轉錄內容時，系統會移除標點符號並忽略大小寫。

真值慣例

請務必瞭解，任何音訊都不會只有一種人為認可的轉錄格式。有許多面向需要考慮。舉例來說，音訊可能包含其他非語音的發聲，例如「嗯」、「是」、「嗯」。部分 Cloud STT 模型 (例如「medical_conversation」) 會納入這些發聲內容，其他模型則不會。因此，實際資料慣例必須與所評估模型的慣例相符。以下是準備特定音訊的正確轉錄文字時，所使用的高階準則。

除了標準字母，您也可以使用數字 0 到 9。
請勿使用「@」、「#」、「$」、「.」等符號，請改用「at」、「hash」、「dollar」、「dot」等字詞。
使用「%」，但前面必須有數字；否則請使用「百分比」一詞。
只有在「\$」後方接續數字時，才可使用「\$」，例如「牛奶 \$3.99」。
請使用文字表示小於 10 的數字，
- 例如：「我有四隻貓和十二頂帽子。」
請使用數字表示測量單位、貨幣，以及百萬、十億或兆等大型因子。例如「750 萬」，而非「七百五十萬」。
請勿在下列情況使用縮寫：

建議做法不建議的做法

勇士對湖人勇士對湖人

我住在桂林路 1 號我住在凱達格蘭大道 1 號

建議做法	不建議的做法
勇士對湖人	勇士對湖人
我住在桂林路 1 號	我住在凱達格蘭大道 1 號

評估語音準確度

如要開始使用音訊判斷準確度，請按照下列步驟操作：

收集測試音訊檔案

收集具代表性的音訊檔案樣本，評估音訊品質。這個樣本應隨機產生，且盡可能接近目標環境。舉例來說，如果您想轉錄電話中心對話，以協助確保通話品質，請隨機選取幾通實際通話，這些通話必須透過與製作音訊相同的設備錄製。如果音訊是透過手機或電腦麥克風錄製，且無法代表你的使用情境，請不要使用錄製的音訊。

錄製至少 30 分鐘的音訊，取得具有統計顯著性的準確度指標。建議使用 30 分鐘到 3 小時的音訊。本實驗室會提供音訊。

取得真值轉錄稿

準確轉錄音訊內容。這通常需要對目標音訊進行單次或雙次人工轉錄。目標是取得 100% 準確的轉錄稿，以便評估自動化結果。

取得基準真相轉錄稿時，請務必盡可能符合目標 ASR 系統的轉錄慣例。例如，確認標點符號、數字和大小寫一致。

取得機器轉錄稿，並修正發現的任何文字問題。

取得機器轉錄稿

將音訊傳送至 Google Speech-to-Text API，然後使用 Speech-to-Text 使用者介面取得假設轉錄內容。

將真值與音訊配對

在 UI 工具中，按一下「附加真值」，將指定音訊檔案與提供的真值建立關聯。附加完成後，您會看到 WER 指標和所有差異的視覺化呈現。

評估及改善語音辨識準確度 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

總覽