總覽
自動語音辨識 (ASR) 又稱機器轉錄或語音轉文字 (STT),這項技術會運用機器學習,將含有語音的音訊轉錄為文字。ASR 的應用範圍十分廣泛,包括字幕、虛擬助理、互動式語音回應 (IVR) 和聽寫等。不過,機器學習系統很少能達到 100% 準確度,ASR 也不例外。如果打算在重要系統中使用 ASR,請務必評估其準確度或整體品質,瞭解 ASR 在整合系統中的成效。
測量準確度後,您可以調整系統,在特定情況下提供更高的準確度。在 Google 的 Cloud Speech-to-Text API 中,您可以選擇最合適的辨識模型,並使用 Speech Adaptation API 調整準確度。我們提供各種模型,可因應不同用途,例如長篇音訊、醫療或電話對話。
定義語音準確度
語音準確度可透過多種方式評估。視需求而定,您或許可以採用多個指標。不過,業界標準的比較方法是字詞錯誤率 (WER),通常簡稱為 WER。WER 會評估整組轉錄內容中錯誤字詞的百分比。WER 越低,代表系統越準確。
您也可能會在 ASR 準確度的脈絡中看到「基準真相」一詞。基準真相是 100% 準確的轉錄稿 (通常由人工提供),可用於比較和計算準確率。
字詞錯誤率 (WER)
WER 是三種轉錄錯誤的組合,可能發生的錯誤如下:
- 插入錯誤 (I):假設轉錄稿中出現,但基準真相檔案中不存在的字詞。
- 替代錯誤 (S):假設和基準真相檔案中都有的字詞,但轉錄內容不正確。
- 刪除錯誤 (D):假設中缺少但基準真相中有的字詞。
\[WER = {S+R+Q \over N}\]
如要找出 WER,請將每種錯誤的總數加總,然後除以基準真相轉錄稿中的總字詞數 (N)。如果準確度極低 (例如插入大量新文字),WER 可能會超過 100%。注意:替代基本上是先刪除再插入,且部分替代的嚴重程度較低。舉例來說,替換單一字母與替換單字可能會有差異。
WER 與可信度分數的關係
WER 指標與信賴分數無關,通常也不會相互關聯。可信度分數是根據可能性計算,而 WER 則是根據字詞是否正確辨識計算。如果系統無法正確辨識字詞,即使是微小的文法錯誤,也可能導致 WER 偏高。如果字詞辨識正確,WER 就會偏低,但如果字詞不常出現或音訊噪音過多,可信度仍可能偏低。
同樣地,如果某個字詞經常使用,ASR 就很可能正確轉錄,進而提高信賴度分數。舉例來說,如果系統辨識出「I」和「eye」之間的差異,由於「I」是較常用的字,因此可能會出現高信賴度,但 WER 指標會因此降低。
總而言之,信賴度和 WER 指標彼此獨立,不應預期會相互關聯。
正規化
計算 WER 指標時,系統會比較機器轉錄內容與人工提供的基準真相轉錄內容。比較前,系統會先將兩份轉錄稿的文字標準化,比較機器轉錄內容與人工提供的真值轉錄內容時,系統會移除標點符號並忽略大小寫。
真值慣例
請務必瞭解,任何音訊都不會只有一種人為認可的轉錄格式。有許多面向需要考慮。舉例來說,音訊可能包含其他非語音的發聲,例如「嗯」、「是」、「嗯」。部分 Cloud STT 模型 (例如「medical_conversation」) 會納入這些發聲內容,其他模型則不會。因此,實際資料慣例必須與所評估模型的慣例相符。以下是準備特定音訊的正確轉錄文字時,所使用的高階準則。
- 除了標準字母,您也可以使用數字 0 到 9。
- 請勿使用「@」、「#」、「$」、「.」等符號,請改用「at」、「hash」、「dollar」、「dot」等字詞。
- 使用「%」,但前面必須有數字;否則請使用「百分比」一詞。
只有在「\$」後方接續數字時,才可使用「\$」,例如「牛奶 \$3.99」。
請使用文字表示小於 10 的數字,
- 例如:「我有四隻貓和十二頂帽子。」
請使用數字表示測量單位、貨幣,以及百萬、十億或兆等大型因子。例如「750 萬」,而非「七百五十萬」。
請勿在下列情況使用縮寫:
建議做法 不建議的做法 勇士對湖人 勇士對湖人 我住在桂林路 1 號 我住在凱達格蘭大道 1 號
評估語音準確度
如要開始使用音訊判斷準確度,請按照下列步驟操作:
收集測試音訊檔案
收集具代表性的音訊檔案樣本,評估音訊品質。這個樣本應隨機產生,且盡可能接近目標環境。舉例來說,如果您想轉錄電話中心對話,以協助確保通話品質,請隨機選取幾通實際通話,這些通話必須透過與製作音訊相同的設備錄製。如果音訊是透過手機或電腦麥克風錄製,且無法代表你的使用情境,請不要使用錄製的音訊。
錄製至少 30 分鐘的音訊,取得具有統計顯著性的準確度指標。建議使用 30 分鐘到 3 小時的音訊。本實驗室會提供音訊。
取得真值轉錄稿
準確轉錄音訊內容。這通常需要對目標音訊進行單次或雙次人工轉錄。目標是取得 100% 準確的轉錄稿,以便評估自動化結果。
取得基準真相轉錄稿時,請務必盡可能符合目標 ASR 系統的轉錄慣例。例如,確認標點符號、數字和大小寫一致。
取得機器轉錄稿,並修正發現的任何文字問題。
取得機器轉錄稿
將音訊傳送至 Google Speech-to-Text API,然後使用 Speech-to-Text 使用者介面取得假設轉錄內容。
將真值與音訊配對
在 UI 工具中,按一下「附加真值」,將指定音訊檔案與提供的真值建立關聯。附加完成後,您會看到 WER 指標和所有差異的視覺化呈現。