評估及改善語音辨識準確度

自動語音辨識 (ASR) 又稱機器轉錄或語音轉文字 (STT),這項技術會運用機器學習,將含有語音的音訊轉換為文字。ASR 的應用範圍十分廣泛,包括字幕、虛擬助理、互動式語音回應 (IVR)、聽寫等。不過,機器學習系統很少能達到 100% 的準確度,ASR 也不例外。如果打算在重要系統中使用 ASR,請務必評估其準確度或整體品質,瞭解 ASR 在整合系統中的表現。

測量準確度後,您可以調整系統,在特定情況下提供更高的準確度。在 Google 的 Cloud Speech-to-Text API 中,您可以選擇最合適的辨識模型,並使用 Speech Adaptation API 調整準確度。我們提供多種模型,可因應不同用途,例如長篇音訊、醫療或電話對話。

定義語音準確度

語音準確度有多種評估方式。視需求而定,您可能需要使用多個指標。不過,業界標準的比較方法是字詞錯誤率 (WER),通常簡稱為 WER。WER 會評估整組轉錄內容中錯誤字詞的百分比。 WER 越低,代表系統越準確。

您也可能會在 ASR 準確度脈絡中看到「基準真相」一詞。基準真相是 100% 準確的轉錄稿 (通常由人工提供),可用於比較和評估準確率。

錯字率 (WER)

WER 是三種轉錄錯誤的組合,可能發生的錯誤如下:

  • 插入錯誤 (I):假設轉錄稿中出現,但基準真相檔案中沒有的字詞。
  • 替代錯誤 (S):假設和基準真相中都有的字詞,但轉錄內容不正確。
  • 刪除錯誤 (D):假設中缺少但基準真相中有的字詞。

\[WER = {S+R+Q \over N}\]

如要找出 WER,請將每種錯誤的總數加總,然後除以基準真相轉錄稿中的總字詞數 (N)。如果準確度極低 (例如插入大量新文字),WER 可能會超過 100%。注意:替代作業基本上就是先刪除再插入,且部分替代作業的嚴重程度較低。舉例來說,取代單一字母和取代單字可能會有所不同。

WER 與可信度分數的關係

WER 指標與信賴度分數無關,通常也不會相互關聯。可信度分數是根據可能性計算,而 WER 則是根據系統是否正確辨識字詞。如果系統無法正確辨識字詞,即使是微小的文法錯誤,也可能導致 WER 偏高。如果字詞辨識正確,WER 就會偏低,但如果字詞不常出現或音訊雜訊過多,信賴度仍可能偏低。

同樣地,如果某個字詞經常使用,ASR 就很可能正確轉錄,進而提高可信度分數。舉例來說,如果系統發現「I」和「eye」之間的差異,可能會因為「I」是較常用的字詞而產生高信賴度,但 WER 指標會因此降低。

總而言之,信賴度和 WER 指標彼此獨立,不應預期兩者會相互關聯。

正規化

計算 WER 指標時,系統會比較機器轉錄內容與人為提供的基準真相轉錄內容。比較前,系統會先將兩份轉錄稿的文字標準化,比較機器轉錄內容與人工提供的實際轉錄內容時,系統會移除標點符號並忽略大小寫。

真值慣例

請務必瞭解,任何音訊都沒有單一的轉錄格式,有許多面向需要考慮。 舉例來說,音訊可能包含其他非語音的發聲,例如「嗯」、「是」、「嗯」。部分 Cloud STT 模型 (例如「medical_conversation」) 會納入這些發聲內容,其他模型則不會。因此,實際資料慣例必須與評估模型的慣例相符。以下是準備特定音訊的基準真相文字轉錄內容時,所使用的基本準則。

  • 除了標準字母,您也可以使用數字 0 到 9。
  • 請勿使用「@」、「#」、「$」、「.」等符號,請改用「at」、「hash」、「dollar」、「dot」等字詞。
  • 使用「%」符號,但前面必須有數字;否則請使用「百分比」一詞。
  • 只有在「\$」後方接續數字時,才可使用「\$」,例如「牛奶 \$3.99」。

  • 請使用文字表示小於 10 的數字。

    • 例如:「我有四隻貓和十二頂帽子。」
  • 使用數字表示測量單位、貨幣和大型因子,例如百萬、十億或兆。例如「750 萬」,而非「七百五十萬」。

  • 請勿在下列情況使用縮寫:

    建議做法 不建議的做法
    勇士對湖人 勇士對湖人
    我住在桂林路 1 號 我住在凱達格蘭大道 1 號

評估語音準確度

如要開始使用音訊判斷準確度,請按照下列步驟操作:

收集測試音訊檔案

收集具代表性的音訊檔案樣本,評估音訊品質。這個樣本應為隨機,且盡可能接近目標環境。舉例來說,如要轉錄電話中心對話內容,以利確保通話品質,請隨機選取幾通實際通話,這些通話必須透過與正式版音訊相同的設備錄製。如果音訊是透過手機或電腦麥克風錄製,且無法代表你的使用情境,請勿使用錄製的音訊。

錄製至少 30 分鐘的音訊,取得具有統計顯著性的準確度指標。建議使用 30 分鐘到 3 小時的音訊。在本實驗室中,我們會提供音訊。

取得真值轉錄稿

準確轉錄音訊內容。這通常涉及對目標音訊進行單次或雙次人工轉錄。目標是取得 100% 準確的轉錄稿,以便評估自動化結果。

取得基準真相轉錄稿時,請務必盡可能符合目標 ASR 系統的轉錄慣例。舉例來說,請確保標點符號、數字和大小寫一致。

取得機器轉錄稿,並修正發現的任何文字問題。

取得機器轉錄稿

將音訊傳送至 Cloud Speech-to-Text API,然後使用 Cloud Speech-to-Text 使用者介面取得假設轉錄。

將真值與音訊配對

在 UI 工具中,按一下「附加真值」,將指定音訊檔案與提供的真值建立關聯。附加完成後,您會看到 WER 指標和所有差異的可視化資料。