您可以透過模型調整,提高 Cloud Speech-to-Text 語音轉錄結果的準確度。模型調整功能可讓您指定字詞和詞組,讓 Cloud STT 在音訊資料中辨識這些字詞和詞組的頻率,高於其他可能建議的替代方案。模型調整功能特別適合用於下列情境,以提高轉錄準確度:
- 音訊中可能經常出現某些字詞/詞組。
- 音訊可能含有罕見字詞 (例如專有名詞),或一般用法中不存在的字詞。
- 音訊含有雜音或內容不太清楚。
閱讀本文前,請先參閱「模型調整簡介」,瞭解這項功能的高階總覽。如要瞭解每個模型調整要求中的片語和字元限制,請參閱「配額與限制」。
程式碼範例
模型調整是選用的 Cloud STT 設定,可根據需求自訂轉錄結果。如要進一步瞭解如何設定辨識要求主體,請參閱 RecognitionConfig 說明文件。
下列程式碼範例說明如何使用 SpeechAdaptation 資源提升轉錄準確度:PhraseSet、CustomClass 和模型調適提升。如要在日後的請求中使用 PhraseSet 或 CustomClass,請記下資源 name,該資源會在您建立資源時於回應中傳回。
如需適用於您語言的預先建構類別清單,請參閱「支援的類別權杖」。
Python
如要瞭解如何安裝及使用 Cloud STT 的用戶端程式庫,請參閱「Cloud STT 用戶端程式庫」。詳情請參閱「Cloud STT Python API 參考文件」。
如要向 Cloud STT 進行驗證,請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證機制」。