Google 會運用 AI 技術將內容翻譯成你偏好的語言，但可能會出錯。

準備訓練資料

瞭解如何準備音訊和文字資料，以便在 Google Cloud Speech 控制台中微調自訂語音轉文字模型。訓練資料的品質會影響所建模型的成效。您需要編寫多元的資料集，其中包含代表性的音訊和文字內容，這些內容與模型在實際工作環境中推論時的回應直接相關，包括噪音和不尋常的詞彙。

如要有效訓練自訂語音轉文字模型，您需要：

至少 100 小時的訓練資料，可以是只有音訊，也可以是音訊和對應的文字轉錄稿 (做為基準真相)。這項資料對於初始訓練階段至關重要，可讓模型瞭解語音模式和詞彙的細微差異。詳情請參閱「建立基本事實資料集」。
至少 10 小時的驗證資料集，以及對應的文字轉錄稿做為基準真相。

事前準備

請確認您已註冊 Google Cloud 帳戶、建立 Google Cloud專案，並啟用 Cloud Speech-to-Text API：

前往 Cloud Storage。
如果沒有值區，請建立一個。

建立資料集

如要建立資料集，您需要在所選的 Cloud Storage bucket 中建立兩個子目錄。遵循簡單的命名慣例：

建立 training_dataset 子目錄，用來儲存所有訓練檔案。
建立 validation_dataset 子目錄，儲存所有訓練檔案。
按照基準真相註解指南，在目錄中上傳音訊和文字檔案。

資料集指南

訓練和驗證都支援 .wav 檔案格式 (適用於 LINEAR16 編碼的音訊檔案)，以及 .txt 檔案格式 (適用於文字檔案，如有)。避免在檔案名稱中使用非 ASCII 字元。
同一個目錄中的音訊檔案應以個別的 TXT 檔案提供，且每個檔案的名稱都應與對應的 WAV 檔案相同，例如 my_file_1.wav 和 my_file_1.txt。每個音訊檔案只能有一個轉錄稿檔案。

訓練資料

訓練用的所有檔案都必須位於同一目錄下，不得有任何巢狀資料夾。
選用：如果可以，請提供音訊檔案的轉錄稿。不需要時間戳記。
確認音訊檔案的累計音訊長度超過 100 小時。否則訓練工作會失敗。

以下是將檔案上傳為訓練資料集後，目錄結構的範例：

├── training_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   ├── example_2.txt
│   ├── example_3.wav (Note: Audio only instance, without corresponding text)
│   └── example_4.wav (Note: Audio only instance, without corresponding text)

驗證資料

驗證用的所有檔案都位於名為「validation_dataset」validation_dataset的同一目錄中，且不得含有巢狀資料夾。
驗證音訊的長度不得超過 30 秒。
在同一目錄中，為每個音訊檔案提供真值轉錄稿，並分別存成 TXT 檔案。

以下範例說明上傳檔案做為驗證資料集後，目錄結構應呈現的樣貌：

├── validation_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   └── example_2.txt

真值註解規範

請參閱下列格式設定說明。

Numbers

基數和序數應僅以數字轉錄。

音訊：「一副撲克牌有 52 張牌，四種花色 (方塊、紅心、黑桃和梅花) 各有 13 個牌位」
基準真相文字：「一副撲克牌有 52 張牌，四種花色 (方塊、紅心、黑桃和梅花) 各有 13 個點數」

貨幣和單位

請採用轉錄地區的常見貨幣書寫形式。數值後方的所有單位都必須使用縮寫。如果從上下文就能清楚推測出某個數字或數列是指貨幣或時間，請依照推測結果設定格式。

日期與時間

在轉錄日期與時間時，請採用轉錄語言常用的日期和時間格式。盡可能以 hh:mm 格式轉錄時間。

位址

轉錄時請使用地點、道路和州的全名，例如在說話者明確說出縮寫時，轉錄實體和地點時，請在兩者之間加上逗號。

正確的姓名和重音符號

請使用官方拼法和標點符號轉錄。如果某個人名可能有好幾種拼法，但上下文無法協助您選出適當的拼法，請使用最常見的拼法。

品牌、產品名稱和媒體標題

請採用官方格式和最常見的書寫方式轉錄。

感嘆詞

笑聲或其他非語音發語詞應使用最多三個音節轉錄。如果語音中包含笑聲，請完全忽略。範例：

音訊：「ha ha ha ha ha」
實際文字：「hahaha」

多名說話者

請勿使用說話者標記分隔，因為系統通常不支援說話者區分。

後續步驟

請參閱下列資源，瞭解如何在應用程式中運用自訂語音模型：