準備訓練資料
Cloud Translation 會使用原文與譯文語言中的相符語句組合訓練自訂模型。這個 API 會將每個語句組合視為獨立的訓練項目,而不假設各組合之間有任何關聯性。
用於訓練自訂模型的語句組合必須為定位點分隔值 (.tsv) 或 Translation Memory eXchange (.tmx) 格式。詳情請參閱「準備翻譯範例」一節。
系統一律會移除所有匯入組合中重複的語句組合。如果語句組合的原文與另一個語句組合的原文相同,這兩個語句組合即為重複。Cloud Translation 不允許匯入內容相同的檔案。
資料分割
建立自訂模型時,AutoML Translation 會使用您提供的語句組合,以達成不同目的:
- 訓練:用來訓練模型的語句組合。大部分資料都會分配給這個用途。
- 驗證:用來驗證模型在訓練期間所傳回結果的語句組合。
- 測試:用來產生模型最終評估指標的語句組合,可指出模型在實際工作環境的成效。
您可以上傳訓練、驗證和測試集的個別檔案,控管 AutoML Translation 針對各個目的所使用的語句組合。如果您未明確指定要分別將哪些檔案用於這三個目的,AutoML Translation 會將您的語句組合自動分為三個組合。AutoML Translation 會使用約 80% 的資料進行訓練、10% 進行驗證,以及 10% 進行測試。AutoML Translation 會隨機將語句組合指派給這三組。驗證集和測試集的語句組合數量上限為 10,000 個。收集 10,000 個組合後,系統會將這些組合推送至訓練集。
如果您將多筆資料匯入同一個資料集,可以手動指定其中一筆資料的分割比例,另一筆則使用自動分割。每次匯入資料和刪除檔案後,系統一律會根據手動劃分重新平衡資料。
資料條件
訓練資料必須符合下列條件:
- 如果讓 AutoML Translation 自動分割資料,您必須提交至少 1,000 個語句組合,才能訓練自訂模型。
- 如果手動分割資料,您必須為
TRAIN集提供至少三個語句組合,且VALIDATION和TEST集各須至少有 100 個語句組合。 - 您必須為
TRAIN集提供至少三個語句組合,且VALIDATION和TEST集分別須有至少 100 個語句組合。 VALIDATION和TEST集最多只能有 10,000 個語句組合。- 資料集最多只能有 1,500 萬個語句組合。
資料建議
以下建議有助於提升模型品質:
- 請至少使用 5,000 個語句組合來訓練
TRAIN,並使用 500 個語句組合來訓練VALIDATION和TEST。不過,如果可以,請盡量使用更多資料。TRAIN集的資料越多,模型就越能學習模式;VALIDATION和TEST集的資料越多,就越能驗證模型是否適用於網域中更多情境。 - 每個語句的字數應盡量控制在 200 字以內。如果語句組合大於該值,AutoML Translation 可能會捨棄。詳情請參閱「匯入問題」一節。
- 修正常見的來源資料問題,如總覽的「資料準備」部分所述。