自訂 TLLM 模型
使用 Cloud Translation - Advanced API 自訂 Google Translation LLM (TLLM) 模型,不必編寫程式碼。您可以根據特定領域的內容調整自訂模型,與預設的 Google TLLM 模型相比,翻譯結果更準確。TLLM 模型涵蓋大量語言組合,並能順利處理一般用途文字。自訂模型擅長處理特定詞彙。如果您經營的專業報表服務有機會擴展至新國家/地區,不妨建立及調整自訂模型,即時完成工作,不必聘請專家。
資料準備
如要訓練自訂模型,請提供原文與譯文語言中的相符語句組合。這些是成對的字詞或詞組,在您要翻譯的語言中具有相同意義。語句組合的意義越相近,模型的效果就會越好。統整相符區隔配對的資料集時,請從用途著手:
您想達成什麼成果?
您需要正確翻譯哪些類型的語句,才能達到這個成果?TLLM 模型本身就能完成這項工作嗎?
人類有可能把這些重要語句翻譯成令您滿意的成果嗎?如果翻譯工作模稜兩可,就連精通原文語言與譯文語言的人員都難以提供令人滿意的成果,那麼 TLLM 模型可能與自訂模型效能不相上下。
哪種樣本最能反映出您的系統將要翻譯的區隔配對類型與範圍?
根據問題領域提供適當資料
訓練自訂翻譯模型,使其適用於特定語言領域。請盡可能確保您的語句組合涵蓋所屬產業或重點領域的詞彙、用法和特殊文法。請尋找包含待完成翻譯工作典型用法的文件,同時確保平行詞組比對的意思要盡可能接近。不同的語言在詞彙或語法上有時是無法完美對應的,但請盡量涵蓋您預期會遇到的所有語意多元性。做為您建構基礎的模型已經能妥善處理一般用途的翻譯。樣本是調整自訂模型的最後一步,因此請確保樣本與您期望看到的語言用法有高度的相關性及代表性。
涵蓋語言空間的多元性
請勿假設在特定領域中,人們的內容撰寫方式通常是相當一致的,因此由少數譯者翻譯的少量文字樣本應該就足以訓練模型,讓該模型能順利讓其他撰寫該領域內容的人們使用。每個人寫作時都會帶入個人風格,因此訓練資料集的語句組合如果來自大量不同的作者和譯者,您訓練出的模型就比較可能適用於翻譯多元化機構所產生的內容。此外,請把各種語句長度和結構的差異列入考量;如果資料集中所有語句的長度都相同,或擁有類似的文法結構,那麼模型就無法涵蓋所有可能性。
取得資料
確認所需資料後,需要設法找到資料來源。請考慮貴機構收集的所有資料,或許您會發現,您早就在收集需要用來訓練模型的資料。如果您沒有所需資料,可以手動取得資料或委外由第三方負責。
讓人類參與驗證工作
請讓精通原文語言與譯文語言的人員來驗證語句組合是否對應正確,且語句的翻譯是否精確易懂。像是訓練資料試算表中的資料列沒有正確對齊的簡單錯誤,就會讓系統產生令人無法理解的翻譯。Cloud Translation - Advanced API 需要高品質資料,才能取得可用的模型。
使用區隔配對時,請注意公平性
Google 機器學習產品的核心原則,就是以人為本的機器學習,這種方法強調負責任的 AI 做法,包括公平性。機器學習公平性的目標是瞭解並防止演算法系統或演算法輔助決策中,出現與種族、收入、性傾向、宗教、性別,以及其他與歧視和邊緣化相關的特徵有關的不公正或偏見待遇。
清理雜亂的資料
預先處理資料時可能會出錯,導致自訂模型混淆。請特別留意下列可修正的資料問題:
- 移除重複原文語句,尤其原文語句有不同的譯文翻譯,確保 Cloud Translation - Advanced API 使用您偏好的翻譯。
- 將原文語句對應至正確的譯文語句。
- 讓語句與指定語言相符。(例如在中文資料集中只加入中文語句)。
- 如果譯文語句包含多種語言,請確認未翻譯的字詞是否為刻意保留。如果譯文語句誤用未翻譯的字詞,資料就會出現雜訊,導致模型品質降低。
- 修正有錯別字或文法錯誤的語句。
- 移除不可翻譯的內容,例如預留位置標記和 HTML 標記。不可翻譯的內容可能會導致標點符號錯誤。
- 請勿加入將一般事物替換為特定名詞的片段配對。例如,將「總統」這類一般字詞翻譯為「JFK」。請移除這些翻譯,或將特定名詞改為一般名詞。
- 移除訓練集和測試集中重複的語句。
- 使用一致的大小寫,這會影響模型學習方式,例如區分標題和內文。
處理資料
限制如下:
- 輸入和輸出詞元數量上限:
- 服務:1,000 (約 4,000 個字元)
- 驗證資料集大小:1,024 個範例
- 訓練資料集檔案大小:JSONL 格式上限為 1 GB
- 訓練範例長度:1,000 (約 4,000 個字元)
- 轉接器大小:
Translation LLM V2:支援的值只有 4。使用任何其他值 (例如 1 或 8) 都會導致失敗。
偵錯
自訂模型除錯的重點在於針對資料除錯,而非針對模型。如果模型未按照您的預期方式翻譯,請檢查資料,看看是否有需要改進之處。
測試
即使評估分數看起來還不錯,仍建議您檢查模型,以確保模型的效能符合您的期望。如果您的訓練和測試資料都來自同一組錯誤的樣本,即使翻譯的成果令人無法理解,分數也可能會非常高。準備一些不在訓練集中的範例。比較自訂模型與 Google TLLM 基礎模型的結果。
您可能會發現,模型的預測結果與基礎模型相同,尤其是針對短語句,或是在訓練集的規模較小時,因為基礎模型已經很優秀。如果是這樣,請嘗試較長或較複雜的語句。如果所有語句都和基礎模型產出的預測結果相同,可能表示資料出現問題。
如果擔心模型出錯,請確保測試集或程序涵蓋該情況,讓您安心使用模型。
後續步驟
- 如要進一步瞭解如何建立自己的資料集和自訂模型,請參閱「準備訓練資料」。