自訂翻譯總覽
預設 Google 神經機器翻譯 (NMT) 模型涵蓋多種語言,適合用於一般用途文字。不過,如果翻譯特定領域或風格的文字,自訂翻譯功能可協助取得更相關的翻譯。
自訂翻譯需要自行提供翻譯範例。接著,Cloud Translation 就能生成與範例風格、語氣和詞彙相近的結果。
Cloud Translation 提供兩種解決方案,可要求自訂翻譯:AutoML Translation 可訓練自訂模型,而 Adaptive Translation 則可運用 Google 的大型語言模型 (LLM)。每項功能都有專屬的資料規定、支援的語言組合和定價。
AutoML Translation
透過 AutoML Translation,可以匯入資料來訓練自訂模型,並擁有及維護這些模型。建構自訂模型後,可以要求使用該模型進行翻譯,而非預設 NMT 模型。與 Adaptive Translation 相比,自訂模型適合用於特定領域的文字,因為正確的術語是最高優先事項。您也必須提供較大的資料集,用於模型訓練。
系統會根據模型訓練時間和所傳送翻譯的輸入內容字元數收費。
Adaptive Translation
Adaptive Translation 會搭配運用大型語言模型 (LLM) 和小型資料集,提供高品質翻譯,通常與 AutoML Translation 自訂模型不相上下。您不必訓練或維護任何模型。相較於自訂模型,Adaptive Translation 很適合用來取得風格、語氣和聲音與輸入內容相似的回覆。
Adaptive Translation 的收費依據輸入內容和輸出內容字元數。
準備翻譯範例
準備以語句組合形式呈現的翻譯範例,也就是以原文語言呈現的句子,以及以譯文語言翻譯的對應句子。將這些語句組合儲存為以定位點分隔值 (TSV) 檔案或 Translation Memory eXchange (TMX) 檔案。
選擇的範例代表您打算翻譯內容的語言領域。如需其他指引,請參閱 AutoML Translation 新手指南中的「資料準備」一節。
TSV
如果是以定位點分隔的檔案,每列的格式如下:
Source segmentTab 鍵Translated segment
請勿加入標題列,其中包含用於識別原文和譯文語言的語言代碼。建立資料集時,請指定這些語言。以下範例包含英文翻成德文的語句組合:
It's a beautiful day.\tEs ist ein schöner Tag. Tomorrow it will rain.\tMorgen wird es regnen.
TSV 檔案中的所有內容都必須為純文字。如果文字含有 HTML 標記或其他標記,Cloud Translation 會將標記視為純文字。
TMX
TMX 是標準 XML 格式,用於提供原文和譯文語句。Cloud Translation 支援 TMX 1.4 版格式的輸入檔案。下列範例說明所需的結構:
<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
<header segtype="sentence" o-tmf="UTF-8"
adminlang="en" srclang="en" datatype="PlainText"/>
<body>
<tu>
<tuv xml:lang="en">
<seg>It's a beautiful day.</seg>
</tuv>
<tuv xml:lang="de">
<seg>Es ist ein schöner Tag.</seg>
</tuv>
</tu>
<tu>
<tuv xml:lang="en">
<seg>Tomorrow it will rain.</seg>
</tuv>
<tuv xml:lang="de">
<seg>Morgen wird es regnen.</seg>
</tuv>
</tu>
</body>
</tmx>
在格式正確的 TMX 檔案中,<header> 元素必須以 srclang 屬性識別原文語言,而且每個 <tuv> 元素都必須透過 xml:lang 屬性找出所含文字的語言。
所有 <tu> 元素都必須包含一組相同原文與譯文語言的 <tuv> 元素。如果 <tu> 元素包含兩個以上 <tuv> 元素,Cloud Translation 只會處理符合原文語言的第一個 <tuv> 元素,以及符合譯文語言的第一個元素,並忽略其餘元素。如果 <tu> 元素沒有一組相符的 <tuv> 元素,Cloud Translation 會略過無效的 <tu> 元素。
Cloud Translation 會先移除 <seg> 元素兩側的標記,再進行處理。如果 <tuv> 元素包含一個以上 <seg> 元素,Cloud Translation 會將其文字串連為單一元素,並以空格分隔。
如果檔案包含上述內容以外的 XML 標記,Cloud Translation 會忽略這些標記。
如果檔案不符合正確的 XML 與 TMX 格式 (例如缺少結束標記或 <tmx> 元素),Cloud Translation 會取消處理作業。如果 Cloud Translation 略過超過 1024 項無效的 <tu> 元素,也會取消處理作業。
每項功能所需的最低和最高語句組合數不同。詳情請參閱「AutoML Translation 資料準備」或「Adaptive Translation資料規定」。
後續步驟
- 如要進一步瞭解各項功能,請參閱「AutoML Translation 總覽」或「Adaptive Translation」。
- 如需語言支援資訊,請參閱「支援的語言」。
- 如需定價詳情,請參閱「Cloud Translation 定價」。