如果特定領域的字詞和具名實體必須保持一致的翻譯結果,請建立詞彙表。詞彙表是自訂字典,包含兩種以上語言的對應詞彙。在機器翻譯期間,Translation Hub 會自動將相符的來源語言字詞,替換為相關聯的目標語言字詞。
使用詞彙表微調特定字詞或實體的翻譯方式。舉例來說,您可以加入詞彙表項目,避免系統翻譯產品名稱 (例如「Google Home」)。
建立詞彙表後,請將其新增至入口網站,供入口網站使用者使用。
詞彙表與其他翻譯資源的比較
除了詞彙表,您也可以提供其他資源,協助入口網站使用者進行翻譯。下列章節說明各資源之間的差異。
- 翻譯記憶庫會比對區隔,而字彙表會比對字詞。使用翻譯記憶庫重複使用經過人工審核的翻譯,這些翻譯可能是匯入的內容,也可能是在譯後編輯期間擷取的內容。翻譯記憶庫可包含多種語言的語句組合,數量不限。
- 自訂模型會使用您提供的語句組合進行訓練,如果沒有完整的詞彙表或翻譯記憶體,自訂模型就能協助您提升機器翻譯品質。如要針對特定領域和寫作風格調整機器翻譯,請使用 AutoML Translation 建構自訂模型,產生更合適的預測結果。
入口網站使用者可以結合使用這些資源,提升翻譯品質。如要進一步瞭解翻譯中心如何在翻譯時套用資源,請參閱「翻譯文件」。
非檢索用字
Translation Hub 會忽略詞彙表中的部分字詞,這些字詞稱為停用字。Translation Hub 仍會翻譯停用字,但會忽略任何相符的詞彙表項目。如需所有停用字的清單,請參閱「詞彙表停用字」。
事前準備
如要填入字彙表,您需要一份檔案,內含對應語言的字詞。來源檔案的格式取決於您建立的字彙表類型:單向或同義詞集。
詞彙表項目會區分大小寫,如為不區分大小寫的項目,請在字彙表中同時加入兩種形式。
單向
單向詞彙表會指定原文和譯文語言配對的字詞所需譯法。這些字彙表是單向運作,舉例來說,英文到西班牙文的單向詞彙表不適用於西班牙文到英文的翻譯。
你可以提供 TSV (定位點分隔值)、CSV (半形逗號分隔值) 或 TMX (Translation Memory eXchange) 檔案。如為 TSV 和 CSV 檔案,請勿加入標題列,其中包含用於識別原文和譯文語言的語言代碼。建立詞彙表時,請指定這些語言。如果是 TMX 檔案,請使用 TMX 1.4 版標準。
如需詞彙表詳細資料和範例,請參閱 Cloud Translation 說明文件中的「建立及使用詞彙表」。
對等字詞集
對等字詞集包含多種語言的對等字詞,且必須在 CSV 檔案中定義。每個資料列都包含不同語言的對應詞彙。這些詞彙表是雙向的。標題列必須使用相應的語言代碼,標示各欄的語言。
如需詞彙表詳細資料和範例,請參閱 Cloud Translation 說明文件中的「建立及使用詞彙表」。
詞彙表限制
Translation Hub 會限制來源檔案的大小,以及每個字彙表項目的大小。詳情請參閱「配額與限制」。
建立詞彙表
您可以使用 Google Cloud 控制台建立詞彙表。如果您先前透過 Cloud Translation API 建立資源,Translation Hub 會提供這些資源。您可以將這些資源指派給入口網站。
在 Google Cloud 控制台的「Translation Hub」部分,前往「Resources」頁面。
按一下「新增資源」。
在「新增資源」窗格中,選取「字彙表」分頁標籤。
指定術語表的名稱。
選取詞彙表類型。
將本機字彙表檔案上傳至 Cloud Storage,或從 Cloud Storage 選取現有字彙表檔案。
指定術語表語言。
按一下「新增」即可建立字彙表。
在入口網站中新增詞彙表
建立字彙表後,請將字彙表新增至入口網站,讓入口網站使用者在要求翻譯時使用。
在 Google Cloud 控制台的「Translation Hub」部分,前往「Resources」頁面。
從資源清單中選取一或多個術語表,然後新增至一或多個入口網站。
按一下「指派給入口網站」,開啟「將資源指派給入口網站」窗格。
在入口網站欄位中,選取要新增詞彙表的一或多個入口網站。
按一下「指派」。
在「資源」頁面中,查看每個資源的「入口網站名稱」資料欄,即可確認是否已新增資源。
後續步驟
- 瞭解入口網站使用者如何要求翻譯。