建立自訂翻譯模型
使用 Google Cloud 控制台訓練及使用自訂翻譯模型。以下範例使用 AutoML Translation,透過內含軟體本地化文本中與科技相關的區段組合的資料集,訓練英文翻成西班牙文的翻譯模型。
事前準備
如要開始使用 AutoML Translation,專案必須啟用 Cloud Translation API,且您必須具備下列角色授予的權限:
- 檢視者角色:查看專案中的現有資源
- Cloud Translation API 編輯者角色:建立及管理資料集和模型
- 儲存空間管理員角色:將訓練資料上傳至 Cloud Storage bucket
建立翻譯資料集並匯入區隔組合
下載含有模型訓練作業所用樣本資料的封存檔,並解壓縮檔案。
在本教學課程中,您將使用英文翻成西班牙文的 TSV 檔案。
前往 AutoML Translation 控制台。
在導覽窗格中,按一下「Datasets」(資料集) 前往「Datasets」(資料集) 頁面。
點按「Create dataset」(建立資料集)。
在「Create dataset」(建立資料集) 對話方塊中,指定資料集的詳細資料:
- 輸入
tutorial_dataset做為資料集名稱。 - 從下拉式清單中選取「English (EN)」(英文 (EN)) 做為原文語言。
- 選取「Spanish (ES)」(西班牙文 (ES)) 做為譯文語言。
- 點按「Create」(建立)。
- 輸入
建立資料集後,按一下資料集名稱即可查看詳細資料。
前往「Import」(匯入) 分頁,然後將
en-es.tsv資料集上傳至 Cloud Storage:- 選取「Upload files from your computer」(上傳電腦中的檔案)。
- 按一下「Select files」(選取檔案),然後選擇先前下載及解壓縮的
en-es.tsv檔案。 - 按一下「Browse」(瀏覽),選取或建立新的 Cloud Storage bucket,用來儲存 TSV 檔案。bucket 區域必須為
us-central1。
按一下「Continue」(繼續)。
AutoML Translation 會自動將資料分割為訓練集、驗證集和測試集。您可以在資料集的「Sentences」(句子) 分頁中,查看這些分割結果和匯入的句子組合。
訓練模型
前往 AutoML Translation 控制台。
在導覽窗格中,前往「Datasets」(資料集) 頁面。
點按「tutorial_dataset」資料集。
前往「Train」(訓練) 分頁。
按一下「Start training」(開始訓練),開啟「Train new model」(訓練新模型) 窗格。
輸入
tutorial_model做為模型名稱。點按「Start training」(開始訓練)。
訓練模型可能需要數小時才能完成。
評估模型
查看模型與預設 Google NMT 模型的比較結果,後者是以測試集中的區隔組合為準。
前往 AutoML Translation 控制台。
在導覽窗格中,前往「Models」(模型) 頁面。
按一下「tutorial_model」模型。
按一下「Evaluate」(評估) 分頁標籤。
在「Previous evaluations」(先前的評估) 部分,Cloud Translation 會顯示您的模型與 Google NMT 模型的 BLEU 分數比較結果。BLEU (雙語評估研究) 分數代表候選文字與參考文字的相似程度,分數越接近 100,表示文字越相似。
使用翻譯模型
在 Google Cloud 控制台中,您可以使用自訂模型翻譯部分文字。
前往 AutoML Translation 控制台。
在導覽窗格中,前往「Models」(模型) 頁面。
按一下「tutorial_model」模型。
按一下「Predict」(預測) 分頁標籤。
在「English」(英文) 文字方塊中輸入要翻譯的文字,然後按一下「Translate」(翻譯)。
您可以將自訂模型的結果與 Google NMT 模型進行比較。
清除所用資源
為避免產生不必要的 Google Cloud 費用,請刪除模型、資料集和 en-es.tsv 檔案。您也可以使用Google Cloud console 刪除不需要的專案。