建立自訂翻譯模型

使用 Google Cloud 控制台訓練及使用自訂翻譯模型。以下範例使用 AutoML Translation,透過內含軟體本地化文本中與科技相關的區段組合的資料集,訓練英文翻成西班牙文的翻譯模型。

事前準備

如要開始使用 AutoML Translation,專案必須啟用 Cloud Translation API,且您必須具備下列角色授予的權限:

  • 檢視者角色:查看專案中的現有資源
  • Cloud Translation API 編輯者角色:建立及管理資料集和模型
  • 儲存空間管理員角色:將訓練資料上傳至 Cloud Storage bucket

建立翻譯資料集並匯入區隔組合

  1. 下載含有模型訓練作業所用樣本資料的封存檔,並解壓縮檔案。

    在本教學課程中,您將使用英文翻成西班牙文的 TSV 檔案。

  2. 前往 AutoML Translation 控制台。

    前往翻譯頁面

  3. 在導覽窗格中,按一下「Datasets」(資料集) 前往「Datasets」(資料集) 頁面。

  4. 點按「Create dataset」(建立資料集)

  5. 在「Create dataset」(建立資料集) 對話方塊中,指定資料集的詳細資料:

    1. 輸入 tutorial_dataset 做為資料集名稱。
    2. 從下拉式清單中選取「English (EN)」(英文 (EN)) 做為原文語言。
    3. 選取「Spanish (ES)」(西班牙文 (ES)) 做為譯文語言。
    4. 點按「Create」(建立)
  6. 建立資料集後,按一下資料集名稱即可查看詳細資料。

  7. 前往「Import」(匯入) 分頁,然後將 en-es.tsv 資料集上傳至 Cloud Storage:

    1. 選取「Upload files from your computer」(上傳電腦中的檔案)
    2. 按一下「Select files」(選取檔案),然後選擇先前下載及解壓縮的 en-es.tsv 檔案。
    3. 按一下「Browse」(瀏覽),選取或建立新的 Cloud Storage bucket,用來儲存 TSV 檔案。bucket 區域必須為 us-central1
  8. 按一下「Continue」(繼續)

    AutoML Translation 會自動將資料分割為訓練集、驗證集和測試集。您可以在資料集的「Sentences」(句子) 分頁中,查看這些分割結果和匯入的句子組合。

訓練模型

  1. 前往 AutoML Translation 控制台。

    前往翻譯頁面

  2. 在導覽窗格中,前往「Datasets」(資料集) 頁面。

  3. 點按「tutorial_dataset」資料集。

  4. 前往「Train」(訓練) 分頁。

  5. 按一下「Start training」(開始訓練),開啟「Train new model」(訓練新模型) 窗格。

  6. 輸入 tutorial_model 做為模型名稱。

  7. 點按「Start training」(開始訓練)

訓練模型可能需要數小時才能完成。

評估模型

查看模型與預設 Google NMT 模型的比較結果,後者是以測試集中的區隔組合為準。

  1. 前往 AutoML Translation 控制台。

    前往翻譯頁面

  2. 在導覽窗格中,前往「Models」(模型) 頁面。

  3. 按一下「tutorial_model」模型。

  4. 按一下「Evaluate」(評估) 分頁標籤。

在「Previous evaluations」(先前的評估) 部分,Cloud Translation 會顯示您的模型與 Google NMT 模型的 BLEU 分數比較結果。BLEU (雙語評估研究) 分數代表候選文字與參考文字的相似程度,分數越接近 100,表示文字越相似。

使用翻譯模型

在 Google Cloud 控制台中,您可以使用自訂模型翻譯部分文字。

  1. 前往 AutoML Translation 控制台。

    前往翻譯頁面

  2. 在導覽窗格中,前往「Models」(模型) 頁面。

  3. 按一下「tutorial_model」模型。

  4. 按一下「Predict」(預測) 分頁標籤。

  5. 在「English」(英文) 文字方塊中輸入要翻譯的文字,然後按一下「Translate」(翻譯)

    您可以將自訂模型的結果與 Google NMT 模型進行比較。

清除所用資源

為避免產生不必要的 Google Cloud 費用,請刪除模型資料集en-es.tsv 檔案。您也可以使用Google Cloud console 刪除不需要的專案。

後續步驟

  • 如要瞭解自訂模型,請參閱新手指南
  • 如要建立自己的資料集和自訂模型,請參閱「準備訓練資料」,瞭解如何準備資料的操作說明。