建立及管理資料集
資料集包含您要翻譯的內容類型代表性樣本,做為原文與譯文語言中的相符語句組合。資料集可做為用於訓練模型的輸入內容。
一個專案可以包含多個資料集,每個資料集可用來訓練不同模型。
建立資料集
建立資料集,以便加入模型的訓練資料。建立資料集時,請指定訓練資料的原文和譯文語言。如要進一步瞭解支援的語言和變體,請參閱這篇文章。
網路使用者介面
您可以在 AutoML Translation 控制台建立新資料集,並將項目匯入資料集。前往 AutoML Translation 控制台。
在導覽窗格中,按一下「Datasets」(資料集)。
在「Datasets」(資料集) 頁面,按一下「Create dataset」(建立資料集)。
在「Create dataset」(建立資料集) 對話方塊中,指定資料集的詳細資料:
- 輸入資料集名稱。
- 從下拉式清單中選取原文語言和譯文語言。
- 按一下「Create」(建立)。
REST
以下範例說明如何將POST 要求傳送至 project.locations.datasets/create 方法。
使用任何要求資料之前,請先修改下列項目的值:
- PROJECT_ID: Google Cloud 專案 ID。
- LOCATION:資料集所在區域,例如
us-central1。 - DATASET_NAME:資料集的名稱。
- SOURCE_LANG_CODE:指定資料集原文語言的語言代碼。
- TARGET_LANG_CODE:指定資料集譯文語言的語言代碼。
HTTP 方法和網址:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
JSON 要求主體:
{
"display_name": "DATASET_NAME",
"source_language_code": "SOURCE_LANG_CODE",
"target_language_code": "TARGET_LANG_CODE"
}
請展開以下其中一個選項,以傳送要求:
您應該會收到如下的 JSON 回覆:
{
"name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}
其他語言
C#:請按照用戶端程式庫頁面上的 C# 設定操作說明完成相關步驟,然後參閱「.NET 適用的 Cloud Translation 參考文件」。
PHP:請按照用戶端程式庫頁面上的 PHP 設定操作說明完成相關步驟,然後參閱「PHP 適用的 Cloud Translation 參考文件」。
Ruby:請按照用戶端程式庫頁面上的 Ruby 設定操作說明完成相關步驟操作,然後參閱「Ruby 適用的 Cloud Translation 參考文件」。
將區隔匯入資料集
建立資料集後,您可以將區隔組合匯入資料集。如需準備來源資料的詳細資料,請參閱「準備訓練資料」一文。
針對每個檔案, Google Cloud 控制台可讓您使用一或多個鍵/值組合,為匯入的區隔組合加上標記。標記有助於依來源輕鬆尋找及篩選區隔。舉例來說,鍵/值組合可以是 Domain:costmetics 或 Year:2020。
透過 Google Cloud 控制台匯入區隔時,您可以新增標記。請注意,API 不支援標記功能。此外,您無法修改標記,也無法為已匯入的區隔加上標記。
網路使用者介面
以下步驟可將項目匯入現有資料集中。
前往 AutoML Translation 控制台。
在導覽窗格中,按一下「Datasets」(資料集)。
在資料集清單中,按一下要新增訓練資料的資料集名稱。
前往「Import」(匯入) 分頁。
新增檔案,匯入用於模型訓練的區隔組合。
將本機電腦中的檔案上傳至 Cloud Storage bucket,或選取 Cloud Storage 中的現有檔案。
根據預設,Cloud Translation 會自動將資料分割為訓練集、驗證集和測試集。如要為每個分割上傳個別檔案,請選取「Use separate files for training, validation, and testing (advanced)」(使用不同的檔案進行訓練、驗證和測試 (進階))。如果資料集的區隔組合超過 100,000 個,請使用這個選項,以免驗證集和測試集的區隔組合超過上限 (10,000 個)。
如要為區隔組合加上標記,請展開「Tags (optional)」(標記 (選用))。
在檔案清單中,按一下「編輯」圖示 ,即可為特定檔案的所有區隔配對新增一或多個標記。
在「Tags」(標記) 窗格中,按一下「Add tag」(新增標記)。
輸入鍵和值。您將可依據這個鍵/值組合篩選區隔。
如要新增更多標記,請按一下「Add tag」(新增代碼)。
新增完代碼後,按一下「Continue」(繼續)。
按一下「Continue」(繼續) 匯入區隔組合。
匯入完成後,您可以在資料集的「Sentences」(句子) 分頁中查看匯入的句子組合。您可以依分割 (訓練、驗證或測試) 和一或多個標記篩選區隔。
REST
使用projects.locations.datasets.importData 方法即可將項目匯入資料集。
使用任何要求資料之前,請先修改下列項目的值:
- PROJECT_ID: Google Cloud 專案 ID。
- LOCATION:資料集所在區域,例如
us-central1。 - DATASET_ID:要新增資料的資料集 ID。
- FILE_DISPLAY_NAME:包含要匯入資料的檔案名稱。
- USAGE:指定這些區隔組合的資料分割 (
TRAIN、VALIDATION或TEST)。 - FILE_PATH:Cloud Storage 中來源資料檔案的路徑。
HTTP 方法和網址:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData
JSON 要求主體:
{
"input_config": {
"input_files": [
{
"display_name": "FILE_DISPLAY_NAME",
"usage": "USAGE",
"gcs_source": {
"input_uris": "gs://FILE_PATH"
}
},
...
]
}
}
請展開以下其中一個選項,以傳送要求:
您應該會收到如下的 JSON 回覆:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}
其他語言
C#:請按照用戶端程式庫頁面上的 C# 設定操作說明完成相關步驟,然後參閱「.NET 適用的 Cloud Translation 參考文件」。
PHP:請按照用戶端程式庫頁面上的 PHP 設定操作說明完成相關步驟,然後參閱「PHP 適用的 Cloud Translation 參考文件」。
Ruby:請按照用戶端程式庫頁面上的 Ruby 設定操作說明完成相關步驟操作,然後參閱「Ruby 適用的 Cloud Translation 參考文件」。
建立並填入資料集後,即可訓練模型。詳情請參閱「建立及管理模型」一文。
匯入問題
建立資料集時,如果區隔組合過長、原文和譯文語言的區隔相同 (未翻譯),或有重複的區隔 (多個區隔的原文語言文字相同),AutoML Translation 可能會捨棄這些區隔組合。
如果區隔組合過長,建議您將區隔分成大約 200 字或更短的內容,然後重新建立資料集。200 字的限制是長度上限的預估值。處理資料時,AutoML Translation 會使用內部程序將輸入資料權杖化,這可能會增加區隔大小。AutoML Translation 會使用這些權杖化資料來測量資料大小。
如果區隔組合完全相同,請從資料集中移除。如要避免翻譯某些區隔,請改用詞彙表資源建立自訂字典。
匯出資料
您可以將現有資料集的區隔組合匯出至 Cloud Storage bucket。
網路使用者介面
前往 AutoML Translation 控制台。
在導覽窗格中按一下「Datasets」(資料集),查看資料集清單。
按一下要匯出資料的資料集名稱。
在資料集詳細資料頁面中,按一下「Export data」(匯出資料)。
選取要儲存匯出 TSV 檔案的 Cloud Storage 目標位置。
按一下「Export」(匯出)。
AutoML Translation 會輸出 TSV 檔案,並根據資料集 (訓練、驗證和測試) 命名。
REST
使用projects.locations.datasets.exportData 方法,即可用 TSV 檔案的形式將資料匯出到 Cloud Storage。
使用任何要求資料之前,請先修改下列項目的值:
- PROJECT_ID: Google Cloud 專案 ID。
- LOCATION:要匯出資料集的所在區域,例如
us-central1。 - DATASET_ID:要匯出的資料集 ID。
- DESTINATION_DIRECTORY:輸出內容的傳送目標 Cloud Storage 路徑。
HTTP 方法和網址:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData
JSON 要求主體:
{
"output_config": {
"gcs_destination": {
"output_uri_prefix": "gs://DESTINATION_DIRECTORY"
}
}
}
請展開以下其中一個選項,以傳送要求:
您應該會收到如下的 JSON 回覆:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}
其他語言
C#:請按照用戶端程式庫頁面上的 C# 設定操作說明完成相關步驟,然後參閱「.NET 適用的 Cloud Translation 參考文件」。
PHP:請按照用戶端程式庫頁面上的 PHP 設定操作說明完成相關步驟,然後參閱「PHP 適用的 Cloud Translation 參考文件」。
Ruby:請按照用戶端程式庫頁面上的 Ruby 設定操作說明完成相關步驟操作,然後參閱「Ruby 適用的 Cloud Translation 參考文件」。
列出資料集
列出專案中的可用資料集。
網路使用者介面
如要列出可用資料集清單,請前往 AutoML Translation 控制台,按一下導覽窗格中的「Datasets」(資料集)。
如要查看不同專案的資料集,請從標題列右上方的下拉式清單中選取專案。
REST
使用任何要求資料之前,請先修改下列項目的值:
- PROJECT_ID: Google Cloud 專案 ID。
- LOCATION:要列出資料集的所在區域,例如
us-central1。
HTTP 方法和網址:
GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
請展開以下其中一個選項,以傳送要求:
您應該會收到如下的 JSON 回覆:
{
"datasets": [
{
"name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
"displayName": "DATASET_NAME",
"sourceLanguageCode": "SOURCE_LANG_CODE",
"targetLanguageCode": "TARGET_LANG_CODE",
"exampleCount": 8720,
"createTime": "2022-10-19T23:24:34.734549Z",
"updateTime": "2022-10-19T23:24:35.357525Z"
},
...
]
}
其他語言
C#:請按照用戶端程式庫頁面上的 C# 設定操作說明完成相關步驟,然後參閱「.NET 適用的 Cloud Translation 參考文件」。
PHP:請按照用戶端程式庫頁面上的 PHP 設定操作說明完成相關步驟,然後參閱「PHP 適用的 Cloud Translation 參考文件」。
Ruby:請按照用戶端程式庫頁面上的 Ruby 設定操作說明完成相關步驟操作,然後參閱「Ruby 適用的 Cloud Translation 參考文件」。
刪除資料集
網路使用者介面
在 AutoML Translation 控制台中,按一下導覽窗格中的「Datasets」(資料集),即可顯示可用資料集清單。
針對要刪除的資料集,依序點按「更多」圖示 >「Delete」(刪除)。
在確認對話方塊中,按一下「Confirm」(確認)。
REST
使用任何要求資料之前,請先修改下列項目的值:
- PROJECT_ID: Google Cloud 專案 ID。
- LOCATION:要列出資料集的所在區域,例如
us-central1。 - DATASET_ID:要刪除的資料集 ID。
HTTP 方法和網址:
DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID
請展開以下其中一個選項,以傳送要求:
您應該會收到如下的 JSON 回覆:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
},
"done": true
}
其他語言
C#:請按照用戶端程式庫頁面上的 C# 設定操作說明完成相關步驟,然後參閱「.NET 適用的 Cloud Translation 參考文件」。
PHP:請按照用戶端程式庫頁面上的 PHP 設定操作說明完成相關步驟,然後參閱「PHP 適用的 Cloud Translation 參考文件」。
Ruby:請按照用戶端程式庫頁面上的 Ruby 設定操作說明完成相關步驟操作,然後參閱「Ruby 適用的 Cloud Translation 參考文件」。