Membuat dan mengelola set data
Sebuah set data berisi sampel perwakilan dari jenis konten yang ingin diterjemahkan, sebagai pasangan segmen yang cocok dalam bahasa sumber dan target. Set data tersebut berfungsi sebagai input untuk melatih model.
Sebuah project dapat memiliki beberapa set data; masing-masing dapat digunakan untuk melatih model yang terpisah.
Membuat set data
Buat set data untuk menampung data pelatihan bagi model Anda. Saat membuat set data, tentukan bahasa sumber dan target dari data pelatihan Anda. Untuk informasi lebih lanjut mengenai varian dan bahasa yang didukung, baca Dukungan bahasa untuk model kustom.
UI Web
Konsol AutoML Translation dapat Anda gunakan untuk membuat set data baru dan mengimpor item ke dalamnya.Buka konsol AutoML Translation.
Di panel navigasi, klik Set Data.
Di halaman Set Data, klik Buat Set Data.
Dalam dialog Buat Set Data, tentukan detail tentang set data:
- Masukkan nama untuk set data.
- Pilih bahasa sumber dan target dari menu drop-down.
- Klik Buat.
REST
Contoh berikut menunjukkan cara mengirim permintaanPOST ke
metode project.locations.datasets/create.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- PROJECT_ID: Project ID Google Cloud Anda.
- LOCATION: Region tempat set data akan berada, seperti
us-central1. - DATASET_NAME: Nama untuk set data.
- SOURCE_LANG_CODE: Kode bahasa yang menentukan bahasa sumber set data.
- TARGET_LANG_CODE: Kode bahasa yang menentukan bahasa target set data.
Metode HTTP dan URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
Meminta isi JSON:
{
"display_name": "DATASET_NAME",
"source_language_code": "SOURCE_LANG_CODE",
"target_language_code": "TARGET_LANG_CODE"
}
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan menerima respons JSON yang mirip dengan yang berikut ini:
{
"name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}
Bahasa tambahan
C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.
PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.
Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.
Mengimpor segmen ke dalam set data
Setelah membuat set data, Anda dapat mengimpor pasangan segmen ke dalam set data. Untuk detail tentang menyiapkan data sumber, baca Menyiapkan data pelatihan.
Untuk setiap file, konsol Google Cloud memungkinkan Anda memberi tag pada pasangan segmen yang diimpor dengan satu
pasangan nilai kunci atau lebih. Pemberian tag akan memudahkan pencarian dan pemfilteran segmen berdasarkan
sumber. Misalnya, satu pasangan nilai kunci dapat berupa Domain:costmetics atau
Year:2020.
Anda dapat menambahkan tag saat mengimpor segmen melalui konsol Google Cloud ; pemberian tag tidak didukung oleh API. Selain itu, Anda tidak dapat mengubah atau menambahkan tag ke dalam segmen yang telah diimpor.
UI Web
Langkah-langkah berikut akan mengimpor item ke dalam set data yang sudah ada.
Buka konsol AutoML Translation.
Di panel navigasi, klik Set Data.
Dari daftar set data, klik nama set data yang ingin tambahkan dengan data pelatihan.
Buka tab Import.
Tambahkan file untuk mengimpor pasangan segmen ke pelatihan model.
Upload file dari komputer lokal Anda ke bucket Cloud Storage atau pilih file yang sudah ada dari Cloud Storage.
Secara default, Cloud Translation akan membagi data Anda menjadi set pelatihan, validasi, dan pengujian secara otomatis. Jika Anda ingin mengupload file terpisah untuk setiap bagiannya, pilih Gunakan file terpisah untuk pelatihan, validasi, dan pengujian (advanced). Gunakan opsi ini jika set data Anda memiliki lebih dari 100.000 pasangan segmen agar tidak melebihi batas maksimum 10.000 pasangan segmen untuk set validasi dan pengujian.
Untuk menambahkan tag ke dalam pasangan segmen, luaskan Tag (opsional).
Dari daftar file, klik Edit untuk menambahkan satu atau beberapa tag ke semua pasangan segmen untuk file yang ada.
Di bagian Tags, klik Tambahkan tag.
Masukkan kunci dan nilai. Anda akan dapat memfilter segmen berdasarkan pasangan nilai kunci ini.
Untuk menambahkan lebih banyak tag, klik Tambahkan tag.
Klik Lanjutkan setelah Anda selesai menambahkan tag.
Klik Lanjutkan untuk mengimpor pasangan segmen.
Setelah proses impor selesai, Anda dapat melihat pasangan kalimat yang diimpor di tab Kalimat set data. Anda dapat memfilter segmen berdasarkan pembagiannya (pelatihan, validasi, atau pengujian) dan berdasarkan satu atau beberapa tag.
REST
Gunakan metodeprojects.locations.datasets.importData untuk
mengimpor item ke set data.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- PROJECT_ID: Project ID Google Cloud Anda.
- LOCATION: Region tempat set data akan berada, seperti
us-central1. - DATASET_ID: ID set data yang akan ditambahkan dengan data.
- FILE_DISPLAY_NAME: Nama file yang berisi data yang akan diimpor.
- USAGE: Menentukan pembagian data untuk pasangan segmen ini (
TRAIN,VALIDATION, atauTEST). - FILE_PATH: Jalur ke file data sumber di Cloud Storage.
Metode HTTP dan URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData
Meminta isi JSON:
{
"input_config": {
"input_files": [
{
"display_name": "FILE_DISPLAY_NAME",
"usage": "USAGE",
"gcs_source": {
"input_uris": "gs://FILE_PATH"
}
},
...
]
}
}
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan menerima respons JSON yang mirip dengan yang berikut ini:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}
Bahasa tambahan
C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.
PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.
Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.
Setelah membuat dan mengisi set data, Anda dapat melatih model. Untuk informasi selengkapnya, baca Membuat dan mengelola model.
Masalah saat mengimpor
Saat Anda membuat set data, AutoML Translation mungkin menghapus pasangan segmen jika terlalu panjang, jika segmen dalam bahasa sumber dan bahasa target identik (tidak diterjemahkan), atau jika ada duplikat (beberapa segmen dengan teks bahasa sumber yang sama).
Untuk pasangan segmen yang terlalu panjang, sebaiknya pecah segmen tersebut menjadi sekitar 200 kata atau kurang, lalu buat ulang set datanya. Batas 200 kata adalah perkiraan untuk panjang maksimum. Saat memproses data Anda, AutoML Translation akan menggunakan proses internal untuk membuat token data input, yang dapat meningkatkan ukuran segmen. Data berupa token ini akan digunakan AutoML Translation untuk mengukur ukuran data.
Untuk pasangan segmen yang identik, hapus pasangan segmen tersebut dari set data Anda. Jika Anda ingin beberapa segmen tidak diterjemahkan, gunakan referensi glosarium untuk membuat kamus kustom.
Mengekspor data
Anda dapat mengekspor pasangan segmen dari set data yang ada ke bucket Cloud Storage.
UI Web
Buka konsol AutoML Translation.
Di panel navigasi, klik Set Data untuk melihat daftar set data Anda.
Klik nama set data yang datanya ingin Anda ekspor.
Di halaman detail set data, klik Ekspor data.
Pilih tujuan Cloud Storage tempat file TSV yang diekspor akan disimpan.
Klik Ekspor.
AutoML Translation menghasilkan file TSV yang diberi nama sesuai dengan set pada set datanya (pelatihan, validasi, dan pengujian).
REST
Gunakan metodeprojects.locations.datasets.exportData untuk
mengekspor data ke Cloud Storage sebagai file TSV.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- PROJECT_ID: Project ID Google Cloud Anda.
- LOCATION: Region tempat set data yang akan diekspor berada,
seperti
us-central1. - DATASET_ID: ID set data yang akan diekspor.
- DESTINATION_DIRECTORY: Jalur Cloud Storage tempat output dikirim.
Metode HTTP dan URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData
Meminta isi JSON:
{
"output_config": {
"gcs_destination": {
"output_uri_prefix": "gs://DESTINATION_DIRECTORY"
}
}
}
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan menerima respons JSON yang mirip dengan yang berikut ini:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}
Bahasa tambahan
C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.
PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.
Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.
Mencantumkan set data
Cantumkan set data yang tersedia di project Anda.
UI Web
Untuk melihat daftar set data yang tersedia menggunakan konsol AutoML Translation, klik Set Data dari panel navigasi.
Untuk melihat set data project yang berbeda, pilih project dari menu drop-down di kanan atas kolom judul.
REST
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- PROJECT_ID: Project ID Google Cloud Anda.
- LOCATION: Region tempat set data yang akan dicantumkan berada,
seperti
us-central1.
Metode HTTP dan URL:
GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan menerima respons JSON yang mirip dengan yang berikut ini:
{
"datasets": [
{
"name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
"displayName": "DATASET_NAME",
"sourceLanguageCode": "SOURCE_LANG_CODE",
"targetLanguageCode": "TARGET_LANG_CODE",
"exampleCount": 8720,
"createTime": "2022-10-19T23:24:34.734549Z",
"updateTime": "2022-10-19T23:24:35.357525Z"
},
...
]
}
Bahasa tambahan
C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.
PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.
Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.
Menghapus set data
UI Web
Di Konsol AutoML Translation, klik Set Data dari panel navigasi untuk menampilkan daftar set data yang tersedia.
Untuk menghapus set data, pilih Lainnya > Hapus.
Klik Konfirmasi di kotak dialog konfirmasi.
REST
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- PROJECT_ID: Project ID Google Cloud Anda.
- LOCATION: Region tempat set data yang akan dicantumkan berada,
seperti
us-central1. - DATASET_ID: ID set data yang akan dihapus.
Metode HTTP dan URL:
DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan menerima respons JSON yang mirip dengan yang berikut ini:
{
"name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
"metadata": {
"@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
},
"done": true
}
Bahasa tambahan
C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.
PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.
Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.