Membuat dan mengelola set data

Sebuah set data berisi sampel perwakilan dari jenis konten yang ingin diterjemahkan, sebagai pasangan segmen yang cocok dalam bahasa sumber dan target. Set data tersebut berfungsi sebagai input untuk melatih model.

Sebuah project dapat memiliki beberapa set data; masing-masing dapat digunakan untuk melatih model yang terpisah.

Membuat set data

Buat set data untuk menampung data pelatihan bagi model Anda. Saat membuat set data, tentukan bahasa sumber dan target dari data pelatihan Anda. Untuk informasi lebih lanjut mengenai varian dan bahasa yang didukung, baca Dukungan bahasa untuk model kustom.

UI Web

Konsol AutoML Translation dapat Anda gunakan untuk membuat set data baru dan mengimpor item ke dalamnya.
  1. Buka konsol AutoML Translation.

    Buka halaman Translation

  2. Di panel navigasi, klik Set Data.

  3. Di halaman Set Data, klik Buat Set Data.

  4. Dalam dialog Buat Set Data, tentukan detail tentang set data:

    • Masukkan nama untuk set data.
    • Pilih bahasa sumber dan target dari menu drop-down.
    • Klik Buat.

REST

Contoh berikut menunjukkan cara mengirim permintaan POST ke metode project.locations.datasets/create.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: Project ID Google Cloud Anda.
  • LOCATION: Region tempat set data akan berada, seperti us-central1.
  • DATASET_NAME: Nama untuk set data.
  • SOURCE_LANG_CODE: Kode bahasa yang menentukan bahasa sumber set data.
  • TARGET_LANG_CODE: Kode bahasa yang menentukan bahasa target set data.

Metode HTTP dan URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Meminta isi JSON:

{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

Anda akan menerima respons JSON yang mirip dengan yang berikut ini:

{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}

Bahasa tambahan

C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.

PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.

Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.

Mengimpor segmen ke dalam set data

Setelah membuat set data, Anda dapat mengimpor pasangan segmen ke dalam set data. Untuk detail tentang menyiapkan data sumber, baca Menyiapkan data pelatihan.

Untuk setiap file, konsol Google Cloud memungkinkan Anda memberi tag pada pasangan segmen yang diimpor dengan satu pasangan nilai kunci atau lebih. Pemberian tag akan memudahkan pencarian dan pemfilteran segmen berdasarkan sumber. Misalnya, satu pasangan nilai kunci dapat berupa Domain:costmetics atau Year:2020.

Anda dapat menambahkan tag saat mengimpor segmen melalui konsol Google Cloud ; pemberian tag tidak didukung oleh API. Selain itu, Anda tidak dapat mengubah atau menambahkan tag ke dalam segmen yang telah diimpor.

UI Web

Langkah-langkah berikut akan mengimpor item ke dalam set data yang sudah ada.

  1. Buka konsol AutoML Translation.

    Buka halaman Translation

  2. Di panel navigasi, klik Set Data.

  3. Dari daftar set data, klik nama set data yang ingin tambahkan dengan data pelatihan.

  4. Buka tab Import.

  5. Tambahkan file untuk mengimpor pasangan segmen ke pelatihan model.

    Upload file dari komputer lokal Anda ke bucket Cloud Storage atau pilih file yang sudah ada dari Cloud Storage.

    Secara default, Cloud Translation akan membagi data Anda menjadi set pelatihan, validasi, dan pengujian secara otomatis. Jika Anda ingin mengupload file terpisah untuk setiap bagiannya, pilih Gunakan file terpisah untuk pelatihan, validasi, dan pengujian (advanced). Gunakan opsi ini jika set data Anda memiliki lebih dari 100.000 pasangan segmen agar tidak melebihi batas maksimum 10.000 pasangan segmen untuk set validasi dan pengujian.

  6. Untuk menambahkan tag ke dalam pasangan segmen, luaskan Tag (opsional).

    1. Dari daftar file, klik Edit untuk menambahkan satu atau beberapa tag ke semua pasangan segmen untuk file yang ada.

    2. Di bagian Tags, klik Tambahkan tag.

    3. Masukkan kunci dan nilai. Anda akan dapat memfilter segmen berdasarkan pasangan nilai kunci ini.

    4. Untuk menambahkan lebih banyak tag, klik Tambahkan tag.

    5. Klik Lanjutkan setelah Anda selesai menambahkan tag.

  7. Klik Lanjutkan untuk mengimpor pasangan segmen.

    Setelah proses impor selesai, Anda dapat melihat pasangan kalimat yang diimpor di tab Kalimat set data. Anda dapat memfilter segmen berdasarkan pembagiannya (pelatihan, validasi, atau pengujian) dan berdasarkan satu atau beberapa tag.

REST

Gunakan metode projects.locations.datasets.importData untuk mengimpor item ke set data.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: Project ID Google Cloud Anda.
  • LOCATION: Region tempat set data akan berada, seperti us-central1.
  • DATASET_ID: ID set data yang akan ditambahkan dengan data.
  • FILE_DISPLAY_NAME: Nama file yang berisi data yang akan diimpor.
  • USAGE: Menentukan pembagian data untuk pasangan segmen ini (TRAIN, VALIDATION, atau TEST).
  • FILE_PATH: Jalur ke file data sumber di Cloud Storage.

Metode HTTP dan URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData

Meminta isi JSON:

{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

Anda akan menerima respons JSON yang mirip dengan yang berikut ini:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Bahasa tambahan

C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.

PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.

Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.

Setelah membuat dan mengisi set data, Anda dapat melatih model. Untuk informasi selengkapnya, baca Membuat dan mengelola model.

Masalah saat mengimpor

Saat Anda membuat set data, AutoML Translation mungkin menghapus pasangan segmen jika terlalu panjang, jika segmen dalam bahasa sumber dan bahasa target identik (tidak diterjemahkan), atau jika ada duplikat (beberapa segmen dengan teks bahasa sumber yang sama).

Untuk pasangan segmen yang terlalu panjang, sebaiknya pecah segmen tersebut menjadi sekitar 200 kata atau kurang, lalu buat ulang set datanya. Batas 200 kata adalah perkiraan untuk panjang maksimum. Saat memproses data Anda, AutoML Translation akan menggunakan proses internal untuk membuat token data input, yang dapat meningkatkan ukuran segmen. Data berupa token ini akan digunakan AutoML Translation untuk mengukur ukuran data.

Untuk pasangan segmen yang identik, hapus pasangan segmen tersebut dari set data Anda. Jika Anda ingin beberapa segmen tidak diterjemahkan, gunakan referensi glosarium untuk membuat kamus kustom.

Mengekspor data

Anda dapat mengekspor pasangan segmen dari set data yang ada ke bucket Cloud Storage.

UI Web

  1. Buka konsol AutoML Translation.

    Buka halaman Translation

  2. Di panel navigasi, klik Set Data untuk melihat daftar set data Anda.

  3. Klik nama set data yang datanya ingin Anda ekspor.

  4. Di halaman detail set data, klik Ekspor data.

  5. Pilih tujuan Cloud Storage tempat file TSV yang diekspor akan disimpan.

  6. Klik Ekspor.

    AutoML Translation menghasilkan file TSV yang diberi nama sesuai dengan set pada set datanya (pelatihan, validasi, dan pengujian).

REST

Gunakan metode projects.locations.datasets.exportData untuk mengekspor data ke Cloud Storage sebagai file TSV.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: Project ID Google Cloud Anda.
  • LOCATION: Region tempat set data yang akan diekspor berada, seperti us-central1.
  • DATASET_ID: ID set data yang akan diekspor.
  • DESTINATION_DIRECTORY: Jalur Cloud Storage tempat output dikirim.

Metode HTTP dan URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData

Meminta isi JSON:

{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

Anda akan menerima respons JSON yang mirip dengan yang berikut ini:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Bahasa tambahan

C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.

PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.

Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.

Mencantumkan set data

Cantumkan set data yang tersedia di project Anda.

UI Web

Untuk melihat daftar set data yang tersedia menggunakan konsol AutoML Translation, klik Set Data dari panel navigasi.

Untuk melihat set data project yang berbeda, pilih project dari menu drop-down di kanan atas kolom judul.

REST

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: Project ID Google Cloud Anda.
  • LOCATION: Region tempat set data yang akan dicantumkan berada, seperti us-central1.

Metode HTTP dan URL:

GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

Anda akan menerima respons JSON yang mirip dengan yang berikut ini:

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}

Bahasa tambahan

C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.

PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.

Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.

Menghapus set data

UI Web

  1. Di Konsol AutoML Translation, klik Set Data dari panel navigasi untuk menampilkan daftar set data yang tersedia.

  2. Untuk menghapus set data, pilih Lainnya > Hapus.

  3. Klik Konfirmasi di kotak dialog konfirmasi.

REST

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: Project ID Google Cloud Anda.
  • LOCATION: Region tempat set data yang akan dicantumkan berada, seperti us-central1.
  • DATASET_ID: ID set data yang akan dihapus.

Metode HTTP dan URL:

DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

Anda akan menerima respons JSON yang mirip dengan yang berikut ini:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}

Bahasa tambahan

C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.

PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.

Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.