Ringkasan model ucapan kustom

Model Speech-to-Text kustom membantu Anda menyesuaikan model pengenalan ucapan secara mendalam, sesuai kebutuhan spesifik Anda. Layanan ini dirancang untuk meningkatkan akurasi dan relevansi layanan pengenalan ucapan di berbagai lingkungan dan kasus penggunaan, menggunakan data audio dan teks khusus domain Anda.

Model Speech-to-Text Kustom dapat diakses melalui konsol Google Cloud dan API kami. Dengan fitur ini, Anda akan dapat melatih, mengevaluasi, dan men-deploy model ucapan khusus di lingkungan yang terintegrasi tanpa kode. Untuk pelatihan, Anda hanya perlu menyediakan data audio yang mewakili kondisi audio Anda, tanpa transkripsi referensi sebagai set pelatihan. Namun, Anda harus menyediakan data audio dan transkripsi referensinya sebagai bagian dari set evaluasi.

Pembuatan dan penggunaan model Cloud Speech-to-Text kustom melibatkan langkah-langkah berikut:

  1. Menyiapkan dan mengupload data pelatihan di bucket Cloud Storage.
  2. Melatih model kustom baru.
  3. Men-deploy dan mengelola model kustom Anda menggunakan endpoint.
  4. Menggunakan dan mengevaluasi model kustom di aplikasi Anda.

Cara kerjanya

Anda dapat menggunakan model Speech-to-Text Kustom untuk meningkatkan model transkripsi dasar guna meningkatkan pengenalan transkripsi. Beberapa kondisi audio, termasuk sirene, musik, dan suara bising di latar belakang yang berlebihan dapat menimbulkan kendala akustik. Aksen tertentu atau kosakata yang tidak biasa, seperti nama produk, juga dapat memicu kesalahan.

Setiap model Speech-to-Text Kustom menggunakan arsitektur berbasis Conformer yang telah dilatih sebelumnya sebagai model dasar yang dilatih dengan data eksklusif dari bahasa yang umum digunakan. Selama proses pelatihan, model dasar disesuakan secara mendalam dengan menyesuaikan sebagian besar bobot asli untuk meningkatkan pengenalan kosakata khusus domain dan kondisi audio yang khusus untuk aplikasi Anda.

Untuk pelatihan model Speech-to-Text Kustom yang efektif, Anda harus memberikan:

  • Data pelatihan minimal 100 jam audio, baik audio saja atau audio dengan transkrip teks yang sesuai sebagai kebenaran nyata. Data ini sangat penting untuk fase pelatihan awal, sehingga model dapat mempelajari secara komprehensif nuansa pola ucapan dan kosakata. Untuk mengetahui detailnya, lihat Membuat set data kebenaran nyata.
    • Set data terpisah yang berisi minimal 10 jam audio data validasi, dengan transkrip teks yang sesuai sebagai kebenaran nyata. Anda dapat mempelajari lebih lanjut format yang diharapkan dan konvensi kebenaran nyata yang harus diikuti dalam petunjuk penyiapan data kami.

Setelah pelatihan berhasil, Anda dapat men-deploy model Speech-to-Text Kustom di endpoint dengan sekali klik, dan menggunakannya secara langsung melalui Cloud Speech-to-Text V2 API Cloud untuk inferensi dan tolok ukur.

Model, bahasa, dan wilayah yang didukung

Model Speech-to-Text Kustom mendukung kombinasi model dan bahasa serta lokalitas berikut untuk pelatihan:

Bahasa BCP-47 Model dasar

Jerman (Jerman)

de-DE

latest_long

Inggris (Australia)

en-AU

latest_long

Inggris (Inggris Raya)

en-GB

latest_long

Inggris (India)

en-IN

latest_long

Inggris (Amerika Serikat)

en-US

latest_long

Spanyol (Amerika Serikat)

es-US

latest_long

Spanyol (Spanyol)

es-ES

latest_long

Prancis (Kanada)

fr-CA

latest_long

Prancis (Prancis)

fr-FR

latest_long

Hindi (India)

hi-IN

latest_long

Italia (Italia)

it-IT

latest_long

Jepang (Jepang)

ja-JP

latest_long

Korea (Korea Selatan)

ko-KR

latest_long

Belanda (Belanda)

nl-NL

latest_long

Portugis (Brasil)

pt-BR

latest_long

Portugis (Portugal)

pt-PT

latest_long

Selain itu, untuk mematuhi persyaratan residensi data Anda, kami menawarkan pelatihan dan hardware deployment di berbagai region. Hardware khusus didukung dalam kombinasi model dan region berikut:

Model dasar RegionGoogle Cloud Tugas yang didukung

latest_long

us-east1

Pelatihan dan Deployment

latest_long

europe-west4

Pelatihan dan Deployment

Kuota

Untuk pelatihan model Speech-to-Text Kustom, setiap project Google Cloud harus memiliki kuota default yang cukup untuk menjalankan beberapa tugas pelatihan secara bersamaan dan ditujukan untuk memenuhi kebutuhan sebagian besar project tanpa penyesuaian tambahan. Namun, jika Anda perlu menjalankan lebih banyak tugas pelatihan secara bersamaan atau memerlukan resource komputasi atau pelabelan yang lebih ekstensif, minta kuota tambahan.

Untuk model Speech-to-Text Kustom yang menyajikan deployment endpoint, setiap endpoint memiliki batas teoretis 20 kueri per detik (QPS). Jika throughput yang lebih tinggi diperlukan, minta kuota pelayanan tambahan.

Harga

Pembuatan dan penggunaan model Speech-to-Text Kustom memerlukan biaya tertentu yang terutama dihitung berdasarkan resource yang digunakan selama pelatihan dan deployment model berikutnya. Secara khusus, model Speech-to-Text Kustom akan menimbulkan biaya berikut dalam siklus proses model standar:

  • Pelatihan: Anda akan dikenai biaya untuk jumlah jam pelatihan model. Waktu ini sebanding dengan jumlah jam audio dalam set data pelatihan. Sebagai aturan, pelatihan memerlukan sepersepuluh dari jumlah jam audio dalam set data.
  • Deployment: Anda akan dikenai biaya untuk setiap jam model di-deploy di endpoint.
  • Inferensi: Anda akan dikenai biaya untuk jumlah detik audio yang di-streaming untuk transkripsi, sesuai dengan penagihan Cloud Speech-to-Text umum.

Memahami biaya ini sangat penting untuk penganggaran dan alokasi resource yang efektif. Untuk mengetahui informasi selengkapnya, di bagian model Speech-to-Text Kustom, lihat Harga Cloud Speech-to-Text Cloud.

Langkah berikutnya

Ikuti referensi berikut untuk memanfaatkan model ucapan kustom dalam aplikasi Anda: