Dasar-dasar Cloud Text-to-Speech

Text-to-Speech memungkinkan developer membuat ucapan sintetis yang terdengar natural seperti manusia sebagai audio yang dapat diputar. Anda dapat menggunakan file data audio yang dibuat menggunakan Text-to-Speech untuk mendukung aplikasi, atau untuk memperkaya media seperti rekaman video atau audio (sesuai dengan Persyaratan Layanan Google Cloud Platform), termasuk kepatuhan terhadap semua hukum yang berlaku).

Text-to-Speech mengonversi input Speech Synthesis Markup Language (SSML) atau teks menjadi data audio seperti MP3 atau LINEAR16 (encoding yang digunakan dalam file WAV).

Dokumen ini merupakan panduan konsep dasar penggunaan Text-to-Speech. Sebelum mempelajari lebih lanjut API ini, tinjau panduan memulai.

Contoh dasar

Text-to-Speech cocok untuk aplikasi apa pun yang memutar audio ucapan manusia kepada pengguna. API ini memungkinkan Anda mengubah sembarang string, kata, dan kalimat menjadi suara seseorang yang mengucapkan hal yang sama.

Bayangkan Anda memiliki aplikasi asisten suara yang memberikan masukan dengan bahasa yang natural kepada pengguna sebagai file audio yang dapat diputar. Aplikasi Anda akan melakukan suatu tindakan, lalu menghasilkan audio ucapan manusia sebagai masukan kepada pengguna.

Misalnya, aplikasi Anda mungkin ingin melaporkan bahwa penambahan acara ke kalender pengguna telah berhasil. Aplikasi Anda membuat string respons untuk melaporkan keberhasilan itu kepada pengguna, seperti "Saya telah menambahkan acara ke kalender Anda".

Dengan Text-to-Speech, Anda dapat mengonversi string respons tersebut menjadi ucapan manusia sungguhan yang dapat diperdengarkan kepada pengguna, mirip dengan contoh yang diberikan di bawah.

Contoh 1. File audio yang dihasilkan dari Text-to-Speech

Untuk membuat file audio seperti contoh 1, kirim permintaan ke Text-to-Speech seperti cuplikan kode berikut.

curl -H "Authorization: Bearer "$(gcloud auth print-access-token) -H "x-goog-user-project: <var>PROJECT_ID</var>" -H "Content-Type: application/json; charset=utf-8" --data "{
  'input':{
    'text':'With Cloud machine learning, your application interprets images, texts, and more.'
  },
  'voice':{
    'languageCode':'en-gb',
    'name':'en-GB-Chirp3-HD-Charon',
  },
  'audioConfig':{
    'audioEncoding':'LINEAR16'
  }
}" "https://texttospeech.googleapis.com/v1/text:synthesize"

Sintesis ucapan

Proses mengubah input teks menjadi data audio disebut sintesis dan output dari sintesis disebut ucapan sintetis. Text-to-Speech menggunakan dua jenis input: teks mentah atau data berformat SSML (dibahas di bawah). Untuk membuat file audio baru, panggil endpoint synthesize API ini.

Proses sintesis ucapan menghasilkan data audio mentah sebagai string berenkode base64. Anda harus mendekode string berenkode base64 menjadi file audio agar string tersebut dapat diputar di sebuah aplikasi. Sebagian besar platform dan sistem operasi memiliki alat untuk mendekode teks base64 menjadi file media yang dapat diputar.

Untuk mempelajari sintesis lebih lanjut, baca panduan memulai atau halaman Membuat File Audio Suara.

Suara

Text-to-Speech menghasilkan data audio mentah berupa ucapan manusia yang natural. Dengan kata lain, API ini menghasilkan audio yang terdengar seperti orang yang sedang berbicara. Saat mengirim permintaan sintesis ke Text-to-Speech, Anda harus menentukan suara yang 'mengucapkan' kata-kata tersebut.

Text-to-Speech menyediakan banyak pilihan suara kustom yang dapat Anda gunakan. Suara dibedakan berdasarkan bahasa, gender, dan aksen (untuk beberapa bahasa). Misalnya, Anda dapat membuat audio yang meniru suara penutur perempuan berbahasa Inggris dengan aksen British seperti contoh 1 di atas. Anda juga dapat mengonversi teks yang sama ke dalam suara berbeda, misalnya seorang penutur laki-laki berbahasa Inggris dengan aksen Australia.

Contoh 2. File audio yang dihasilkan dengan penutur en-AU

Untuk melihat daftar lengkap suara yang tersedia, lihat Suara yang Didukung.

Setelan output audio lainnya

Selain suara, Anda juga dapat mengonfigurasi aspek lain output data audio yang dihasilkan melalui sintesis ucapan. Text-to-Speech mendukung konfigurasi kecepatan bicara, tinggi nada, volume, dan frekuensi sampel dalam hertz.

Tinjau referensi AudioConfig untuk mengetahui informasi selengkapnya.

Dukungan Speech Synthesis Markup Language (SSML)

Anda dapat meningkatkan kualitas ucapan sintetis yang dihasilkan Text-to-Speech dengan me-mark up teks tersebut menggunakan Speech Synthesis Markup Language (SSML). SSML memungkinkan Anda menyisipkan jeda, pengucapan akronim, atau detail tambahan lainnya ke dalam data audio yang dihasilkan Text-to-Speech. Text-to-Speech mendukung sejumlah elemen SSML yang tersedia.

Misalnya, Anda dapat memastikan ucapan sintetis melafalkan bilangan ordinal dengan benar melalui pemberian input SSML ke Text-to-Speech yang menandai bilangan ordinal sebagaimana mestinya.

Contoh 5. File audio yang dihasilkan dari input teks biasa

Contoh 6. File audio yang dihasilkan dari input SSML

Untuk mempelajari lebih lanjut cara menyintesis ucapan dari SSML, lihat Membuat File Audio Suara

Coba sendiri

Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa Text-to-Speech dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

Coba Text-to-Speech gratis