Tutorial ini menunjukkan cara mentranskripsikan audio yang direkam dari telepon menggunakan Speech-to-Text.
File audio dapat berasal dari berbagai sumber yang berbeda. Data audio dapat berasal dari ponsel (seperti pesan suara) atau soundtrack yang disertakan dalam file video.
Speech-to-Text dapat menggunakan salah satu dari beberapa model machine learning untuk mentranskripsikan file audio Anda, agar cocok dengan sumber asli audio. Anda bisa mendapatkan hasil transkripsi ucapan yang lebih baik dengan menentukan sumber audio asli. Hal ini memungkinkan Speech-to-Text untuk memproses file audio Anda menggunakan model machine learning yang dilatih untuk data yang mirip dengan file audio Anda.
Mengirim permintaan
Untuk mentranskripsikan audio yang direkam di ponsel, seperti panggilan telepon atau
pesan suara, Anda dapat menetapkan kolom model
dalam
payload RecognitionConfig
ke
phone_call
. Kolom model
memberi tahu Speech-to-Text API
model pengenalan ucapan yang akan digunakan untuk permintaan transkripsi.
Anda dapat meningkatkan hasil transkripsi audio telepon menggunakan
model yang ditingkatkan. Untuk menggunakan model yang ditingkatkan, tetapkan kolom useEnhanced
ke true
dalam payload RecognitionConfig
Anda.
Contoh kode berikut menunjukkan cara memilih model transkripsi tertentu saat memanggil Speech-to-Text.
Protocol
Lihat endpoint speech:recognize
API untuk detail selengkapnya.
Untuk melakukan pengenalan ucapan sinkron, buat permintaan POST
dan berikan
isi permintaan yang sesuai. Berikut ini contoh permintaan POST
yang menggunakan
curl
. Contoh ini menggunakan Google Cloud CLI untuk membuat token akses. Untuk mengetahui petunjuk tentang cara menginstal gcloud CLI, lihat panduan memulai.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "enableWordTimeOffsets": false, "enableAutomaticPunctuation": true, "model": "phone_call", "useEnhanced": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }'
Lihat dokumentasi referensi RecognitionConfig
untuk
mengetahui informasi selengkapnya tentang cara mengonfigurasi isi permintaan.
Jika permintaan berhasil, server akan menampilkan kode status HTTP 200 OK
dan respons dalam format JSON:
{ "results": [ { "alternatives": [ { "transcript": "Hi, I'd like to buy a Chromecast. I was wondering whether you could help me with that.", "confidence": 0.8930228 } ], "resultEndTime": "5.640s" }, { "alternatives": [ { "transcript": " Certainly, which color would you like? We are blue black and red.", "confidence": 0.9101991 } ], "resultEndTime": "10.220s" }, { "alternatives": [ { "transcript": " Let's go with the black one.", "confidence": 0.8818244 } ], "resultEndTime": "13.870s" }, { "alternatives": [ { "transcript": " Would you like the new Chromecast Ultra model or the regular Chromecast?", "confidence": 0.94733626 } ], "resultEndTime": "18.460s" }, { "alternatives": [ { "transcript": " Regular Chromecast is fine. Thank you. Okay. Sure. Would you like to ship it regular or Express?", "confidence": 0.9519095 } ], "resultEndTime": "25.930s" }, { "alternatives": [ { "transcript": " Express, please.", "confidence": 0.9101229 } ], "resultEndTime": "28.260s" }, { "alternatives": [ { "transcript": " Terrific. It's on the way. Thank you. Thank you very much. Bye.", "confidence": 0.9321616 } ], "resultEndTime": "34.150s" } ] }
Go
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Go Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Java Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Node.js Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Bahasa tambahan
C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk .NET.
PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien lalu buka Dokumentasi referensi Speech-to-Text untuk PHP.
Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk Ruby.