- Permintaan HTTP
- Isi Permintaan
- Isi respons
- Cakupan otorisasi
- SpeechRecognitionResult
- SpeechRecognitionAlternative
- WordInfo
- SpeechAdaptationInfo
- Cobalah!
Melakukan pengenalan ucapan sinkron: menerima hasil setelah semua audio dikirim dan diproses.
Permintaan HTTP
POST https://speech.googleapis.com/v1p1beta1/speech:recognize
URL menggunakan sintaks gRPC Transcoding.
Isi permintaan
Isi permintaan memuat data dengan struktur berikut:
| Representasi JSON |
|---|
{ "config": { object ( |
| Kolom | |
|---|---|
config |
Wajib. Memberikan informasi ke pengenal yang menentukan cara memproses permintaan. |
audio |
Wajib. Data audio yang akan dikenali. |
Isi respons
Satu-satunya pesan yang ditampilkan ke klien oleh metode speech.recognize. Objek ini berisi hasil sebagai nol atau beberapa pesan SpeechRecognitionResult berurutan.
Jika berhasil, isi respons memuat data dengan struktur berikut:
| Representasi JSON |
|---|
{ "results": [ { object ( |
| Kolom | |
|---|---|
results[] |
Daftar hasil transkripsi berurutan yang sesuai dengan bagian audio berurutan. |
totalBilledTime |
Jika tersedia, detik audio yang ditagih untuk permintaan yang sesuai. Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan ' |
speechAdaptationInfo |
Memberikan informasi tentang perilaku adaptasi dalam respons |
requestId |
ID yang terkait dengan permintaan. Ini adalah ID unik yang khusus untuk permintaan tertentu. |
usingLegacyModels |
Apakah permintaan menggunakan model ASR lama (tidak otomatis dimigrasikan untuk menggunakan model conformer). |
Cakupan otorisasi
Memerlukan cakupan OAuth berikut:
https://www.googleapis.com/auth/cloud-platform
Untuk mengetahui informasi selengkapnya, lihat Authentication Overview.
SpeechRecognitionResult
Hasil pengenalan ucapan yang sesuai dengan sebagian audio.
| Representasi JSON |
|---|
{
"alternatives": [
{
object ( |
| Kolom | |
|---|---|
alternatives[] |
Dapat berisi satu atau beberapa hipotesis pengenalan (hingga maksimum yang ditentukan dalam |
channelTag |
Untuk audio multi-saluran, ini adalah nomor saluran yang sesuai dengan hasil yang dikenali untuk audio dari saluran tersebut. Untuk audioChannelCount = N, nilai outputnya dapat berkisar dari '1' hingga 'N'. |
resultEndTime |
Selisih waktu akhir hasil ini relatif terhadap awal audio. Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan ' |
languageCode |
Hanya output. Tag bahasa BCP-47 dari bahasa dalam hasil ini. Kode bahasa ini terdeteksi sebagai bahasa yang paling mungkin digunakan dalam audio. |
SpeechRecognitionAlternative
Hipotesis alternatif (alias daftar n-terbaik).
| Representasi JSON |
|---|
{
"transcript": string,
"confidence": number,
"words": [
{
object ( |
| Kolom | |
|---|---|
transcript |
Teks transkrip yang mewakili kata-kata yang diucapkan pengguna. Dalam bahasa yang menggunakan spasi untuk memisahkan kata, transkrip mungkin memiliki spasi di awal jika bukan hasil pertama. Anda dapat menggabungkan setiap hasil untuk mendapatkan transkrip lengkap tanpa menggunakan pemisah. |
confidence |
Perkiraan keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali sudah benar. Kolom ini hanya ditetapkan untuk alternatif teratas dari hasil non-streaming atau hasil streaming dengan |
words[] |
Daftar informasi khusus kata untuk setiap kata yang dikenali. Catatan: Jika |
WordInfo
Informasi khusus kata untuk kata yang dikenali.
| Representasi JSON |
|---|
{ "startTime": string, "endTime": string, "word": string, "confidence": number, "speakerTag": integer, "speakerLabel": string } |
| Kolom | |
|---|---|
startTime |
Selisih waktu relatif terhadap awal audio, dan sesuai dengan awal kata yang diucapkan. Kolom ini hanya ditetapkan jika Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan ' |
endTime |
Selisih waktu relatif terhadap awal audio, dan sesuai dengan akhir kata yang diucapkan. Kolom ini hanya ditetapkan jika Durasi dalam detik dengan maksimal sembilan digit pecahan, yang diakhiri dengan ' |
word |
Kata yang sesuai dengan kumpulan informasi ini. |
confidence |
Perkiraan keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali sudah benar. Kolom ini hanya ditetapkan untuk alternatif teratas dari hasil non-streaming atau hasil streaming dengan |
speakerTag |
Hanya output. Nilai bilangan bulat yang berbeda ditetapkan untuk setiap pembicara dalam audio. Kolom ini menentukan salah satu pembicara yang terdeteksi mengucapkan kata ini. Rentang nilai dari '1' hingga diarizationSpeakerCount. speakerTag ditetapkan jika enableSpeakerDiarization = 'true' dan hanya untuk alternatif teratas. Catatan: Gunakan speakerLabel sebagai gantinya. |
speakerLabel |
Hanya output. Nilai label yang ditetapkan untuk setiap penutur unik dalam audio. Kolom ini menentukan speaker mana yang terdeteksi telah mengucapkan kata ini. Untuk beberapa model, seperti medical_conversation, ini dapat berupa peran penutur yang sebenarnya, misalnya "pasien" atau "penyedia", tetapi umumnya ini adalah angka yang mengidentifikasi penutur. Kolom ini hanya ditetapkan jika enableSpeakerDiarization = 'true' dan hanya untuk alternatif teratas. |
SpeechAdaptationInfo
Informasi tentang penggunaan adaptasi ucapan dalam hasil
| Representasi JSON |
|---|
{ "adaptationTimeout": boolean, "timeoutMessage": string } |
| Kolom | |
|---|---|
adaptationTimeout |
Apakah terjadi waktu tunggu saat menerapkan adaptasi ucapan. Jika benar (true), adaptasi tidak berpengaruh pada transkrip respons. |
timeoutMessage |
Jika ditetapkan, menampilkan pesan yang menentukan bagian permintaan adaptasi ucapan yang waktunya habis. |