Indeks
Adaptation(grafis)Speech(grafis)CreateCustomClassRequest(pesan)CreatePhraseSetRequest(pesan)CustomClass(pesan)CustomClass.ClassItem(pesan)CustomClass.State(enum)DeleteCustomClassRequest(pesan)DeletePhraseSetRequest(pesan)GetCustomClassRequest(pesan)GetPhraseSetRequest(pesan)ListCustomClassesRequest(pesan)ListCustomClassesResponse(pesan)ListPhraseSetRequest(pesan)ListPhraseSetResponse(pesan)LongRunningRecognizeMetadata(pesan)LongRunningRecognizeRequest(pesan)LongRunningRecognizeResponse(pesan)PhraseSet(pesan)PhraseSet.Phrase(pesan)PhraseSet.State(enum)RecognitionAudio(pesan)RecognitionConfig(pesan)RecognitionConfig.AudioEncoding(enum)RecognitionMetadata(pesan) (tidak digunakan lagi)RecognitionMetadata.InteractionType(enum)RecognitionMetadata.MicrophoneDistance(enum)RecognitionMetadata.OriginalMediaType(enum)RecognitionMetadata.RecordingDeviceType(enum)RecognizeRequest(pesan)RecognizeResponse(pesan)SpeakerDiarizationConfig(pesan)SpeechAdaptation(pesan)SpeechAdaptation.ABNFGrammar(pesan)SpeechAdaptationInfo(pesan)SpeechContext(pesan)SpeechRecognitionAlternative(pesan)SpeechRecognitionResult(pesan)StreamingRecognitionConfig(pesan)StreamingRecognitionConfig.VoiceActivityTimeout(pesan)StreamingRecognitionResult(pesan)StreamingRecognizeRequest(pesan)StreamingRecognizeResponse(pesan)StreamingRecognizeResponse.SpeechEventType(enum)TranscriptNormalization(pesan)TranscriptNormalization.Entry(pesan)TranscriptOutputConfig(pesan)UpdateCustomClassRequest(pesan)UpdatePhraseSetRequest(pesan)WordInfo(pesan)
Adaptasi
Layanan yang menerapkan Google Cloud Speech Adaptation API.
| CreateCustomClass |
|---|
|
Buat class kustom.
|
| CreatePhraseSet |
|---|
|
Buat kumpulan saran frasa. Setiap item dalam set dapat berupa satu kata atau frasa multi-kata. Item dalam PhraseSet lebih disukai oleh model pengenalan saat Anda mengirim panggilan yang menyertakan PhraseSet.
|
| DeleteCustomClass |
|---|
|
Menghapus kelas kustom.
|
| DeletePhraseSet |
|---|
|
Menghapus kumpulan frasa.
|
| GetCustomClass |
|---|
|
Mendapatkan kelas kustom.
|
| GetPhraseSet |
|---|
|
Mendapatkan set frasa.
|
| ListCustomClasses |
|---|
|
Mencantumkan class kustom.
|
| ListPhraseSet |
|---|
|
Mencantumkan kumpulan frasa.
|
| UpdateCustomClass |
|---|
|
Perbarui kelas kustom.
|
| UpdatePhraseSet |
|---|
|
Perbarui set frasa.
|
Ucapan
Layanan yang menerapkan Google Cloud Speech API.
| LongRunningRecognize |
|---|
|
Melakukan pengenalan ucapan asinkron: menerima hasil melalui antarmuka google.longrunning.Operations. Menampilkan
|
| Kenali |
|---|
|
Melakukan pengenalan ucapan sinkron: menerima hasil setelah semua audio dikirim dan diproses.
|
| StreamingRecognize |
|---|
|
Menjalankan pengenalan ucapan streaming dua arah: menerima hasil saat mengirim audio. Metode ini hanya tersedia melalui gRPC API (bukan REST).
|
CreateCustomClassRequest
Pesan yang dikirim oleh klien untuk metode CreateCustomClass.
| Kolom | |
|---|---|
parent |
Wajib. Resource induk tempat class kustom ini akan dibuat. Format:
Speech-to-Text mendukung tiga lokasi: Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan
|
custom_class_id |
Wajib. ID yang akan digunakan untuk class kustom, yang akan menjadi komponen akhir dari nama resource class kustom. Nilai ini harus dibatasi untuk huruf, angka, dan tanda hubung, dengan karakter pertama adalah huruf, karakter terakhir adalah huruf atau angka, dan terdiri dari 4-63 karakter. |
custom_class |
Wajib. Class kustom yang akan dibuat. |
CreatePhraseSetRequest
Pesan yang dikirim oleh klien untuk metode CreatePhraseSet.
| Kolom | |
|---|---|
parent |
Wajib. Resource induk tempat set frasa ini akan dibuat. Format:
Speech-to-Text mendukung tiga lokasi: Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan
|
phrase_set_id |
Wajib. ID yang akan digunakan untuk set frasa, yang akan menjadi komponen akhir dari nama resource set frasa. Nilai ini harus dibatasi untuk huruf, angka, dan tanda hubung, dengan karakter pertama adalah huruf, karakter terakhir adalah huruf atau angka, dan terdiri dari 4-63 karakter. |
phrase_set |
Wajib. Kumpulan frasa yang akan dibuat. |
CustomClass
Sekumpulan kata atau frasa yang mewakili konsep umum yang kemungkinan muncul dalam audio Anda, misalnya daftar nama kapal penumpang. Item CustomClass dapat digantikan ke dalam placeholder yang Anda tetapkan dalam frasa PhraseSet.
| Kolom | |
|---|---|
name |
Nama resource class kustom. |
custom_class_id |
Jika class kustom ini adalah resource, custom_class_id adalah ID resource CustomClass. Peka huruf besar/kecil. |
items[] |
Kumpulan item class. |
kms_key_name |
Hanya output. Nama kunci KMS yang digunakan untuk mengenkripsi konten ClassItem. Format yang diharapkan adalah |
kms_key_version_name |
Hanya output. Nama versi kunci KMS yang digunakan untuk mengenkripsi konten ClassItem. Format yang diharapkan adalah |
uid |
Hanya output. ID unik yang ditetapkan sistem untuk CustomClass. Kolom ini tidak digunakan. |
display_name |
Hanya output. Nama yang dapat dibaca manusia dan dapat ditetapkan pengguna untuk CustomClass. Harus terdiri dari 63 karakter atau kurang. Kolom ini tidak digunakan. |
state |
Hanya output. Status siklus proses CustomClass. Kolom ini tidak digunakan. |
delete_time |
Hanya output. Waktu saat resource ini diminta untuk dihapus. Kolom ini tidak digunakan. |
expire_time |
Hanya output. Waktu saat resource ini akan dihapus. Kolom ini tidak digunakan. |
annotations |
Hanya output. Mengizinkan pengguna menyimpan data arbitrer dalam jumlah kecil. Panjang kunci dan nilai masing-masing tidak boleh lebih dari 63 karakter. Maksimal 100 anotasi. Kolom ini tidak digunakan. |
etag |
Hanya output. Checksum ini dihitung oleh server berdasarkan nilai kolom lainnya. Nilai ini dapat dikirim pada permintaan update, urungkan penghapusan, dan hapus untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. Kolom ini tidak digunakan. |
reconciling |
Hanya output. Apakah CustomClass ini sedang dalam proses diperbarui atau tidak. Kolom ini tidak digunakan. |
ClassItem
Item class.
| Kolom | |
|---|---|
value |
Nilai item kelas. |
Negara bagian/Provinsi
Kumpulan status yang menentukan siklus proses CustomClass.
| Enum | |
|---|---|
STATE_UNSPECIFIED |
Status tidak ditentukan. Ini hanya digunakan/berguna untuk membedakan nilai yang tidak disetel. |
ACTIVE |
Status normal dan aktif. |
DELETED |
CustomClass ini telah dihapus. |
DeleteCustomClassRequest
Pesan yang dikirim oleh klien untuk metode DeleteCustomClass.
| Kolom | |
|---|---|
name |
Wajib. Nama class kustom yang akan dihapus. Format:
Speech-to-Text mendukung tiga lokasi: Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan
|
DeletePhraseSetRequest
Pesan yang dikirim oleh klien untuk metode DeletePhraseSet.
| Kolom | |
|---|---|
name |
Wajib. Nama set frasa yang akan dihapus. Format:
Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan
|
GetCustomClassRequest
Pesan yang dikirim oleh klien untuk metode GetCustomClass.
| Kolom | |
|---|---|
name |
Wajib. Nama class kustom yang akan diambil. Format:
Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan
|
GetPhraseSetRequest
Pesan yang dikirim oleh klien untuk metode GetPhraseSet.
| Kolom | |
|---|---|
name |
Wajib. Nama set frasa yang akan diambil. Format:
Speech-to-Text mendukung tiga lokasi: Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan
|
ListCustomClassesRequest
Pesan yang dikirim oleh klien untuk metode ListCustomClasses.
| Kolom | |
|---|---|
parent |
Wajib. Induk, yang memiliki kumpulan class kustom ini. Format:
Speech-to-Text mendukung tiga lokasi: Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan
|
page_size |
Jumlah maksimum kelas kustom yang akan ditampilkan. Layanan mungkin menampilkan lebih sedikit dari nilai ini. Jika tidak ditentukan, paling banyak 50 kelas kustom akan ditampilkan. Nilai maksimum adalah 1.000; nilai di atas 1.000 akan dikonversi menjadi 1.000. |
page_token |
Token halaman, yang diterima dari panggilan Saat melakukan penomoran halaman, semua parameter lain yang disediakan untuk |
ListCustomClassesResponse
Pesan yang ditampilkan ke klien oleh metode ListCustomClasses.
| Kolom | |
|---|---|
custom_classes[] |
Class kustom. |
next_page_token |
Token yang dapat dikirim sebagai |
ListPhraseSetRequest
Pesan yang dikirim oleh klien untuk metode ListPhraseSet.
| Kolom | |
|---|---|
parent |
Wajib. Induk, yang memiliki kumpulan set frasa ini. Format:
Speech-to-Text mendukung tiga lokasi: Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan
|
page_size |
Jumlah maksimum set frasa yang akan ditampilkan. Layanan mungkin menampilkan lebih sedikit dari nilai ini. Jika tidak ditentukan, paling banyak 50 set frasa akan ditampilkan. Nilai maksimum adalah 1.000; nilai di atas 1.000 akan dikonversi menjadi 1.000. |
page_token |
Token halaman, yang diterima dari panggilan Saat melakukan penomoran halaman, semua parameter lain yang disediakan untuk |
ListPhraseSetResponse
Pesan yang ditampilkan ke klien oleh metode ListPhraseSet.
| Kolom | |
|---|---|
phrase_sets[] |
Kumpulan frasa. |
next_page_token |
Token yang dapat dikirim sebagai |
LongRunningRecognizeMetadata
Menjelaskan progres panggilan LongRunningRecognize yang berjalan lama. Hal ini disertakan dalam kolom metadata dari Operation yang ditampilkan oleh panggilan GetOperation dari layanan google::longrunning::Operations.
| Kolom | |
|---|---|
progress_percent |
Perkiraan persentase audio yang diproses sejauh ini. Dijamin 100 jika audio telah diproses sepenuhnya dan hasilnya tersedia. |
start_time |
Waktu saat permintaan diterima. |
last_update_time |
Waktu update pemrosesan terbaru. |
uri |
Hanya output. URI file audio yang sedang ditranskripsikan. Kosong jika audio dikirim sebagai konten byte. |
LongRunningRecognizeRequest
Pesan tingkat teratas yang dikirim oleh klien untuk metode LongRunningRecognize.
| Kolom | |
|---|---|
config |
Wajib. Memberikan informasi ke pengenal yang menentukan cara memproses permintaan. |
audio |
Wajib. Data audio yang akan dikenali. |
output_config |
Opsional. Menentukan tujuan opsional untuk hasil pengenalan. |
LongRunningRecognizeResponse
Satu-satunya pesan yang ditampilkan ke klien oleh metode LongRunningRecognize. Objek ini berisi hasil sebagai nol atau beberapa pesan SpeechRecognitionResult berurutan. Hal ini disertakan dalam kolom result.response dari Operation yang ditampilkan oleh panggilan GetOperation dari layanan google::longrunning::Operations.
| Kolom | |
|---|---|
results[] |
Daftar hasil transkripsi berurutan yang sesuai dengan bagian audio berurutan. |
total_billed_time |
Jika tersedia, detik audio yang ditagih untuk permintaan yang sesuai. |
output_config |
Konfigurasi output asli jika ada dalam permintaan. |
output_error |
Jika output transkrip gagal, kolom ini berisi error yang relevan. |
speech_adaptation_info |
Memberikan informasi tentang perilaku adaptasi ucapan dalam respons |
request_id |
ID yang terkait dengan permintaan. Ini adalah ID unik yang khusus untuk permintaan tertentu. |
PhraseSet
Memberikan "petunjuk" kepada pengenal ucapan untuk lebih memilih kata dan frasa tertentu dalam hasil.
| Kolom | |
|---|---|
name |
Nama resource set frasa. |
phrases[] |
Daftar kata dan frasa. |
boost |
Peningkatan Petunjuk. Nilai positif akan meningkatkan kemungkinan frasa tertentu dikenali dibandingkan frasa lain yang terdengar serupa. Semakin tinggi peningkatannya, semakin tinggi juga peluang pengenalan positif palsu. Nilai peningkatan negatif akan sesuai dengan anti-bias. Anti-bias tidak diaktifkan, sehingga peningkatan negatif akan diabaikan. Meskipun |
kms_key_name |
Hanya output. Nama kunci KMS yang digunakan untuk mengenkripsi konten PhraseSet. Format yang diharapkan adalah |
kms_key_version_name |
Hanya output. Nama versi kunci KMS yang digunakan untuk mengenkripsi konten PhraseSet. Format yang diharapkan adalah |
uid |
Hanya output. ID unik yang ditetapkan sistem untuk PhraseSet. Kolom ini tidak digunakan. |
display_name |
Hanya output. Nama yang dapat dibaca manusia dan dapat ditetapkan pengguna untuk PhraseSet. Harus terdiri dari 63 karakter atau kurang. Kolom ini tidak digunakan. |
state |
Hanya output. Status siklus proses CustomClass. Kolom ini tidak digunakan. |
delete_time |
Hanya output. Waktu saat resource ini diminta untuk dihapus. Kolom ini tidak digunakan. |
expire_time |
Hanya output. Waktu saat resource ini akan dihapus. Kolom ini tidak digunakan. |
annotations |
Hanya output. Mengizinkan pengguna menyimpan data arbitrer dalam jumlah kecil. Panjang kunci dan nilai masing-masing tidak boleh lebih dari 63 karakter. Maksimal 100 anotasi. Kolom ini tidak digunakan. |
etag |
Hanya output. Checksum ini dihitung oleh server berdasarkan nilai kolom lainnya. Nilai ini dapat dikirim pada permintaan update, urungkan penghapusan, dan hapus untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. Kolom ini tidak digunakan. |
reconciling |
Hanya output. Apakah PhraseSet ini sedang dalam proses diperbarui atau tidak. Kolom ini tidak digunakan. |
Frasa
Frasa yang berisi "petunjuk" kata dan frasa sehingga pengenalan ucapan lebih mungkin mengenali frasa tersebut. Hal ini dapat digunakan untuk meningkatkan akurasi kata dan frasa tertentu, misalnya, jika perintah tertentu biasanya diucapkan oleh pengguna. Hal ini juga dapat digunakan untuk menambahkan kata-kata tambahan ke kosakata pengenal. Lihat batas penggunaan.
Item daftar juga dapat menyertakan class bawaan atau kustom yang berisi grup kata yang mewakili konsep umum yang muncul dalam bahasa alami. Misalnya, daripada memberikan petunjuk frasa untuk setiap bulan dalam setahun (misalnya, "saya lahir pada bulan januari", "saya lahir pada bulan februari", ...), penggunaan class $MONTH bawaan meningkatkan kemungkinan transkripsi audio yang menyertakan bulan dengan benar (misalnya, "saya lahir pada bulan $month"). Untuk merujuk ke class bawaan, gunakan simbol class yang diawali dengan $, misalnya $MONTH. Untuk merujuk ke class kustom yang ditentukan inline dalam permintaan, tetapkan custom_class_id class ke string yang unik untuk semua resource class dan class inline. Kemudian, gunakan ID class yang diapit dalam ${...}, misalnya "${my-months}". Untuk merujuk ke resource class kustom, gunakan ID class yang diapit dalam ${} (misalnya, ${my-months}).
Speech-to-Text mendukung tiga lokasi: global, us (Amerika Utara AS), dan eu (Eropa). Jika Anda memanggil endpoint speech.googleapis.com, gunakan lokasi global. Untuk menentukan region, gunakan endpoint regional dengan nilai lokasi us atau eu yang cocok.
| Kolom | |
|---|---|
value |
Frasa itu sendiri. |
boost |
Peningkatan Petunjuk. Menggantikan peningkat yang ditetapkan di tingkat set frasa. Nilai positif akan meningkatkan kemungkinan frasa tertentu dikenali dibandingkan frasa lain yang terdengar serupa. Semakin tinggi peningkatannya, semakin tinggi juga peluang pengenalan positif palsu. Peningkatan negatif akan diabaikan. Meskipun |
Negara bagian/Provinsi
Kumpulan status yang menentukan siklus proses CustomClass.
| Enum | |
|---|---|
STATE_UNSPECIFIED |
Status tidak ditentukan. Ini hanya digunakan/berguna untuk membedakan nilai yang tidak disetel. |
ACTIVE |
Status normal dan aktif. |
DELETED |
CustomClass ini telah dihapus. |
RecognitionAudio
Berisi data audio dalam encoding yang ditentukan dalam RecognitionConfig. content atau uri harus diberikan. Menyediakan keduanya atau tidak satu pun akan menampilkan google.rpc.Code.INVALID_ARGUMENT. Lihat batas konten.
| Kolom | |
|---|---|
Kolom union audio_source. Sumber audio, yang berupa konten inline atau URI Google Cloud Storage. audio_source hanya ada berupa salah satu diantara berikut: |
|
content |
Byte data audio dienkode seperti yang ditentukan dalam |
uri |
URI yang mengarah ke file yang berisi byte data audio seperti yang ditentukan dalam |
RecognitionConfig
Memberikan informasi ke pengenal yang menentukan cara memproses permintaan.
| Kolom | |||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
encoding |
Encoding data audio yang dikirim dalam semua pesan |
||||||||||||||||||
sample_rate_hertz |
Frekuensi sampel dalam Hertz dari data audio yang dikirim dalam semua pesan |
||||||||||||||||||
audio_channel_count |
Jumlah saluran dalam data audio input. HANYA tetapkan ini untuk pengenalan MULTI-CHANNEL. Nilai yang valid untuk LINEAR16, OGG_OPUS, dan FLAC adalah |
||||||||||||||||||
enable_separate_recognition_per_channel |
Setelan ini harus ditetapkan ke |
||||||||||||||||||
language_code |
Wajib. Bahasa audio yang disediakan sebagai tag bahasa BCP-47. Contoh: "en-US". Lihat Dukungan Bahasa untuk mengetahui daftar kode bahasa yang saat ini didukung. |
||||||||||||||||||
alternative_language_codes[] |
Daftar hingga 3 tag bahasa BCP-47 tambahan, yang mencantumkan kemungkinan bahasa alternatif dari audio yang diberikan. Lihat Dukungan Bahasa untuk mengetahui daftar kode bahasa yang saat ini didukung. Jika bahasa alternatif tercantum, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi, termasuk main language_code. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi dalam audio. Catatan: Fitur ini hanya didukung untuk kasus penggunaan Perintah Suara dan Penelusuran Suara, dan performanya dapat bervariasi untuk kasus penggunaan lainnya (misalnya, transkripsi panggilan telepon). |
||||||||||||||||||
max_alternatives |
Jumlah maksimum hipotesis pengenalan yang akan ditampilkan. Secara khusus, jumlah maksimum pesan |
||||||||||||||||||
profanity_filter |
Jika disetel ke |
||||||||||||||||||
adaptation |
Konfigurasi adaptasi ucapan meningkatkan akurasi pengenalan ucapan. Untuk mengetahui informasi selengkapnya, lihat dokumentasi adaptasi ucapan. Jika ditetapkan, adaptasi ucapan akan menggantikan kolom |
||||||||||||||||||
transcript_normalization |
Opsional. Gunakan normalisasi transkripsi untuk otomatis mengganti bagian transkrip dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial yang stabil (stabilitas > 0,8) dan transkrip akhir. |
||||||||||||||||||
speech_contexts[] |
Array |
||||||||||||||||||
enable_word_time_offsets |
Jika |
||||||||||||||||||
enable_word_confidence |
Jika |
||||||||||||||||||
enable_automatic_punctuation |
Jika 'true', menambahkan tanda baca ke hipotesis hasil pengenalan. Fitur ini hanya tersedia dalam bahasa tertentu. Menetapkan ini untuk permintaan dalam bahasa lain tidak akan berpengaruh sama sekali. Nilai default 'false' tidak menambahkan tanda baca ke hipotesis hasil. |
||||||||||||||||||
enable_spoken_punctuation |
Perilaku tanda baca yang diucapkan untuk panggilan Jika tidak disetel, akan menggunakan perilaku default berdasarkan model pilihan, misalnya command_and_search akan mengaktifkan tanda baca yang diucapkan secara default Jika 'true', akan menggantikan tanda baca yang diucapkan dengan simbol yang sesuai dalam permintaan. Misalnya, "apa kabar tanda tanya" akan menjadi "apa kabar?". Lihat https://cloud.google.com/speech-to-text/docs/spoken-punctuation untuk mendapatkan dukungan. Jika 'false', tanda baca lisan tidak diganti. |
||||||||||||||||||
enable_spoken_emojis |
Perilaku emoji yang diucapkan untuk panggilan Jika tidak disetel, akan menggunakan perilaku default berdasarkan model pilihan Jika 'true', akan menambahkan format emoji yang diucapkan untuk permintaan. Tindakan ini akan menggantikan emoji yang diucapkan dengan simbol Unicode yang sesuai dalam transkrip akhir. Jika 'false', emoji lisan tidak diganti. |
||||||||||||||||||
diarization_config |
Konfigurasi untuk mengaktifkan diarisasi pembicara dan menetapkan parameter tambahan agar diarisasi lebih sesuai untuk aplikasi Anda. Catatan: Jika diaktifkan, kami akan mengirimkan semua kata dari awal audio untuk alternatif teratas dalam setiap respons STREAMING berturut-turut. Hal ini dilakukan untuk meningkatkan kualitas tag pembicara kami karena model kami belajar mengidentifikasi pembicara dalam percakapan dari waktu ke waktu. Untuk permintaan non-streaming, hasil diarisasi hanya akan diberikan dalam alternatif teratas SpeechRecognitionResult FINAL. |
||||||||||||||||||
metadata |
Metadata terkait permintaan ini. |
||||||||||||||||||
model |
Model mana yang harus dipilih untuk permintaan tertentu. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik. Jika model tidak ditentukan secara eksplisit, kami akan otomatis memilih model berdasarkan parameter di RecognitionConfig.
|
||||||||||||||||||
use_enhanced |
Tetapkan ke benar (true) untuk menggunakan model yang ditingkatkan kualitasnya untuk pengenalan ucapan. Jika Jika |
||||||||||||||||||
AudioEncoding
Encoding data audio yang dikirim dalam permintaan.
Semua encoding hanya mendukung audio 1 channel (mono), kecuali jika kolom audio_channel_count dan enable_separate_recognition_per_channel ditetapkan.
Untuk hasil terbaik, sumber audio harus direkam dan dikirim menggunakan encoding lossless (FLAC atau LINEAR16). Akurasi pengenalan ucapan dapat berkurang jika codec lossy digunakan untuk merekam atau mengirimkan audio, terutama jika ada suara bising di latar belakang. Codec lossy mencakup MULAW, AMR, AMR_WB, OGG_OPUS, SPEEX_WITH_HEADER_BYTE, MP3, dan WEBM_OPUS.
Format file audio FLAC dan WAV menyertakan header yang menjelaskan konten audio yang disertakan. Anda dapat meminta pengenalan untuk file WAV yang berisi audio yang dienkode LINEAR16 atau MULAW. Jika Anda mengirim format file audio FLAC atau WAV dalam permintaan, Anda tidak perlu menentukan AudioEncoding; format encoding audio ditentukan dari header file. Jika Anda menentukan AudioEncoding saat mengirim audio FLAC atau WAV, konfigurasi encoding harus cocok dengan encoding yang dijelaskan di header audio; jika tidak, permintaan akan menampilkan kode error google.rpc.Code.INVALID_ARGUMENT.
| Enum | |
|---|---|
ENCODING_UNSPECIFIED |
Tidak ditentukan. |
LINEAR16 |
Sampel little-endian bertanda 16-bit tanpa kompresi (PCM Linear). |
FLAC |
FLAC (Free Lossless Audio Codec) adalah encoding yang direkomendasikan karena lossless--oleh karena itu pengenalan tidak terganggu--dan hanya memerlukan sekitar setengah bandwidth LINEAR16. Encoding streaming FLAC mendukung sampel 16-bit dan 24-bit, tetapi tidak semua kolom di STREAMINFO didukung. |
MULAW |
Sampel 8-bit yang memadatkan sampel audio 14-bit menggunakan PCMU/mu-law G.711. |
AMR |
Codec Narrowband Multi-Kecepatan Adaptif. sample_rate_hertz harus 8000. |
AMR_WB |
Codec Wideband Multi-Kecepatan Adaptif. sample_rate_hertz harus 16000. |
OGG_OPUS |
Frame audio yang dienkode Opus dalam container Ogg (OggOpus). sample_rate_hertz harus salah satu dari 8000, 12000, 16000, 24000, atau 48000. |
SPEEX_WITH_HEADER_BYTE |
Meskipun penggunaan encoding lossy tidak direkomendasikan, jika encoding dengan bitrate yang sangat rendah diperlukan, OGG_OPUS lebih disarankan daripada encoding Speex. Encoding Speex yang didukung oleh Cloud Speech API memiliki byte header di setiap blok, seperti pada jenis MIME audio/x-speex-with-header-byte. Codec ini adalah varian encoding Speex RTP yang ditentukan dalam RFC 5574. Aliran adalah urutan blok, satu blok per paket RTP. Setiap blok dimulai dengan byte yang berisi panjang blok, dalam byte, diikuti dengan satu atau beberapa frame data Speex, yang di-padding ke bilangan bulat byte (oktet) seperti yang ditentukan dalam RFC 5574. Dengan kata lain, setiap header RTP diganti dengan satu byte yang berisi panjang blok. Hanya wideband Speex yang didukung. sample_rate_hertz harus 16000. |
MP3 |
Audio MP3. Encoding MP3 adalah fitur Beta dan hanya tersedia di v1p1beta1. Mendukung semua kecepatan bit MP3 standar (yang berkisar dari 32-320 kbps). Saat menggunakan encoding ini, sample_rate_hertz harus cocok dengan frekuensi sampel file yang digunakan. |
WEBM_OPUS |
Frame audio yang dienkode Opus dalam container WebM (WebM). sample_rate_hertz harus salah satu dari 8000, 12000, 16000, 24000, atau 48000. |
ALAW |
Sampel 8-bit yang memadatkan sampel audio 13-bit menggunakan G.711 PCMU/a-law. |
RecognitionMetadata
Deskripsi data audio yang akan dikenali.
| Kolom | |
|---|---|
interaction_type |
Kasus penggunaan yang paling mendeskripsikan konten audio yang akan dikenali. |
industry_naics_code_of_audio |
Vertical industri yang paling sesuai dengan permintaan pengenalan ucapan ini. Hal ini paling menunjukkan topik yang ada dalam audio. Gunakan kode NAICS 6 digit untuk mengidentifikasi vertikal industri - lihat https://www.naics.com/search/. |
microphone_distance |
Jenis audio yang paling mendekati deskripsi audio yang sedang dikenali. |
original_media_type |
Media asli tempat ucapan direkam. |
recording_device_type |
Jenis perangkat yang digunakan untuk merekam ucapan. |
recording_device_name |
Perangkat yang digunakan untuk membuat rekaman. Contohnya 'Nexus 5X' atau 'Polycom SoundStation IP 6000' atau 'POTS' atau 'VoIP' atau 'Mikrofon Cardioid'. |
original_mime_type |
Jenis MIME file audio asli. Misalnya, |
audio_topic |
Deskripsi konten. Mis. "Rekaman sidang mahkamah agung federal dari tahun 2012". |
InteractionType
Kategori kasus penggunaan yang dapat mendeskripsikan permintaan pengenalan audio.
| Enum | |
|---|---|
INTERACTION_TYPE_UNSPECIFIED |
Kasus penggunaan tidak diketahui atau bukan salah satu nilai di bawah. |
DISCUSSION |
Beberapa orang dalam percakapan atau diskusi. Misalnya, dalam rapat dengan dua orang atau lebih yang berpartisipasi aktif. Biasanya semua orang yang berbicara akan berada di ruangan yang sama (jika tidak, lihat PHONE_CALL) |
PRESENTATION |
Satu atau beberapa orang yang memberikan kuliah atau presentasi kepada orang lain, sebagian besar tanpa gangguan. |
PHONE_CALL |
Panggilan telepon atau konferensi video yang diikuti secara aktif oleh dua orang atau lebih yang tidak berada di ruangan yang sama. |
VOICEMAIL |
Pesan rekaman yang ditujukan untuk didengarkan oleh orang lain. |
PROFESSIONALLY_PRODUCED |
Audio yang diproduksi secara profesional (misalnya, Acara TV, Podcast). |
VOICE_SEARCH |
Mentranskripsikan pertanyaan dan kueri lisan menjadi teks. |
VOICE_COMMAND |
Mentranskripsikan perintah suara, seperti untuk mengontrol perangkat. |
DICTATION |
Mentranskripsikan ucapan ke teks untuk membuat dokumen tertulis, seperti pesan teks, email, atau laporan. |
MicrophoneDistance
Mencantumkan jenis setelan perekaman yang menjelaskan file audio.
| Enum | |
|---|---|
MICROPHONE_DISTANCE_UNSPECIFIED |
Jenis audio tidak diketahui. |
NEARFIELD |
Audio diambil dari mikrofon yang ditempatkan di dekatnya. Misalnya, ponsel, perekam suara, atau mikrofon genggam. Umumnya jika speaker berada dalam jarak 1 meter dari mikrofon. |
MIDFIELD |
Speaker berada dalam jarak 3 meter dari mikrofon. |
FARFIELD |
Speaker berjarak lebih dari 3 meter dari mikrofon. |
OriginalMediaType
Media asli tempat ucapan direkam.
| Enum | |
|---|---|
ORIGINAL_MEDIA_TYPE_UNSPECIFIED |
Jenis media asli tidak diketahui. |
AUDIO |
Data ucapan adalah rekaman audio. |
VIDEO |
Data ucapan yang awalnya direkam dalam video. |
RecordingDeviceType
Jenis perangkat yang digunakan untuk merekam ucapan.
| Enum | |
|---|---|
RECORDING_DEVICE_TYPE_UNSPECIFIED |
Perangkat perekam tidak diketahui. |
SMARTPHONE |
Ucapan direkam di smartphone. |
PC |
Ucapan direkam menggunakan komputer atau tablet pribadi. |
PHONE_LINE |
Ucapan direkam melalui saluran telepon. |
VEHICLE |
Ucapan direkam di dalam kendaraan. |
OTHER_OUTDOOR_DEVICE |
Ucapan direkam di luar ruangan. |
OTHER_INDOOR_DEVICE |
Ucapan direkam di dalam ruangan. |
RecognizeRequest
Pesan tingkat teratas yang dikirim oleh klien untuk metode Recognize.
| Kolom | |
|---|---|
config |
Wajib. Memberikan informasi ke pengenal yang menentukan cara memproses permintaan. |
audio |
Wajib. Data audio yang akan dikenali. |
RecognizeResponse
Satu-satunya pesan yang ditampilkan ke klien oleh metode Recognize. Objek ini berisi hasil sebagai nol atau beberapa pesan SpeechRecognitionResult berurutan.
| Kolom | |
|---|---|
results[] |
Daftar hasil transkripsi berurutan yang sesuai dengan bagian audio berurutan. |
total_billed_time |
Jika tersedia, detik audio yang ditagih untuk permintaan yang sesuai. |
speech_adaptation_info |
Memberikan informasi tentang perilaku adaptasi dalam respons |
request_id |
ID yang terkait dengan permintaan. Ini adalah ID unik yang khusus untuk permintaan tertentu. |
using_legacy_models |
Apakah permintaan menggunakan model ASR lama (tidak otomatis dimigrasikan untuk menggunakan model conformer). |
SpeakerDiarizationConfig
Konfigurasi untuk mengaktifkan diarisasi pembicara.
| Kolom | |
|---|---|
enable_speaker_diarization |
Jika 'true', mengaktifkan deteksi pembicara untuk setiap kata yang dikenali dalam alternatif teratas hasil pengenalan menggunakan speaker_label yang disediakan di WordInfo. |
min_speaker_count |
Jumlah minimum pembicara dalam percakapan. Rentang ini memberi Anda lebih banyak fleksibilitas dengan memungkinkan sistem menentukan jumlah speaker yang benar secara otomatis. Jika tidak ditetapkan, nilai defaultnya adalah 2. |
max_speaker_count |
Jumlah maksimum pembicara dalam percakapan. Rentang ini memberi Anda lebih banyak fleksibilitas dengan memungkinkan sistem menentukan jumlah speaker yang benar secara otomatis. Jika tidak ditetapkan, nilai defaultnya adalah 6. |
speaker_tag |
Hanya output. Tidak digunakan. |
SpeechAdaptation
Konfigurasi adaptasi ucapan.
| Kolom | |
|---|---|
phrase_sets[] |
Kumpulan set frasa. Untuk menentukan saran secara inline, biarkan |
phrase_set_references[] |
Kumpulan nama resource set frasa yang akan digunakan. |
custom_classes[] |
Kumpulan class kustom. Untuk menentukan class secara inline, biarkan |
abnf_grammar |
Augmented Backus-Naur form (ABNF) adalah notasi tata bahasa standar yang terdiri dari serangkaian aturan derivasi. Lihat spesifikasi: https://www.w3.org/TR/speech-grammar |
ABNFGrammar
| Kolom | |
|---|---|
abnf_strings[] |
Semua deklarasi dan aturan tata bahasa ABNF dipecah menjadi beberapa string yang akan digabungkan. |
SpeechAdaptationInfo
Informasi tentang penggunaan adaptasi ucapan dalam hasil
| Kolom | |
|---|---|
adaptation_timeout |
Apakah terjadi waktu tunggu saat menerapkan adaptasi ucapan. Jika benar (true), adaptasi tidak berpengaruh pada transkrip respons. |
timeout_message |
Jika ditetapkan, menampilkan pesan yang menentukan bagian permintaan adaptasi ucapan yang waktunya habis. |
SpeechContext
Memberikan "petunjuk" kepada pengenal ucapan untuk lebih memilih kata dan frasa tertentu dalam hasil.
| Kolom | |
|---|---|
phrases[] |
Daftar string yang berisi "petunjuk" kata dan frasa sehingga pengenalan ucapan lebih mungkin mengenalinya. Hal ini dapat digunakan untuk meningkatkan akurasi kata dan frasa tertentu, misalnya, jika perintah tertentu biasanya diucapkan oleh pengguna. Hal ini juga dapat digunakan untuk menambahkan kata-kata tambahan ke kosakata pengenal. Lihat batas penggunaan. Item daftar juga dapat ditetapkan ke class untuk grup kata yang mewakili konsep umum yang terjadi dalam bahasa alami. Misalnya, daripada memberikan petunjuk frasa untuk setiap bulan dalam setahun, penggunaan class $MONTH meningkatkan kemungkinan transkripsi audio yang menyertakan bulan dengan benar. |
boost |
Peningkatan Petunjuk. Nilai positif akan meningkatkan kemungkinan frasa tertentu dikenali dibandingkan frasa lain yang terdengar serupa. Semakin tinggi peningkatannya, semakin tinggi juga peluang pengenalan positif palsu. Nilai peningkatan negatif akan sesuai dengan anti-bias. Anti-bias tidak diaktifkan, sehingga peningkatan negatif akan diabaikan. Meskipun |
SpeechRecognitionAlternative
Hipotesis alternatif (alias daftar n-terbaik).
| Kolom | |
|---|---|
transcript |
Teks transkrip yang mewakili kata-kata yang diucapkan pengguna. Dalam bahasa yang menggunakan spasi untuk memisahkan kata, transkrip mungkin memiliki spasi di awal jika bukan hasil pertama. Anda dapat menggabungkan setiap hasil untuk mendapatkan transkrip lengkap tanpa menggunakan pemisah. |
confidence |
Perkiraan keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali sudah benar. Kolom ini hanya ditetapkan untuk alternatif teratas dari hasil non-streaming atau hasil streaming dengan |
words[] |
Daftar informasi khusus kata untuk setiap kata yang dikenali. Catatan: Jika |
SpeechRecognitionResult
Hasil pengenalan ucapan yang sesuai dengan sebagian audio.
| Kolom | |
|---|---|
alternatives[] |
Dapat berisi satu atau beberapa hipotesis pengenalan (hingga maksimum yang ditentukan dalam |
channel_tag |
Untuk audio multi-saluran, ini adalah nomor saluran yang sesuai dengan hasil yang dikenali untuk audio dari saluran tersebut. Untuk audio_channel_count = N, nilai outputnya dapat berkisar dari '1' hingga 'N'. |
result_end_time |
Selisih waktu akhir hasil ini relatif terhadap awal audio. |
language_code |
Hanya output. Tag bahasa BCP-47 dari bahasa dalam hasil ini. Kode bahasa ini terdeteksi sebagai bahasa yang paling mungkin digunakan dalam audio. |
StreamingRecognitionConfig
Memberikan informasi ke pengenal yang menentukan cara memproses permintaan.
| Kolom | |
|---|---|
config |
Wajib. Memberikan informasi ke pengenal yang menentukan cara memproses permintaan. |
single_utterance |
Jika Jika Kolom
|
interim_results |
Jika |
enable_voice_activity_events |
Jika |
voice_activity_timeout |
Jika disetel, server akan otomatis menutup streaming setelah durasi yang ditentukan berlalu setelah peristiwa ucapan VOICE_ACTIVITY terakhir dikirim. Kolom |
VoiceActivityTimeout
Peristiwa yang dapat disetel waktu tunggunya untuk aktivitas suara.
| Kolom | |
|---|---|
speech_start_timeout |
Durasi untuk menghentikan streaming jika tidak ada ucapan yang dimulai. |
speech_end_timeout |
Durasi untuk menghentikan streaming setelah ucapan berakhir. |
StreamingPengenalanResult
Hasil pengenalan ucapan streaming yang sesuai dengan bagian audio yang sedang diproses.
| Kolom | |
|---|---|
alternatives[] |
Dapat berisi satu atau beberapa hipotesis pengenalan (hingga maksimum yang ditentukan dalam |
is_final |
Jika |
stability |
Estimasi kemungkinan bahwa pengenal tidak akan mengubah tebakannya tentang hasil sementara ini. Nilai berkisar dari 0,0 (sama sekali tidak stabil) hingga 1,0 (sepenuhnya stabil). Kolom ini hanya disediakan untuk hasil sementara ( |
result_end_time |
Selisih waktu akhir hasil ini relatif terhadap awal audio. |
channel_tag |
Untuk audio multi-saluran, ini adalah nomor saluran yang sesuai dengan hasil yang dikenali untuk audio dari saluran tersebut. Untuk audio_channel_count = N, nilai outputnya dapat berkisar dari '1' hingga 'N'. |
language_code |
Hanya output. Tag bahasa BCP-47 dari bahasa dalam hasil ini. Kode bahasa ini terdeteksi sebagai bahasa yang paling mungkin digunakan dalam audio. |
StreamingRecognizeRequest
Pesan tingkat teratas yang dikirim oleh klien untuk metode StreamingRecognize. Beberapa pesan StreamingRecognizeRequest dikirim. Pesan pertama harus berisi pesan streaming_config dan tidak boleh berisi audio_content. Semua pesan berikutnya harus berisi audio_content dan tidak boleh berisi pesan streaming_config.
| Kolom | |
|---|---|
Kolom union streaming_request. Permintaan streaming, yang berupa konfigurasi streaming atau konten audio. streaming_request hanya ada berupa salah satu diantara berikut: |
|
streaming_config |
Memberikan informasi ke pengenal yang menentukan cara memproses permintaan. Pesan |
audio_content |
Data audio yang akan dikenali. Potongan data audio berurutan dikirim dalam pesan |
StreamingRecognizeResponse
StreamingRecognizeResponse adalah satu-satunya pesan yang ditampilkan ke klien oleh StreamingRecognize. Serangkaian pesan StreamingRecognizeResponse nol atau lebih di-streaming kembali ke klien. Jika tidak ada audio yang dapat dikenali, dan single_utterance disetel ke salah (false), maka tidak ada pesan yang di-streaming kembali ke klien.
Berikut adalah contoh serangkaian StreamingRecognizeResponse yang mungkin ditampilkan saat memproses audio:
results { alternatives { transcript: "tube" } stability: 0.01 }
results { alternatives { transcript: "to be a" } stability: 0.01 }
results { alternatives { transcript: "to be" } stability: 0.9 } results { alternatives { transcript: " or not to be" } stability: 0.01 }
results { alternatives { transcript: "to be or not to be" confidence: 0.92 } alternatives { transcript: "to bee or not to bee" } is_final: true }
results { alternatives { transcript: " that's" } stability: 0.01 }
results { alternatives { transcript: " that is" } stability: 0.9 } results { alternatives { transcript: " the question" } stability: 0.01 }
results { alternatives { transcript: " that is the question" confidence: 0.98 } alternatives { transcript: " that was the question" } is_final: true }
Catatan:
Hanya dua respons di atas, yaitu #4 dan #7, yang berisi hasil akhir; keduanya ditandai dengan
is_final: true. Menggabungkan keduanya akan menghasilkan transkrip lengkap: "to be or not to be that is the question".Yang lainnya berisi
resultssementara. #3 dan #6 berisi duaresultssementara: bagian pertama memiliki stabilitas tinggi dan cenderung tidak berubah; bagian kedua memiliki stabilitas rendah dan cenderung berubah. Desainer UI dapat memilih untuk hanya menampilkan stabilitas tinggiresults.Nilai
stabilitydanconfidencespesifik yang ditampilkan di atas hanya untuk tujuan ilustrasi. Nilai sebenarnya dapat bervariasi.Di setiap respons, hanya salah satu kolom berikut yang akan ditetapkan:
error,speech_event_type, atau satu atau beberapa (berulang)results.
| Kolom | |
|---|---|
error |
Jika ditetapkan, menampilkan pesan |
results[] |
Daftar berulang ini berisi nol atau beberapa hasil yang sesuai dengan bagian audio berurutan yang sedang diproses. Objek ini berisi nol atau satu hasil |
speech_event_type |
Menunjukkan jenis peristiwa ucapan. |
speech_event_time |
Offset waktu antara awal audio dan emisi peristiwa. |
total_billed_time |
Jika tersedia, detik audio yang ditagih untuk streaming. Hanya disetel jika ini adalah respons terakhir dalam stream. |
speech_adaptation_info |
Memberikan informasi tentang perilaku adaptasi dalam respons |
request_id |
ID yang terkait dengan permintaan. Ini adalah ID unik yang khusus untuk permintaan tertentu. |
SpeechEventType
Menunjukkan jenis peristiwa ucapan.
| Enum | |
|---|---|
SPEECH_EVENT_UNSPECIFIED |
Tidak ada peristiwa ucapan yang ditentukan. |
END_OF_SINGLE_UTTERANCE |
Peristiwa ini menunjukkan bahwa server telah mendeteksi akhir ucapan pengguna dan tidak mengharapkan ucapan tambahan. Oleh karena itu, server tidak akan memproses audio tambahan (meskipun mungkin akan menampilkan hasil tambahan setelahnya). Klien harus berhenti mengirimkan data audio tambahan, menutup sebagian koneksi gRPC, dan menunggu hasil tambahan hingga server menutup koneksi gRPC. Peristiwa ini hanya dikirim jika single_utterance ditetapkan ke true, dan tidak digunakan jika sebaliknya. |
SPEECH_ACTIVITY_BEGIN |
Peristiwa ini menunjukkan bahwa server telah mendeteksi awal aktivitas suara manusia dalam streaming. Peristiwa ini dapat ditampilkan beberapa kali jika ucapan dimulai dan berhenti berulang kali selama streaming. Peristiwa ini hanya dikirim jika voice_activity_events disetel ke benar (true). |
SPEECH_ACTIVITY_END |
Peristiwa ini menunjukkan bahwa server telah mendeteksi akhir aktivitas suara manusia dalam streaming. Peristiwa ini dapat ditampilkan beberapa kali jika ucapan dimulai dan berhenti berulang kali selama streaming. Peristiwa ini hanya dikirim jika voice_activity_events disetel ke benar (true). |
SPEECH_ACTIVITY_TIMEOUT |
Peristiwa ini menunjukkan bahwa waktu tunggu yang ditetapkan pengguna untuk awal atau akhir aktivitas ucapan telah terlampaui. Setelah menerima peristiwa ini, klien diharapkan mengirimkan penutupan setengah. Audio lebih lanjut tidak akan diproses. |
TranscriptNormalization
Konfigurasi normalisasi transkripsi. Gunakan normalisasi transkripsi untuk otomatis mengganti bagian transkrip dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial yang stabil (stabilitas > 0,8) dan transkrip akhir.
| Kolom | |
|---|---|
entries[] |
Daftar entri pengganti. Kami akan melakukan penggantian dengan satu entri dalam satu waktu. Misalnya, entri kedua di ["cat" => "dog", "mountain cat" => "mountain dog"] tidak akan pernah diterapkan karena kami akan selalu memproses entri pertama sebelumnya. Maksimal 100 entri. |
Entri
Konfigurasi penggantian tunggal.
| Kolom | |
|---|---|
search |
Apa yang akan diganti. Panjang maksimum adalah 100 karakter. |
replace |
Apa yang akan diganti. Panjang maksimum adalah 100 karakter. |
case_sensitive |
Apakah penelusuran peka huruf besar/kecil. |
TranscriptOutputConfig
Menentukan tujuan opsional untuk hasil pengenalan.
| Kolom | |
|---|---|
Kolom union
|
|
gcs_uri |
Menentukan URI Cloud Storage untuk hasil pengenalan. Harus ditentukan dalam format: |
UpdateCustomClassRequest
Pesan yang dikirim oleh klien untuk metode UpdateCustomClass.
| Kolom | |
|---|---|
custom_class |
Wajib. Class kustom yang akan diperbarui. Kolom
Speech-to-Text mendukung tiga lokasi: Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan
|
update_mask |
Daftar kolom yang akan diperbarui. |
UpdatePhraseSetRequest
Pesan yang dikirim oleh klien untuk metode UpdatePhraseSet.
| Kolom | |
|---|---|
phrase_set |
Wajib. Kumpulan frasa yang akan diperbarui. Kolom
Speech-to-Text mendukung tiga lokasi: Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan
|
update_mask |
Daftar kolom yang akan diperbarui. |
WordInfo
Informasi khusus kata untuk kata yang dikenali.
| Kolom | |
|---|---|
start_time |
Selisih waktu relatif terhadap awal audio, dan sesuai dengan awal kata yang diucapkan. Kolom ini hanya ditetapkan jika |
end_time |
Selisih waktu relatif terhadap awal audio, dan sesuai dengan akhir kata yang diucapkan. Kolom ini hanya ditetapkan jika |
word |
Kata yang sesuai dengan kumpulan informasi ini. |
confidence |
Perkiraan keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali sudah benar. Kolom ini hanya ditetapkan untuk alternatif teratas dari hasil non-streaming atau hasil streaming dengan |
speaker_tag |
Hanya output. Nilai bilangan bulat yang berbeda ditetapkan untuk setiap pembicara dalam audio. Kolom ini menentukan salah satu pembicara yang terdeteksi mengucapkan kata ini. Nilai berkisar dari '1' hingga diarization_speaker_count. speaker_tag ditetapkan jika enable_speaker_diarization = 'true' dan hanya untuk alternatif teratas. Catatan: Gunakan speaker_label sebagai gantinya. |
speaker_label |
Hanya output. Nilai label yang ditetapkan untuk setiap penutur unik dalam audio. Kolom ini menentukan speaker mana yang terdeteksi telah mengucapkan kata ini. Untuk beberapa model, seperti medical_conversation, ini dapat berupa peran penutur yang sebenarnya, misalnya "pasien" atau "penyedia", tetapi umumnya ini adalah angka yang mengidentifikasi penutur. Kolom ini hanya disetel jika enable_speaker_diarization = 'true' dan hanya untuk alternatif teratas. |