- Representasi JSON
- AudioEncoding
- SpeechAdaptation
- ABNFGrammar
- TranscriptNormalization
- Entri
- SpeechContext
- SpeakerDiarizationConfig
- RecognitionMetadata
- InteractionType
- MicrophoneDistance
- OriginalMediaType
- RecordingDeviceType
Memberikan informasi ke pengenal yang menentukan cara memproses permintaan.
| Representasi JSON |
|---|
{ "encoding": enum ( |
| Kolom | |||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
encoding |
Encoding data audio yang dikirim dalam semua pesan |
||||||||||||||||||
sampleRateHertz |
Frekuensi sampel dalam Hertz dari data audio yang dikirim dalam semua pesan |
||||||||||||||||||
audioChannelCount |
Jumlah saluran dalam data audio input. HANYA tetapkan ini untuk pengenalan MULTI-CHANNEL. Nilai yang valid untuk LINEAR16, OGG_OPUS, dan FLAC adalah |
||||||||||||||||||
enableSeparateRecognitionPerChannel |
Setelan ini harus ditetapkan ke |
||||||||||||||||||
languageCode |
Wajib. Bahasa audio yang disediakan sebagai tag bahasa BCP-47. Contoh: "en-US". Lihat Dukungan Bahasa untuk mengetahui daftar kode bahasa yang saat ini didukung. |
||||||||||||||||||
alternativeLanguageCodes[] |
Daftar hingga 3 tag bahasa BCP-47 tambahan, yang mencantumkan kemungkinan bahasa alternatif dari audio yang diberikan. Lihat Dukungan Bahasa untuk mengetahui daftar kode bahasa yang saat ini didukung. Jika bahasa alternatif tercantum, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi, termasuk languageCode utama. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi dalam audio. Catatan: Fitur ini hanya didukung untuk kasus penggunaan Perintah Suara dan Penelusuran Suara, dan performanya dapat bervariasi untuk kasus penggunaan lainnya (misalnya, transkripsi panggilan telepon). |
||||||||||||||||||
maxAlternatives |
Jumlah maksimum hipotesis pengenalan yang akan ditampilkan. Secara khusus, jumlah maksimum pesan |
||||||||||||||||||
profanityFilter |
Jika disetel ke |
||||||||||||||||||
adaptation |
Konfigurasi adaptasi ucapan meningkatkan akurasi pengenalan ucapan. Untuk mengetahui informasi selengkapnya, lihat dokumentasi adaptasi ucapan. Jika ditetapkan, adaptasi ucapan akan menggantikan kolom |
||||||||||||||||||
transcriptNormalization |
Opsional. Gunakan normalisasi transkripsi untuk otomatis mengganti bagian transkrip dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial yang stabil (stabilitas > 0,8) dan transkrip akhir. |
||||||||||||||||||
speechContexts[] |
Array |
||||||||||||||||||
enableWordTimeOffsets |
Jika |
||||||||||||||||||
enableWordConfidence |
Jika |
||||||||||||||||||
enableAutomaticPunctuation |
Jika 'true', menambahkan tanda baca ke hipotesis hasil pengenalan. Fitur ini hanya tersedia dalam bahasa tertentu. Menetapkan ini untuk permintaan dalam bahasa lain tidak akan berpengaruh sama sekali. Nilai default 'false' tidak menambahkan tanda baca ke hipotesis hasil. |
||||||||||||||||||
enableSpokenPunctuation |
Perilaku tanda baca yang diucapkan untuk panggilan Jika tidak disetel, akan menggunakan perilaku default berdasarkan model pilihan, misalnya command_and_search akan mengaktifkan tanda baca yang diucapkan secara default Jika 'true', akan menggantikan tanda baca yang diucapkan dengan simbol yang sesuai dalam permintaan. Misalnya, "apa kabar tanda tanya" akan menjadi "apa kabar?". Lihat https://cloud.google.com/speech-to-text/docs/spoken-punctuation untuk mendapatkan dukungan. Jika 'false', tanda baca lisan tidak diganti. |
||||||||||||||||||
enableSpokenEmojis |
Perilaku emoji yang diucapkan untuk panggilan Jika tidak disetel, akan menggunakan perilaku default berdasarkan model pilihan Jika 'true', akan menambahkan format emoji yang diucapkan untuk permintaan. Tindakan ini akan menggantikan emoji yang diucapkan dengan simbol Unicode yang sesuai dalam transkrip akhir. Jika 'false', emoji lisan tidak diganti. |
||||||||||||||||||
enableSpeakerDiarization |
Jika 'true', mengaktifkan deteksi pembicara untuk setiap kata yang dikenali dalam alternatif teratas hasil pengenalan menggunakan speakerLabel yang disediakan di WordInfo. Catatan: Gunakan diarizationConfig sebagai gantinya. |
||||||||||||||||||
diarizationSpeakerCount |
Jika disetel, menentukan perkiraan jumlah pembicara dalam percakapan. Nilai defaultnya adalah '2'. Diabaikan kecuali jika enableSpeakerDiarization disetel ke benar. Catatan: Gunakan diarizationConfig sebagai gantinya. |
||||||||||||||||||
diarizationConfig |
Konfigurasi untuk mengaktifkan diarisasi pembicara dan menetapkan parameter tambahan agar diarisasi lebih sesuai untuk aplikasi Anda. Catatan: Jika diaktifkan, kami akan mengirimkan semua kata dari awal audio untuk alternatif teratas dalam setiap respons STREAMING berturut-turut. Hal ini dilakukan untuk meningkatkan kualitas tag pembicara kami karena model kami belajar mengidentifikasi pembicara dalam percakapan dari waktu ke waktu. Untuk permintaan non-streaming, hasil diarisasi hanya akan diberikan dalam alternatif teratas SpeechRecognitionResult FINAL. |
||||||||||||||||||
metadata |
Metadata terkait permintaan ini. |
||||||||||||||||||
model |
Model mana yang harus dipilih untuk permintaan tertentu. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik. Jika model tidak ditentukan secara eksplisit, kami akan otomatis memilih model berdasarkan parameter di RecognitionConfig.
|
||||||||||||||||||
useEnhanced |
Tetapkan ke benar (true) untuk menggunakan model yang ditingkatkan kualitasnya untuk pengenalan ucapan. Jika Jika |
||||||||||||||||||
AudioEncoding
Encoding data audio yang dikirim dalam permintaan.
Semua encoding hanya mendukung audio 1 channel (mono), kecuali jika kolom audioChannelCount dan enableSeparateRecognitionPerChannel ditetapkan.
Untuk hasil terbaik, sumber audio harus direkam dan dikirim menggunakan encoding lossless (FLAC atau LINEAR16). Akurasi pengenalan ucapan dapat berkurang jika codec lossy digunakan untuk merekam atau mengirimkan audio, terutama jika ada suara bising di latar belakang. Codec lossy mencakup MULAW, AMR, AMR_WB, OGG_OPUS, SPEEX_WITH_HEADER_BYTE, MP3, dan WEBM_OPUS.
Format file audio FLAC dan WAV menyertakan header yang menjelaskan konten audio yang disertakan. Anda dapat meminta pengenalan untuk file WAV yang berisi audio yang dienkode LINEAR16 atau MULAW. Jika Anda mengirim format file audio FLAC atau WAV dalam permintaan, Anda tidak perlu menentukan AudioEncoding; format encoding audio ditentukan dari header file. Jika Anda menentukan AudioEncoding saat mengirim audio FLAC atau WAV, konfigurasi encoding harus cocok dengan encoding yang dijelaskan di header audio; jika tidak, permintaan akan menampilkan kode error google.rpc.Code.INVALID_ARGUMENT.
| Enum | |
|---|---|
ENCODING_UNSPECIFIED |
Tidak ditentukan. |
LINEAR16 |
Sampel little-endian bertanda 16-bit tanpa kompresi (PCM Linear). |
FLAC |
FLAC (Free Lossless Audio Codec) adalah encoding yang direkomendasikan karena lossless--oleh karena itu pengenalan tidak terganggu--dan hanya memerlukan sekitar setengah bandwidth LINEAR16. Encoding streaming FLAC mendukung sampel 16-bit dan 24-bit, tetapi tidak semua kolom di STREAMINFO didukung. |
MULAW |
Sampel 8-bit yang memadatkan sampel audio 14-bit menggunakan PCMU/mu-law G.711. |
AMR |
Codec Narrowband Multi-Kecepatan Adaptif. sampleRateHertz harus 8000. |
AMR_WB |
Codec Wideband Multi-Kecepatan Adaptif. sampleRateHertz harus 16000. |
OGG_OPUS |
Frame audio yang dienkode Opus dalam container Ogg (OggOpus). sampleRateHertz harus salah satu dari 8000, 12000, 16000, 24000, atau 48000. |
SPEEX_WITH_HEADER_BYTE |
Meskipun penggunaan encoding lossy tidak direkomendasikan, jika encoding dengan bitrate yang sangat rendah diperlukan, OGG_OPUS lebih disarankan daripada encoding Speex. Encoding Speex yang didukung oleh Cloud Speech API memiliki byte header di setiap blok, seperti pada jenis MIME audio/x-speex-with-header-byte. Codec ini adalah varian encoding Speex RTP yang ditentukan dalam RFC 5574. Aliran adalah urutan blok, satu blok per paket RTP. Setiap blok dimulai dengan byte yang berisi panjang blok, dalam byte, diikuti dengan satu atau beberapa frame data Speex, yang di-padding ke bilangan bulat byte (oktet) seperti yang ditentukan dalam RFC 5574. Dengan kata lain, setiap header RTP diganti dengan satu byte yang berisi panjang blok. Hanya wideband Speex yang didukung. sampleRateHertz harus 16000. |
MP3 |
Audio MP3. Encoding MP3 adalah fitur Beta dan hanya tersedia di v1p1beta1. Mendukung semua kecepatan bit MP3 standar (yang berkisar dari 32-320 kbps). Saat menggunakan encoding ini, sampleRateHertz harus cocok dengan frekuensi sampel file yang digunakan. |
WEBM_OPUS |
Frame audio yang dienkode Opus dalam container WebM (WebM). sampleRateHertz harus salah satu dari 8000, 12000, 16000, 24000, atau 48000. |
ALAW |
Sampel 8-bit yang memadatkan sampel audio 13-bit menggunakan G.711 PCMU/a-law. |
SpeechAdaptation
Konfigurasi adaptasi ucapan.
| Representasi JSON |
|---|
{ "phraseSets": [ { object ( |
| Kolom | |
|---|---|
phraseSets[] |
Kumpulan set frasa. Untuk menentukan saran secara inline, biarkan |
phraseSetReferences[] |
Kumpulan nama resource set frasa yang akan digunakan. |
customClasses[] |
Kumpulan class kustom. Untuk menentukan class secara inline, biarkan |
abnfGrammar |
Augmented Backus-Naur form (ABNF) adalah notasi tata bahasa standar yang terdiri dari serangkaian aturan derivasi. Lihat spesifikasi: https://www.w3.org/TR/speech-grammar |
ABNFGrammar
| Representasi JSON |
|---|
{ "abnfStrings": [ string ] } |
| Kolom | |
|---|---|
abnfStrings[] |
Semua deklarasi dan aturan tata bahasa ABNF dipecah menjadi beberapa string yang akan digabungkan. |
TranscriptNormalization
Konfigurasi normalisasi transkripsi. Gunakan normalisasi transkripsi untuk otomatis mengganti bagian transkrip dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial yang stabil (stabilitas > 0,8) dan transkrip akhir.
| Representasi JSON |
|---|
{
"entries": [
{
object ( |
| Kolom | |
|---|---|
entries[] |
Daftar entri pengganti. Kami akan melakukan penggantian dengan satu entri dalam satu waktu. Misalnya, entri kedua di ["cat" => "dog", "mountain cat" => "mountain dog"] tidak akan pernah diterapkan karena kami akan selalu memproses entri pertama sebelumnya. Maksimal 100 entri. |
Entri
Konfigurasi penggantian tunggal.
| Representasi JSON |
|---|
{ "search": string, "replace": string, "caseSensitive": boolean } |
| Kolom | |
|---|---|
search |
Apa yang akan diganti. Panjang maksimum adalah 100 karakter. |
replace |
Apa yang akan diganti. Panjang maksimum adalah 100 karakter. |
caseSensitive |
Apakah penelusuran peka huruf besar/kecil. |
SpeechContext
Memberikan "petunjuk" kepada pengenal ucapan untuk lebih memilih kata dan frasa tertentu dalam hasil.
| Representasi JSON |
|---|
{ "phrases": [ string ], "boost": number } |
| Kolom | |
|---|---|
phrases[] |
Daftar string yang berisi "petunjuk" kata dan frasa sehingga pengenalan ucapan lebih mungkin mengenalinya. Hal ini dapat digunakan untuk meningkatkan akurasi kata dan frasa tertentu, misalnya, jika perintah tertentu biasanya diucapkan oleh pengguna. Hal ini juga dapat digunakan untuk menambahkan kata-kata tambahan ke kosakata pengenal. Lihat batas penggunaan. Item daftar juga dapat ditetapkan ke class untuk grup kata yang mewakili konsep umum yang terjadi dalam bahasa alami. Misalnya, daripada memberikan petunjuk frasa untuk setiap bulan dalam setahun, penggunaan class $MONTH meningkatkan kemungkinan transkripsi audio yang menyertakan bulan dengan benar. |
boost |
Peningkatan Petunjuk. Nilai positif akan meningkatkan kemungkinan frasa tertentu dikenali dibandingkan frasa lain yang terdengar serupa. Semakin tinggi peningkatannya, semakin tinggi juga peluang pengenalan positif palsu. Nilai peningkatan negatif akan sesuai dengan anti-bias. Anti-bias tidak diaktifkan, sehingga peningkatan negatif akan diabaikan. Meskipun |
SpeakerDiarizationConfig
Konfigurasi untuk mengaktifkan diarisasi pembicara.
| Representasi JSON |
|---|
{ "enableSpeakerDiarization": boolean, "minSpeakerCount": integer, "maxSpeakerCount": integer, "speakerTag": integer } |
| Kolom | |
|---|---|
enableSpeakerDiarization |
Jika 'true', mengaktifkan deteksi pembicara untuk setiap kata yang dikenali dalam alternatif teratas hasil pengenalan menggunakan speakerLabel yang disediakan di WordInfo. |
minSpeakerCount |
Jumlah minimum pembicara dalam percakapan. Rentang ini memberi Anda lebih banyak fleksibilitas dengan memungkinkan sistem menentukan jumlah speaker yang benar secara otomatis. Jika tidak ditetapkan, nilai defaultnya adalah 2. |
maxSpeakerCount |
Jumlah maksimum pembicara dalam percakapan. Rentang ini memberi Anda lebih banyak fleksibilitas dengan memungkinkan sistem menentukan jumlah speaker yang benar secara otomatis. Jika tidak ditetapkan, nilai defaultnya adalah 6. |
speakerTag |
Hanya output. Tidak digunakan. |
RecognitionMetadata
Deskripsi data audio yang akan dikenali.
| Representasi JSON |
|---|
{ "interactionType": enum ( |
| Kolom | |
|---|---|
interactionType |
Kasus penggunaan yang paling mendeskripsikan konten audio yang akan dikenali. |
industryNaicsCodeOfAudio |
Vertical industri yang paling sesuai dengan permintaan pengenalan ucapan ini. Hal ini paling menunjukkan topik yang ada dalam audio. Gunakan kode NAICS 6 digit untuk mengidentifikasi vertikal industri - lihat https://www.naics.com/search/. |
microphoneDistance |
Jenis audio yang paling mendekati deskripsi audio yang sedang dikenali. |
originalMediaType |
Media asli tempat ucapan direkam. |
recordingDeviceType |
Jenis perangkat yang digunakan untuk merekam ucapan. |
recordingDeviceName |
Perangkat yang digunakan untuk membuat rekaman. Contohnya 'Nexus 5X' atau 'Polycom SoundStation IP 6000' atau 'POTS' atau 'VoIP' atau 'Mikrofon Cardioid'. |
originalMimeType |
Jenis MIME file audio asli. Misalnya, |
obfuscatedId |
ID pengguna yang di-obfuscate (dilindungi privasinya), untuk mengidentifikasi jumlah pengguna unik yang menggunakan layanan. |
audioTopic |
Deskripsi konten. Mis. "Rekaman sidang mahkamah agung federal dari tahun 2012". |
InteractionType
Kategori kasus penggunaan yang dapat mendeskripsikan permintaan pengenalan audio.
| Enum | |
|---|---|
INTERACTION_TYPE_UNSPECIFIED |
Kasus penggunaan tidak diketahui atau bukan salah satu nilai di bawah. |
DISCUSSION |
Beberapa orang dalam percakapan atau diskusi. Misalnya, dalam rapat dengan dua orang atau lebih yang berpartisipasi aktif. Biasanya semua orang yang berbicara akan berada di ruangan yang sama (jika tidak, lihat PHONE_CALL) |
PRESENTATION |
Satu atau beberapa orang yang memberikan kuliah atau presentasi kepada orang lain, sebagian besar tanpa gangguan. |
PHONE_CALL |
Panggilan telepon atau konferensi video yang diikuti secara aktif oleh dua orang atau lebih yang tidak berada di ruangan yang sama. |
VOICEMAIL |
Pesan rekaman yang ditujukan untuk didengarkan oleh orang lain. |
PROFESSIONALLY_PRODUCED |
Audio yang diproduksi secara profesional (misalnya, Acara TV, Podcast). |
VOICE_SEARCH |
Mentranskripsikan pertanyaan dan kueri lisan menjadi teks. |
VOICE_COMMAND |
Mentranskripsikan perintah suara, seperti untuk mengontrol perangkat. |
DICTATION |
Mentranskripsikan ucapan ke teks untuk membuat dokumen tertulis, seperti pesan teks, email, atau laporan. |
MicrophoneDistance
Mencantumkan jenis setelan perekaman yang menjelaskan file audio.
| Enum | |
|---|---|
MICROPHONE_DISTANCE_UNSPECIFIED |
Jenis audio tidak diketahui. |
NEARFIELD |
Audio diambil dari mikrofon yang ditempatkan di dekatnya. Misalnya, ponsel, perekam suara, atau mikrofon genggam. Umumnya jika speaker berada dalam jarak 1 meter dari mikrofon. |
MIDFIELD |
Speaker berada dalam jarak 3 meter dari mikrofon. |
FARFIELD |
Speaker berjarak lebih dari 3 meter dari mikrofon. |
OriginalMediaType
Media asli tempat ucapan direkam.
| Enum | |
|---|---|
ORIGINAL_MEDIA_TYPE_UNSPECIFIED |
Jenis media asli tidak diketahui. |
AUDIO |
Data ucapan adalah rekaman audio. |
VIDEO |
Data ucapan yang awalnya direkam dalam video. |
RecordingDeviceType
Jenis perangkat yang digunakan untuk merekam ucapan.
| Enum | |
|---|---|
RECORDING_DEVICE_TYPE_UNSPECIFIED |
Perangkat perekam tidak diketahui. |
SMARTPHONE |
Ucapan direkam di smartphone. |
PC |
Ucapan direkam menggunakan komputer atau tablet pribadi. |
PHONE_LINE |
Ucapan direkam melalui saluran telepon. |
VEHICLE |
Ucapan direkam di dalam kendaraan. |
OTHER_OUTDOOR_DEVICE |
Ucapan direkam di luar ruangan. |
OTHER_INDOOR_DEVICE |
Ucapan direkam di dalam ruangan. |