RecognitionConfig

Memberikan informasi ke pengenal yang menentukan cara memproses permintaan.

Representasi JSON
{
  "encoding": enum (AudioEncoding),
  "sampleRateHertz": integer,
  "audioChannelCount": integer,
  "enableSeparateRecognitionPerChannel": boolean,
  "languageCode": string,
  "alternativeLanguageCodes": [
    string
  ],
  "maxAlternatives": integer,
  "profanityFilter": boolean,
  "adaptation": {
    object (SpeechAdaptation)
  },
  "transcriptNormalization": {
    object (TranscriptNormalization)
  },
  "speechContexts": [
    {
      object (SpeechContext)
    }
  ],
  "enableWordTimeOffsets": boolean,
  "enableWordConfidence": boolean,
  "enableAutomaticPunctuation": boolean,
  "enableSpokenPunctuation": boolean,
  "enableSpokenEmojis": boolean,
  "enableSpeakerDiarization": boolean,
  "diarizationSpeakerCount": integer,
  "diarizationConfig": {
    object (SpeakerDiarizationConfig)
  },
  "metadata": {
    object (RecognitionMetadata)
  },
  "model": string,
  "useEnhanced": boolean
}
Kolom
encoding

enum (AudioEncoding)

Encoding data audio yang dikirim dalam semua pesan RecognitionAudio. Kolom ini bersifat opsional untuk file audio FLAC dan WAV, serta wajib diisi untuk semua format audio lainnya. Untuk mengetahui detailnya, lihat AudioEncoding.

sampleRateHertz

integer

Frekuensi sampel dalam Hertz dari data audio yang dikirim dalam semua pesan RecognitionAudio. Nilai yang valid adalah: 8000-48000. 16.000 adalah nilai yang optimal. Untuk hasil terbaik, tetapkan frekuensi sampling sumber audio ke 16.000 Hz. Jika tidak memungkinkan, gunakan frekuensi sampel native sumber audio (alih-alih mengambil ulang sampel). Kolom ini bersifat opsional untuk file audio FLAC dan WAV, tetapi wajib diisi untuk semua format audio lainnya. Untuk mengetahui detailnya, lihat AudioEncoding.

audioChannelCount

integer

Jumlah saluran dalam data audio input. HANYA tetapkan ini untuk pengenalan MULTI-CHANNEL. Nilai yang valid untuk LINEAR16, OGG_OPUS, dan FLAC adalah 1-8. Nilai yang valid untuk MULAW, AMR, AMR_WB, dan SPEEX_WITH_HEADER_BYTE hanya 1. Jika 0 atau tidak ada, defaultnya adalah satu saluran (mono). Catatan: Secara default, kami hanya mengenali channel pertama. Untuk melakukan pengenalan independen di setiap saluran, tetapkan enableSeparateRecognitionPerChannel ke 'true'.

enableSeparateRecognitionPerChannel

boolean

Setelan ini harus ditetapkan ke true secara eksplisit dan audioChannelCount > 1 agar setiap saluran dikenali secara terpisah. Hasil pengenalan akan berisi kolom channelTag untuk menyatakan saluran mana yang memiliki hasil tersebut. Jika tidak benar, kami hanya akan mengenali saluran pertama. Permintaan ditagih secara kumulatif untuk semua saluran yang dikenali: audioChannelCount dikalikan dengan durasi audio.

languageCode

string

Wajib. Bahasa audio yang disediakan sebagai tag bahasa BCP-47. Contoh: "en-US". Lihat Dukungan Bahasa untuk mengetahui daftar kode bahasa yang saat ini didukung.

alternativeLanguageCodes[]

string

Daftar hingga 3 tag bahasa BCP-47 tambahan, yang mencantumkan kemungkinan bahasa alternatif dari audio yang diberikan. Lihat Dukungan Bahasa untuk mengetahui daftar kode bahasa yang saat ini didukung. Jika bahasa alternatif tercantum, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi, termasuk languageCode utama. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi dalam audio. Catatan: Fitur ini hanya didukung untuk kasus penggunaan Perintah Suara dan Penelusuran Suara, dan performanya dapat bervariasi untuk kasus penggunaan lainnya (misalnya, transkripsi panggilan telepon).

maxAlternatives

integer

Jumlah maksimum hipotesis pengenalan yang akan ditampilkan. Secara khusus, jumlah maksimum pesan SpeechRecognitionAlternative dalam setiap SpeechRecognitionResult. Server mungkin menampilkan kurang dari maxAlternatives. Nilai yang valid adalah 0-30. Nilai 0 atau 1 akan menampilkan maksimum satu. Jika dihilangkan, akan menampilkan maksimum satu.

profanityFilter

boolean

Jika disetel ke true, server akan mencoba memfilter kata-kata tidak sopan, mengganti semua karakter kecuali karakter awal dalam setiap kata yang difilter dengan tanda bintang, misalnya "f***". Jika disetel ke false atau dihilangkan, kata-kata tidak sopan tidak akan difilter.

adaptation

object (SpeechAdaptation)

Konfigurasi adaptasi ucapan meningkatkan akurasi pengenalan ucapan. Untuk mengetahui informasi selengkapnya, lihat dokumentasi adaptasi ucapan. Jika ditetapkan, adaptasi ucapan akan menggantikan kolom speechContexts.

transcriptNormalization

object (TranscriptNormalization)

Opsional. Gunakan normalisasi transkripsi untuk otomatis mengganti bagian transkrip dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial yang stabil (stabilitas > 0,8) dan transkrip akhir.

speechContexts[]

object (SpeechContext)

Array SpeechContext. Cara untuk memberikan konteks guna membantu pengenalan ucapan. Untuk mengetahui informasi selengkapnya, lihat adaptasi ucapan.

enableWordTimeOffsets

boolean

Jika true, hasil teratas mencakup daftar kata dan selisih waktu mulai dan berakhir (stempel waktu) untuk kata-kata tersebut. Jika false, tidak ada informasi offset waktu tingkat kata yang ditampilkan. Defaultnya adalah false.

enableWordConfidence

boolean

Jika true, hasil teratas mencakup daftar kata dan tingkat keyakinan untuk kata-kata tersebut. Jika false, tidak ada informasi keyakinan tingkat kata yang ditampilkan. Defaultnya adalah false.

enableAutomaticPunctuation

boolean

Jika 'true', menambahkan tanda baca ke hipotesis hasil pengenalan. Fitur ini hanya tersedia dalam bahasa tertentu. Menetapkan ini untuk permintaan dalam bahasa lain tidak akan berpengaruh sama sekali. Nilai default 'false' tidak menambahkan tanda baca ke hipotesis hasil.

enableSpokenPunctuation

boolean

Perilaku tanda baca yang diucapkan untuk panggilan Jika tidak disetel, akan menggunakan perilaku default berdasarkan model pilihan, misalnya command_and_search akan mengaktifkan tanda baca yang diucapkan secara default Jika 'true', akan menggantikan tanda baca yang diucapkan dengan simbol yang sesuai dalam permintaan. Misalnya, "apa kabar tanda tanya" akan menjadi "apa kabar?". Lihat https://cloud.google.com/speech-to-text/docs/spoken-punctuation untuk mendapatkan dukungan. Jika 'false', tanda baca lisan tidak diganti.

enableSpokenEmojis

boolean

Perilaku emoji yang diucapkan untuk panggilan Jika tidak disetel, akan menggunakan perilaku default berdasarkan model pilihan Jika 'true', akan menambahkan format emoji yang diucapkan untuk permintaan. Tindakan ini akan menggantikan emoji yang diucapkan dengan simbol Unicode yang sesuai dalam transkrip akhir. Jika 'false', emoji lisan tidak diganti.

enableSpeakerDiarization
(deprecated)

boolean

Jika 'true', mengaktifkan deteksi pembicara untuk setiap kata yang dikenali dalam alternatif teratas hasil pengenalan menggunakan speakerLabel yang disediakan di WordInfo. Catatan: Gunakan diarizationConfig sebagai gantinya.

diarizationSpeakerCount
(deprecated)

integer

Jika disetel, menentukan perkiraan jumlah pembicara dalam percakapan. Nilai defaultnya adalah '2'. Diabaikan kecuali jika enableSpeakerDiarization disetel ke benar. Catatan: Gunakan diarizationConfig sebagai gantinya.

diarizationConfig

object (SpeakerDiarizationConfig)

Konfigurasi untuk mengaktifkan diarisasi pembicara dan menetapkan parameter tambahan agar diarisasi lebih sesuai untuk aplikasi Anda. Catatan: Jika diaktifkan, kami akan mengirimkan semua kata dari awal audio untuk alternatif teratas dalam setiap respons STREAMING berturut-turut. Hal ini dilakukan untuk meningkatkan kualitas tag pembicara kami karena model kami belajar mengidentifikasi pembicara dalam percakapan dari waktu ke waktu. Untuk permintaan non-streaming, hasil diarisasi hanya akan diberikan dalam alternatif teratas SpeechRecognitionResult FINAL.

metadata

object (RecognitionMetadata)

Metadata terkait permintaan ini.

model

string

Model mana yang harus dipilih untuk permintaan tertentu. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik. Jika model tidak ditentukan secara eksplisit, kami akan otomatis memilih model berdasarkan parameter di RecognitionConfig.

Model Deskripsi

latest_long

Paling cocok untuk konten berdurasi panjang seperti media atau percakapan.

latest_short

Paling cocok untuk konten singkat seperti perintah atau ucapan terarah satu pengambilan.

command_and_search

Paling cocok untuk kueri singkat seperti perintah suara atau penelusuran suara.

phone_call

Paling cocok untuk audio yang berasal dari panggilan telepon (biasanya direkam pada frekuensi sampel 8 kHz).

video

Paling cocok untuk audio yang berasal dari video atau mencakup beberapa pembicara. Idealnya audio direkam pada frekuensi sampel 16 khz atau lebih tinggi. Ini adalah model premium yang harganya lebih mahal daripada tarif standar.

default

Paling cocok untuk audio yang bukan merupakan salah satu dari model audio tertentu. Misalnya, audio format panjang. Idealnya audio berjenis high fidelity, dan direkam pada frekuensi sampel 16 khz atau lebih tinggi.

medical_conversation

Paling cocok untuk audio yang berasal dari percakapan antara penyedia layanan kesehatan dan pasien.

medical_dictation

Paling cocok untuk audio yang berasal dari catatan dikte oleh penyedia layanan kesehatan.

useEnhanced

boolean

Tetapkan ke benar (true) untuk menggunakan model yang ditingkatkan kualitasnya untuk pengenalan ucapan. Jika useEnhanced disetel ke benar (true) dan kolom model tidak disetel, model yang ditingkatkan yang sesuai akan dipilih jika ada model yang ditingkatkan untuk audio tersebut.

Jika useEnhanced benar (true) dan versi yang ditingkatkan dari model yang ditentukan tidak ada, maka ucapan akan dikenali menggunakan versi standar dari model yang ditentukan.

AudioEncoding

Encoding data audio yang dikirim dalam permintaan.

Semua encoding hanya mendukung audio 1 channel (mono), kecuali jika kolom audioChannelCount dan enableSeparateRecognitionPerChannel ditetapkan.

Untuk hasil terbaik, sumber audio harus direkam dan dikirim menggunakan encoding lossless (FLAC atau LINEAR16). Akurasi pengenalan ucapan dapat berkurang jika codec lossy digunakan untuk merekam atau mengirimkan audio, terutama jika ada suara bising di latar belakang. Codec lossy mencakup MULAW, AMR, AMR_WB, OGG_OPUS, SPEEX_WITH_HEADER_BYTE, MP3, dan WEBM_OPUS.

Format file audio FLAC dan WAV menyertakan header yang menjelaskan konten audio yang disertakan. Anda dapat meminta pengenalan untuk file WAV yang berisi audio yang dienkode LINEAR16 atau MULAW. Jika Anda mengirim format file audio FLAC atau WAV dalam permintaan, Anda tidak perlu menentukan AudioEncoding; format encoding audio ditentukan dari header file. Jika Anda menentukan AudioEncoding saat mengirim audio FLAC atau WAV, konfigurasi encoding harus cocok dengan encoding yang dijelaskan di header audio; jika tidak, permintaan akan menampilkan kode error google.rpc.Code.INVALID_ARGUMENT.

Enum
ENCODING_UNSPECIFIED Tidak ditentukan.
LINEAR16 Sampel little-endian bertanda 16-bit tanpa kompresi (PCM Linear).
FLAC FLAC (Free Lossless Audio Codec) adalah encoding yang direkomendasikan karena lossless--oleh karena itu pengenalan tidak terganggu--dan hanya memerlukan sekitar setengah bandwidth LINEAR16. Encoding streaming FLAC mendukung sampel 16-bit dan 24-bit, tetapi tidak semua kolom di STREAMINFO didukung.
MULAW Sampel 8-bit yang memadatkan sampel audio 14-bit menggunakan PCMU/mu-law G.711.
AMR Codec Narrowband Multi-Kecepatan Adaptif. sampleRateHertz harus 8000.
AMR_WB Codec Wideband Multi-Kecepatan Adaptif. sampleRateHertz harus 16000.
OGG_OPUS Frame audio yang dienkode Opus dalam container Ogg (OggOpus). sampleRateHertz harus salah satu dari 8000, 12000, 16000, 24000, atau 48000.
SPEEX_WITH_HEADER_BYTE Meskipun penggunaan encoding lossy tidak direkomendasikan, jika encoding dengan bitrate yang sangat rendah diperlukan, OGG_OPUS lebih disarankan daripada encoding Speex. Encoding Speex yang didukung oleh Cloud Speech API memiliki byte header di setiap blok, seperti pada jenis MIME audio/x-speex-with-header-byte. Codec ini adalah varian encoding Speex RTP yang ditentukan dalam RFC 5574. Aliran adalah urutan blok, satu blok per paket RTP. Setiap blok dimulai dengan byte yang berisi panjang blok, dalam byte, diikuti dengan satu atau beberapa frame data Speex, yang di-padding ke bilangan bulat byte (oktet) seperti yang ditentukan dalam RFC 5574. Dengan kata lain, setiap header RTP diganti dengan satu byte yang berisi panjang blok. Hanya wideband Speex yang didukung. sampleRateHertz harus 16000.
MP3 Audio MP3. Encoding MP3 adalah fitur Beta dan hanya tersedia di v1p1beta1. Mendukung semua kecepatan bit MP3 standar (yang berkisar dari 32-320 kbps). Saat menggunakan encoding ini, sampleRateHertz harus cocok dengan frekuensi sampel file yang digunakan.
WEBM_OPUS Frame audio yang dienkode Opus dalam container WebM (WebM). sampleRateHertz harus salah satu dari 8000, 12000, 16000, 24000, atau 48000.
ALAW Sampel 8-bit yang memadatkan sampel audio 13-bit menggunakan G.711 PCMU/a-law.

SpeechAdaptation

Konfigurasi adaptasi ucapan.

Representasi JSON
{
  "phraseSets": [
    {
      object (PhraseSet)
    }
  ],
  "phraseSetReferences": [
    string
  ],
  "customClasses": [
    {
      object (CustomClass)
    }
  ],
  "abnfGrammar": {
    object (ABNFGrammar)
  }
}
Kolom
phraseSets[]

object (PhraseSet)

Kumpulan set frasa. Untuk menentukan saran secara inline, biarkan name set frasa kosong dan isi kolom lainnya. Kumpulan frasa apa pun dapat menggunakan class kustom apa pun.

phraseSetReferences[]

string

Kumpulan nama resource set frasa yang akan digunakan.

customClasses[]

object (CustomClass)

Kumpulan class kustom. Untuk menentukan class secara inline, biarkan name class kosong dan isi kolom lainnya, sehingga memberikan customClassId yang unik. Merujuk ke class yang ditentukan sebaris dalam petunjuk frasa berdasarkan customClassId-nya.

abnfGrammar

object (ABNFGrammar)

Augmented Backus-Naur form (ABNF) adalah notasi tata bahasa standar yang terdiri dari serangkaian aturan derivasi. Lihat spesifikasi: https://www.w3.org/TR/speech-grammar

ABNFGrammar

Representasi JSON
{
  "abnfStrings": [
    string
  ]
}
Kolom
abnfStrings[]

string

Semua deklarasi dan aturan tata bahasa ABNF dipecah menjadi beberapa string yang akan digabungkan.

TranscriptNormalization

Konfigurasi normalisasi transkripsi. Gunakan normalisasi transkripsi untuk otomatis mengganti bagian transkrip dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial yang stabil (stabilitas > 0,8) dan transkrip akhir.

Representasi JSON
{
  "entries": [
    {
      object (Entry)
    }
  ]
}
Kolom
entries[]

object (Entry)

Daftar entri pengganti. Kami akan melakukan penggantian dengan satu entri dalam satu waktu. Misalnya, entri kedua di ["cat" => "dog", "mountain cat" => "mountain dog"] tidak akan pernah diterapkan karena kami akan selalu memproses entri pertama sebelumnya. Maksimal 100 entri.

Entri

Konfigurasi penggantian tunggal.

Representasi JSON
{
  "search": string,
  "replace": string,
  "caseSensitive": boolean
}
Kolom
search

string

Apa yang akan diganti. Panjang maksimum adalah 100 karakter.

replace

string

Apa yang akan diganti. Panjang maksimum adalah 100 karakter.

caseSensitive

boolean

Apakah penelusuran peka huruf besar/kecil.

SpeechContext

Memberikan "petunjuk" kepada pengenal ucapan untuk lebih memilih kata dan frasa tertentu dalam hasil.

Representasi JSON
{
  "phrases": [
    string
  ],
  "boost": number
}
Kolom
phrases[]

string

Daftar string yang berisi "petunjuk" kata dan frasa sehingga pengenalan ucapan lebih mungkin mengenalinya. Hal ini dapat digunakan untuk meningkatkan akurasi kata dan frasa tertentu, misalnya, jika perintah tertentu biasanya diucapkan oleh pengguna. Hal ini juga dapat digunakan untuk menambahkan kata-kata tambahan ke kosakata pengenal. Lihat batas penggunaan.

Item daftar juga dapat ditetapkan ke class untuk grup kata yang mewakili konsep umum yang terjadi dalam bahasa alami. Misalnya, daripada memberikan petunjuk frasa untuk setiap bulan dalam setahun, penggunaan class $MONTH meningkatkan kemungkinan transkripsi audio yang menyertakan bulan dengan benar.

boost

number

Peningkatan Petunjuk. Nilai positif akan meningkatkan kemungkinan frasa tertentu dikenali dibandingkan frasa lain yang terdengar serupa. Semakin tinggi peningkatannya, semakin tinggi juga peluang pengenalan positif palsu. Nilai peningkatan negatif akan sesuai dengan anti-bias. Anti-bias tidak diaktifkan, sehingga peningkatan negatif akan diabaikan. Meskipun boost dapat menerima berbagai nilai positif, sebagian besar kasus penggunaan akan lebih baik dengan nilai antara 0 dan 20. Sebaiknya gunakan pendekatan penelusuran biner untuk menemukan nilai optimal untuk kasus penggunaan Anda.

SpeakerDiarizationConfig

Konfigurasi untuk mengaktifkan diarisasi pembicara.

Representasi JSON
{
  "enableSpeakerDiarization": boolean,
  "minSpeakerCount": integer,
  "maxSpeakerCount": integer,
  "speakerTag": integer
}
Kolom
enableSpeakerDiarization

boolean

Jika 'true', mengaktifkan deteksi pembicara untuk setiap kata yang dikenali dalam alternatif teratas hasil pengenalan menggunakan speakerLabel yang disediakan di WordInfo.

minSpeakerCount

integer

Jumlah minimum pembicara dalam percakapan. Rentang ini memberi Anda lebih banyak fleksibilitas dengan memungkinkan sistem menentukan jumlah speaker yang benar secara otomatis. Jika tidak ditetapkan, nilai defaultnya adalah 2.

maxSpeakerCount

integer

Jumlah maksimum pembicara dalam percakapan. Rentang ini memberi Anda lebih banyak fleksibilitas dengan memungkinkan sistem menentukan jumlah speaker yang benar secara otomatis. Jika tidak ditetapkan, nilai defaultnya adalah 6.

speakerTag
(deprecated)

integer

Hanya output. Tidak digunakan.

RecognitionMetadata

Deskripsi data audio yang akan dikenali.

Representasi JSON
{
  "interactionType": enum (InteractionType),
  "industryNaicsCodeOfAudio": integer,
  "microphoneDistance": enum (MicrophoneDistance),
  "originalMediaType": enum (OriginalMediaType),
  "recordingDeviceType": enum (RecordingDeviceType),
  "recordingDeviceName": string,
  "originalMimeType": string,
  "obfuscatedId": string,
  "audioTopic": string
}
Kolom
interactionType

enum (InteractionType)

Kasus penggunaan yang paling mendeskripsikan konten audio yang akan dikenali.

industryNaicsCodeOfAudio

integer (uint32 format)

Vertical industri yang paling sesuai dengan permintaan pengenalan ucapan ini. Hal ini paling menunjukkan topik yang ada dalam audio. Gunakan kode NAICS 6 digit untuk mengidentifikasi vertikal industri - lihat https://www.naics.com/search/.

microphoneDistance

enum (MicrophoneDistance)

Jenis audio yang paling mendekati deskripsi audio yang sedang dikenali.

originalMediaType

enum (OriginalMediaType)

Media asli tempat ucapan direkam.

recordingDeviceType

enum (RecordingDeviceType)

Jenis perangkat yang digunakan untuk merekam ucapan.

recordingDeviceName

string

Perangkat yang digunakan untuk membuat rekaman. Contohnya 'Nexus 5X' atau 'Polycom SoundStation IP 6000' atau 'POTS' atau 'VoIP' atau 'Mikrofon Cardioid'.

originalMimeType

string

Jenis MIME file audio asli. Misalnya, audio/m4a, audio/x-alaw-basic, audio/mp3, audio/3gpp. Daftar kemungkinan jenis MIME audio dikelola di http://www.iana.org/assignments/media-types/media-types.xhtml#audio

obfuscatedId
(deprecated)

string (int64 format)

ID pengguna yang di-obfuscate (dilindungi privasinya), untuk mengidentifikasi jumlah pengguna unik yang menggunakan layanan.

audioTopic

string

Deskripsi konten. Mis. "Rekaman sidang mahkamah agung federal dari tahun 2012".

InteractionType

Kategori kasus penggunaan yang dapat mendeskripsikan permintaan pengenalan audio.

Enum
INTERACTION_TYPE_UNSPECIFIED Kasus penggunaan tidak diketahui atau bukan salah satu nilai di bawah.
DISCUSSION Beberapa orang dalam percakapan atau diskusi. Misalnya, dalam rapat dengan dua orang atau lebih yang berpartisipasi aktif. Biasanya semua orang yang berbicara akan berada di ruangan yang sama (jika tidak, lihat PHONE_CALL)
PRESENTATION Satu atau beberapa orang yang memberikan kuliah atau presentasi kepada orang lain, sebagian besar tanpa gangguan.
PHONE_CALL Panggilan telepon atau konferensi video yang diikuti secara aktif oleh dua orang atau lebih yang tidak berada di ruangan yang sama.
VOICEMAIL Pesan rekaman yang ditujukan untuk didengarkan oleh orang lain.
PROFESSIONALLY_PRODUCED Audio yang diproduksi secara profesional (misalnya, Acara TV, Podcast).
VOICE_COMMAND Mentranskripsikan perintah suara, seperti untuk mengontrol perangkat.
DICTATION Mentranskripsikan ucapan ke teks untuk membuat dokumen tertulis, seperti pesan teks, email, atau laporan.

MicrophoneDistance

Mencantumkan jenis setelan perekaman yang menjelaskan file audio.

Enum
MICROPHONE_DISTANCE_UNSPECIFIED Jenis audio tidak diketahui.
NEARFIELD Audio diambil dari mikrofon yang ditempatkan di dekatnya. Misalnya, ponsel, perekam suara, atau mikrofon genggam. Umumnya jika speaker berada dalam jarak 1 meter dari mikrofon.
MIDFIELD Speaker berada dalam jarak 3 meter dari mikrofon.
FARFIELD Speaker berjarak lebih dari 3 meter dari mikrofon.

OriginalMediaType

Media asli tempat ucapan direkam.

Enum
ORIGINAL_MEDIA_TYPE_UNSPECIFIED Jenis media asli tidak diketahui.
AUDIO Data ucapan adalah rekaman audio.
VIDEO Data ucapan yang awalnya direkam dalam video.

RecordingDeviceType

Jenis perangkat yang digunakan untuk merekam ucapan.

Enum
RECORDING_DEVICE_TYPE_UNSPECIFIED Perangkat perekam tidak diketahui.
SMARTPHONE Ucapan direkam di smartphone.
PC Ucapan direkam menggunakan komputer atau tablet pribadi.
PHONE_LINE Ucapan direkam melalui saluran telepon.
VEHICLE Ucapan direkam di dalam kendaraan.
OTHER_OUTDOOR_DEVICE Ucapan direkam di luar ruangan.
OTHER_INDOOR_DEVICE Ucapan direkam di dalam ruangan.