Indeks
Speech(antar muka)AccessMetadata(pesan)AccessMetadata.ConstraintType(enum)AutoDetectDecodingConfig(pesan)BatchRecognizeFileMetadata(pesan)BatchRecognizeFileResult(pesan)BatchRecognizeMetadata(pesan)BatchRecognizeRequest(pesan)BatchRecognizeRequest.ProcessingStrategy(enum)BatchRecognizeResponse(pesan)BatchRecognizeResults(pesan)BatchRecognizeTranscriptionMetadata(pesan)CloudStorageResult(pesan)Config(pesan)CreateCustomClassRequest(pesan)CreatePhraseSetRequest(pesan)CreateRecognizerRequest(pesan)CustomClass(pesan)CustomClass.ClassItem(pesan)CustomClass.State(enum)DeleteCustomClassRequest(pesan)DeletePhraseSetRequest(pesan)DeleteRecognizerRequest(pesan)DenoiserConfig(pesan)ExplicitDecodingConfig(pesan)ExplicitDecodingConfig.AudioEncoding(enum)GcsOutputConfig(pesan)GetConfigRequest(pesan)GetCustomClassRequest(pesan)GetPhraseSetRequest(pesan)GetRecognizerRequest(pesan)InlineOutputConfig(pesan)InlineResult(pesan)LanguageMetadata(pesan)ListCustomClassesRequest(pesan)ListCustomClassesResponse(pesan)ListPhraseSetsRequest(pesan)ListPhraseSetsResponse(pesan)ListRecognizersRequest(pesan)ListRecognizersResponse(pesan)LocationsMetadata(pesan)ModelFeature(pesan)ModelFeatures(pesan)ModelMetadata(pesan)NativeOutputFileFormatConfig(pesan)OperationMetadata(pesan)OutputFormatConfig(pesan)PhraseSet(pesan)PhraseSet.Phrase(pesan)PhraseSet.State(enum)RecognitionConfig(pesan)RecognitionFeatures(pesan)RecognitionFeatures.MultiChannelMode(enum)RecognitionOutputConfig(pesan)RecognitionResponseMetadata(pesan)RecognizeRequest(pesan)RecognizeResponse(pesan)Recognizer(pesan)Recognizer.State(enum)SpeakerDiarizationConfig(pesan)SpeechAdaptation(pesan)SpeechAdaptation.AdaptationPhraseSet(pesan)SpeechRecognitionAlternative(pesan)SpeechRecognitionResult(pesan)SrtOutputFileFormatConfig(pesan)StreamingRecognitionConfig(pesan)StreamingRecognitionFeatures(pesan)StreamingRecognitionFeatures.VoiceActivityTimeout(pesan)StreamingRecognitionResult(pesan)StreamingRecognizeRequest(pesan)StreamingRecognizeResponse(pesan)StreamingRecognizeResponse.SpeechEventType(enum)TranscriptNormalization(pesan)TranscriptNormalization.Entry(pesan)TranslationConfig(pesan)UndeleteCustomClassRequest(pesan)UndeletePhraseSetRequest(pesan)UndeleteRecognizerRequest(pesan)UpdateConfigRequest(pesan)UpdateCustomClassRequest(pesan)UpdatePhraseSetRequest(pesan)UpdateRecognizerRequest(pesan)VttOutputFileFormatConfig(pesan)WordInfo(pesan)
Ucapan
Memungkinkan transkripsi ucapan dan pengelolaan resource.
| BatchRecognize |
|---|
|
Melakukan pengenalan ucapan asinkron batch: mengirim permintaan dengan N file audio dan menerima operasi yang berjalan lama yang dapat di-polling untuk melihat kapan transkripsi selesai.
|
| CreateCustomClass |
|---|
|
Membuat
|
| CreatePhraseSet |
|---|
|
Membuat
|
| CreateRecognizer |
|---|
|
Membuat
|
| DeleteCustomClass |
|---|
|
Menghapus
|
| DeletePhraseSet |
|---|
|
Menghapus
|
| DeleteRecognizer |
|---|
|
Menghapus
|
| GetConfig |
|---|
|
Menampilkan
|
| GetCustomClass |
|---|
|
Menampilkan
|
| GetPhraseSet |
|---|
|
Menampilkan
|
| GetRecognizer |
|---|
|
Menampilkan
|
| ListCustomClasses |
|---|
|
Mencantumkan CustomClass.
|
| ListPhraseSets |
|---|
|
Mencantumkan PhraseSet.
|
| ListRecognizers |
|---|
|
Mencantumkan Pengenal.
|
| Kenali |
|---|
|
Melakukan pengenalan Ucapan sinkron: menerima hasil setelah semua audio dikirim dan diproses.
|
| StreamingRecognize |
|---|
|
Menjalankan pengenalan ucapan streaming dua arah: menerima hasil saat mengirim audio. Metode ini hanya tersedia melalui gRPC API (bukan REST).
|
| UndeleteCustomClass |
|---|
|
Membatalkan penghapusan
|
| UndeletePhraseSet |
|---|
|
Membatalkan penghapusan
|
| UndeleteRecognizer |
|---|
|
Membatalkan penghapusan
|
| UpdateConfig |
|---|
|
Memperbarui
|
| UpdateCustomClass |
|---|
|
Memperbarui
|
| UpdatePhraseSet |
|---|
|
Memperbarui
|
| UpdateRecognizer |
|---|
|
Memperbarui
|
AccessMetadata
Metadata akses untuk wilayah tertentu. Hal ini dapat diterapkan jika kebijakan organisasi untuk project tertentu tidak mengizinkan wilayah tertentu.
| Kolom | |
|---|---|
constraint_type |
Menjelaskan berbagai jenis batasan yang diterapkan. |
ConstraintType
Menjelaskan berbagai jenis batasan yang dapat diterapkan pada suatu wilayah.
| Enum | |
|---|---|
CONSTRAINT_TYPE_UNSPECIFIED |
Batasan tidak ditentukan diterapkan. |
RESOURCE_LOCATIONS_ORG_POLICY_CREATE_CONSTRAINT |
Kebijakan org project tidak mengizinkan region yang diberikan. |
AutoDetectDecodingConfig
Jenis ini tidak memiliki kolom.
Parameter decoding yang terdeteksi secara otomatis. Didukung untuk encoding berikut:
WAV_LINEAR16: Sampel PCM little-endian bertanda 16-bit dalam penampung WAV.
WAV_MULAW: Sampel mulaw companded 8-bit dalam penampung WAV.
WAV_ALAW: Sampel alaw companded 8-bit dalam penampung WAV.
RFC4867_5_AMR: Frame AMR dengan header rfc4867.5.
RFC4867_5_AMRWB: Frame AMR-WB dengan header rfc4867.5.
FLAC: Frame FLAC dalam format penampung "FLAC native".
MP3: Frame audio MPEG dengan metadata ID3 opsional (diabaikan).
OGG_OPUS: Frame audio Opus dalam container Ogg.
WEBM_OPUS: Frame audio Opus dalam penampung WebM.
MP4_AAC: Frame audio AAC dalam penampung MP4.
M4A_AAC: Frame audio AAC dalam penampung M4A.
MOV_AAC: Frame audio AAC dalam penampung MOV.
BatchRecognizeFileMetadata
Metadata tentang satu file dalam batch untuk BatchRecognize.
| Kolom | |
|---|---|
config |
Fitur dan metadata audio yang akan digunakan untuk Pengenalan Ucapan Otomatis. Kolom ini bersama dengan kolom |
config_mask |
Daftar kolom di |
Kolom union audio_source. Sumber audio, yang merupakan URI Google Cloud Storage. audio_source hanya ada berupa salah satu diantara berikut: |
|
uri |
URI Cloud Storage untuk file audio. |
BatchRecognizeFileResult
Hasil akhir untuk satu file.
| Kolom | |
|---|---|
error |
Error jika terjadi error. |
metadata |
|
uri |
Tidak digunakan lagi. Sebagai gantinya, gunakan |
transcript |
Tidak digunakan lagi. Sebagai gantinya, gunakan |
Kolom union
|
|
cloud_storage_result |
Hasil pengenalan ditulis ke Cloud Storage. Kolom ini hanya diisi jika |
inline_result |
Hasil pengenalan. Kolom ini hanya diisi jika |
BatchRecognizeMetadata
Metadata operasi untuk BatchRecognize.
| Kolom | |
|---|---|
transcription_metadata |
Memetakan dari nama file yang diberikan ke metadata transkripsi untuk file tersebut. |
BatchRecognizeRequest
Pesan permintaan untuk metode BatchRecognize.
| Kolom | |
|---|---|
recognizer |
Wajib. Nama Pengenal yang akan digunakan selama pengenalan. Format yang diharapkan adalah |
config |
Fitur dan metadata audio yang akan digunakan untuk Pengenalan Ucapan Otomatis. Kolom ini bersama dengan kolom |
config_mask |
Daftar kolom di |
files[] |
File audio dengan metadata file untuk ASR. Jumlah maksimum file yang dapat ditentukan adalah 15. |
recognition_output_config |
Opsi konfigurasi untuk tempat output transkrip setiap file. |
processing_strategy |
Strategi pemrosesan yang akan digunakan untuk permintaan ini. |
ProcessingStrategy
Kemungkinan strategi pemrosesan untuk permintaan batch.
| Enum | |
|---|---|
PROCESSING_STRATEGY_UNSPECIFIED |
Nilai default untuk strategi pemrosesan. Permintaan diproses segera setelah diterima. |
DYNAMIC_BATCHING |
Jika dipilih, permintaan akan diproses selama periode penggunaan yang lebih rendah untuk mendapatkan diskon harga. Permintaan akan dipenuhi dalam waktu 24 jam. |
BatchRecognizeResponse
Pesan respons untuk BatchRecognize yang dikemas ke dalam Operation yang berjalan lama.
| Kolom | |
|---|---|
results |
Memetakan dari nama file ke hasil akhir untuk file tersebut. |
total_billed_duration |
Jika tersedia, detik audio yang ditagih untuk permintaan yang sesuai. |
BatchRecognizeResults
Jenis output untuk Cloud Storage transkrip BatchRecognize. Meskipun proto ini tidak ditampilkan di API ini di mana pun, transkrip Cloud Storage akan diserialisasi sebagai proto ini dan harus diuraikan seperti itu.
| Kolom | |
|---|---|
results[] |
Daftar hasil transkripsi berurutan yang sesuai dengan bagian audio berurutan. |
metadata |
Metadata tentang pengenalan. |
BatchRecognizeTranscriptionMetadata
Metadata tentang transkripsi untuk satu file (misalnya, persentase progres).
| Kolom | |
|---|---|
progress_percent |
Seberapa banyak bagian file yang telah ditranskripsikan sejauh ini. |
error |
Error jika terjadi error. |
uri |
URI Cloud Storage tempat hasil pengenalan akan ditulis. |
CloudStorageResult
Hasil akhir ditulis ke Cloud Storage.
| Kolom | |
|---|---|
uri |
URI Cloud Storage tempat hasil pengenalan ditulis. |
vtt_format_uri |
URI Cloud Storage tempat hasil pengenalan ditulis sebagai teks berformat VTT. Kolom ini diisi hanya saat output |
srt_format_uri |
URI Cloud Storage tempat hasil pengenalan ditulis sebagai teks yang diformat SRT. Kolom ini diisi hanya saat output |
Konfigurasi
Pesan yang merepresentasikan konfigurasi untuk Speech-to-Text API. Hal ini mencakup kunci KMS opsional yang akan digunakan untuk mengenkripsi data yang masuk.
| Kolom | |
|---|---|
name |
Hanya output. ID. Nama resource konfigurasi. Ada tepat satu resource konfigurasi per project per lokasi. Format yang diharapkan adalah |
kms_key_name |
Opsional. Nama kunci KMS opsional yang jika ada, akan digunakan untuk mengenkripsi resource Speech-to-Text saat tidak digunakan. Memperbarui kunci ini tidak akan mengenkripsi resource yang ada menggunakan kunci ini; hanya resource baru yang akan dienkripsi menggunakan kunci ini. Format yang diharapkan adalah |
update_time |
Hanya output. Waktu terakhir resource ini diubah. |
CreateCustomClassRequest
Pesan permintaan untuk metode CreateCustomClass.
| Kolom | |
|---|---|
custom_class |
Wajib. CustomClass yang akan dibuat. |
validate_only |
Jika disetel, validasi permintaan dan pratinjau CustomClass, tetapi jangan benar-benar membuatnya. |
custom_class_id |
ID yang akan digunakan untuk CustomClass, yang akan menjadi komponen akhir nama resource CustomClass. Nilai ini harus terdiri dari 4-63 karakter, dan karakter yang valid adalah /[a-z][0-9]-/. |
parent |
Wajib. Project dan lokasi tempat CustomClass ini akan dibuat. Format yang diharapkan adalah |
CreatePhraseSetRequest
Pesan permintaan untuk metode CreatePhraseSet.
| Kolom | |
|---|---|
phrase_set |
Wajib. PhraseSet yang akan dibuat. |
validate_only |
Jika disetel, validasi permintaan dan pratinjau PhraseSet, tetapi jangan benar-benar membuatnya. |
phrase_set_id |
ID yang akan digunakan untuk PhraseSet, yang akan menjadi komponen akhir nama resource PhraseSet. Nilai ini harus terdiri dari 4-63 karakter, dan karakter yang valid adalah /[a-z][0-9]-/. |
parent |
Wajib. Project dan lokasi tempat PhraseSet ini akan dibuat. Format yang diharapkan adalah |
CreateRecognizerRequest
Pesan permintaan untuk metode CreateRecognizer.
| Kolom | |
|---|---|
recognizer |
Wajib. Pengenal yang akan dibuat. |
validate_only |
Jika disetel, validasi permintaan dan pratinjau Pengenal, tetapi jangan benar-benar membuatnya. |
recognizer_id |
ID yang akan digunakan untuk Pengenal, yang akan menjadi komponen akhir dari nama resource Pengenal. Nilai ini harus terdiri dari 4-63 karakter, dan karakter yang valid adalah /[a-z][0-9]-/. |
parent |
Wajib. Project dan lokasi tempat Recognizer ini akan dibuat. Format yang diharapkan adalah |
CustomClass
CustomClass untuk memberikan bias dalam pengenalan ucapan. Digunakan untuk menentukan sekumpulan kata atau frasa yang mewakili konsep atau tema umum yang kemungkinan muncul dalam audio Anda, misalnya daftar nama kapal penumpang.
| Kolom | |
|---|---|
name |
Hanya output. ID. Nama resource CustomClass. Format |
uid |
Hanya output. ID unik yang ditetapkan sistem untuk CustomClass. |
display_name |
Opsional. Nama yang dapat dibaca manusia dan dapat ditetapkan pengguna untuk CustomClass. Harus terdiri dari 63 karakter atau kurang. |
items[] |
Kumpulan item class. |
state |
Hanya output. Status siklus proses CustomClass. |
create_time |
Hanya output. Waktu pembuatan. |
update_time |
Hanya output. Waktu terakhir resource ini diubah. |
delete_time |
Hanya output. Waktu saat resource ini diminta untuk dihapus. |
expire_time |
Hanya output. Waktu saat resource ini akan dihapus. |
annotations |
Opsional. Mengizinkan pengguna menyimpan data arbitrer dalam jumlah kecil. Panjang kunci dan nilai masing-masing tidak boleh lebih dari 63 karakter. Maksimal 100 anotasi. |
etag |
Hanya output. Checksum ini dihitung oleh server berdasarkan nilai kolom lainnya. Nilai ini dapat dikirim pada permintaan update, urungkan penghapusan, dan hapus untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
reconciling |
Hanya output. Apakah CustomClass ini sedang dalam proses diperbarui atau tidak. |
kms_key_name |
Hanya output. Nama kunci KMS yang digunakan untuk mengenkripsi CustomClass. Format yang diharapkan adalah |
kms_key_version_name |
Hanya output. Nama versi kunci KMS yang digunakan untuk mengenkripsi CustomClass. Format yang diharapkan adalah |
ClassItem
Item class.
| Kolom | |
|---|---|
value |
Nilai item kelas. |
Negara bagian/Provinsi
Kumpulan status yang menentukan siklus proses CustomClass.
| Enum | |
|---|---|
STATE_UNSPECIFIED |
Status tidak ditentukan. Ini hanya digunakan/berguna untuk membedakan nilai yang tidak disetel. |
ACTIVE |
Status normal dan aktif. |
DELETED |
CustomClass ini telah dihapus. |
DeleteCustomClassRequest
Pesan permintaan untuk metode DeleteCustomClass.
| Kolom | |
|---|---|
name |
Wajib. Nama CustomClass yang akan dihapus. Format: |
validate_only |
Jika disetel, validasi permintaan dan pratinjau CustomClass yang dihapus, tetapi jangan benar-benar menghapusnya. |
allow_missing |
Jika disetel ke benar (true), dan CustomClass tidak ditemukan, permintaan akan berhasil dan menjadi no-op (tidak ada Operasi yang dicatat dalam kasus ini). |
etag |
Checksum ini dihitung oleh server berdasarkan nilai kolom lainnya. Nilai ini dapat dikirim pada permintaan update, urungkan penghapusan, dan hapus untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
DeletePhraseSetRequest
Pesan permintaan untuk metode DeletePhraseSet.
| Kolom | |
|---|---|
name |
Wajib. Nama PhraseSet yang akan dihapus. Format: |
validate_only |
Jika disetel, validasi permintaan dan pratinjau PhraseSet yang dihapus, tetapi jangan benar-benar menghapusnya. |
allow_missing |
Jika disetel ke benar (true), dan PhraseSet tidak ditemukan, permintaan akan berhasil dan menjadi no-op (tidak ada Operasi yang dicatat dalam kasus ini). |
etag |
Checksum ini dihitung oleh server berdasarkan nilai kolom lainnya. Nilai ini dapat dikirim pada permintaan update, urungkan penghapusan, dan hapus untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
DeleteRecognizerRequest
Pesan permintaan untuk metode DeleteRecognizer.
| Kolom | |
|---|---|
name |
Wajib. Nama Pengenal yang akan dihapus. Format: |
validate_only |
Jika disetel, validasi permintaan dan pratinjau Penghapus yang dihapus, tetapi jangan benar-benar menghapusnya. |
allow_missing |
Jika disetel ke benar (true), dan Pengenal (Recognizer) tidak ditemukan, permintaan akan berhasil dan menjadi no-op (tidak ada Operasi yang dicatat dalam kasus ini). |
etag |
Checksum ini dihitung oleh server berdasarkan nilai kolom lainnya. Nilai ini dapat dikirim pada permintaan update, urungkan penghapusan, dan hapus untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
DenoiserConfig
Konfigurasi pengurang bising. Mungkin tidak didukung untuk semua model dan mungkin tidak berpengaruh.
| Kolom | |
|---|---|
denoise_audio |
Menghilangkan derau audio sebelum mengirimkannya ke model transkripsi. |
snr_threshold |
Nilai minimum Signal-to-Noise Ratio (SNR) untuk peredam derau. Di sini, SNR berarti tingkat kekerasan sinyal ucapan. Audio dengan SNR di bawah nilai minimum ini, yang berarti ucapan terlalu pelan, tidak akan dikirim ke model transkripsi. Jika snr_threshold=0, tidak ada pemfilteran yang akan diterapkan. |
ExplicitDecodingConfig
Parameter decoding yang ditentukan secara eksplisit.
| Kolom | |
|---|---|
encoding |
Wajib. Encoding data audio yang dikirim untuk pengenalan. |
sample_rate_hertz |
Opsional. Frekuensi sampel dalam Hertz dari data audio yang dikirim untuk pengenalan. Nilai yang valid adalah: 8000-48000, dan 16000 adalah nilai yang optimal. Untuk hasil terbaik, tetapkan frekuensi sampling sumber audio ke 16.000 Hz. Jika tidak memungkinkan, gunakan frekuensi sampel native sumber audio (alih-alih melakukan pengambilan ulang sampel). Perhatikan bahwa kolom ini ditandai sebagai OPSIONAL karena alasan kompatibilitas mundur. Kolom ini (dan selalu) WAJIB diisi. |
audio_channel_count |
Opsional. Jumlah saluran yang ada dalam data audio yang dikirim untuk pengenalan. Perhatikan bahwa kolom ini ditandai sebagai OPSIONAL karena alasan kompatibilitas mundur. Kolom ini (dan selalu) WAJIB diisi. Nilai maksimum yang diizinkan adalah 8. |
AudioEncoding
Encoding data audio yang didukung.
| Enum | |
|---|---|
AUDIO_ENCODING_UNSPECIFIED |
Nilai default. Nilai ini tidak digunakan. |
LINEAR16 |
Sampel PCM little-endian bertanda 16-bit tanpa header. |
MULAW |
Contoh mulaw terkompresi 8-bit tanpa header. |
ALAW |
Sampel alaw terkompresi 8-bit tanpa header. |
AMR |
Frame AMR dengan header rfc4867.5. |
AMR_WB |
Frame AMR-WB dengan header rfc4867.5. |
FLAC |
Frame FLAC dalam format penampung "FLAC native". |
MP3 |
Frame audio MPEG dengan metadata ID3 opsional (diabaikan). |
OGG_OPUS |
Frame audio Opus dalam penampung Ogg. |
WEBM_OPUS |
Frame audio Opus dalam penampung WebM. |
MP4_AAC |
Frame audio AAC dalam penampung MP4. |
M4A_AAC |
Frame audio AAC dalam penampung M4A. |
MOV_AAC |
Frame audio AAC dalam penampung MOV. |
GcsOutputConfig
Konfigurasi output untuk Cloud Storage.
| Kolom | |
|---|---|
uri |
Awalan URI Cloud Storage yang akan digunakan untuk menulis hasil pengenalan. |
GetConfigRequest
Pesan permintaan untuk metode GetConfig.
| Kolom | |
|---|---|
name |
Wajib. Nama konfigurasi yang akan diambil. Ada tepat satu resource konfigurasi per project per lokasi. Format yang diharapkan adalah |
GetCustomClassRequest
Pesan permintaan untuk metode GetCustomClass.
| Kolom | |
|---|---|
name |
Wajib. Nama CustomClass yang akan diambil. Format yang diharapkan adalah |
GetPhraseSetRequest
Pesan permintaan untuk metode GetPhraseSet.
| Kolom | |
|---|---|
name |
Wajib. Nama PhraseSet yang akan diambil. Format yang diharapkan adalah |
GetRecognizerRequest
Pesan permintaan untuk metode GetRecognizer.
| Kolom | |
|---|---|
name |
Wajib. Nama Pengenal yang akan diambil. Format yang diharapkan adalah |
InlineOutputConfig
Jenis ini tidak memiliki kolom.
Konfigurasi output untuk respons inline.
InlineResult
Hasil akhir ditampilkan inline dalam respons pengenalan.
| Kolom | |
|---|---|
transcript |
Transkrip untuk file audio. |
vtt_captions |
Transkrip untuk file audio sebagai teks yang diformat VTT. Kolom ini diisi hanya saat output |
srt_captions |
Transkrip untuk file audio sebagai teks yang diformat SRT. Kolom ini diisi hanya saat output |
LanguageMetadata
Metadata tentang lokalitas yang tersedia di wilayah tertentu. Saat ini, hanya model yang tersedia untuk setiap lokalitas
| Kolom | |
|---|---|
models |
Peta lokalitas (kode bahasa) -> model |
ListCustomClassesRequest
Pesan permintaan untuk metode ListCustomClasses.
| Kolom | |
|---|---|
parent |
Wajib. Project dan lokasi resource CustomClass yang akan dicantumkan. Format yang diharapkan adalah |
page_size |
Jumlah hasil per permintaan. Rentang page_size yang valid adalah 0 hingga 100. Jika page_size adalah nol atau tidak ditentukan, ukuran halaman 5 akan dipilih. Jika ukuran halaman melebihi 100, ukuran halaman akan dikurangi menjadi 100. Perhatikan bahwa panggilan mungkin menampilkan lebih sedikit hasil daripada ukuran halaman yang diminta. |
page_token |
Token halaman, yang diterima dari panggilan Saat melakukan penomoran halaman, semua parameter lain yang disediakan untuk |
show_deleted |
Apakah akan menampilkan resource yang telah dihapus atau tidak. |
ListCustomClassesResponse
Pesan respons untuk metode ListCustomClasses.
| Kolom | |
|---|---|
custom_classes[] |
Daftar CustomClass yang diminta. |
next_page_token |
Token yang dapat dikirim sebagai |
ListPhraseSetsRequest
Pesan permintaan untuk metode ListPhraseSets.
| Kolom | |
|---|---|
parent |
Wajib. Project dan lokasi resource PhraseSet yang akan dicantumkan. Format yang diharapkan adalah |
page_size |
Jumlah maksimum PhraseSet yang akan ditampilkan. Layanan mungkin menampilkan lebih sedikit dari nilai ini. Jika tidak ditentukan, paling banyak 5 PhraseSet akan ditampilkan. Nilai maksimum adalah 100; nilai di atas 100 akan dikonversi menjadi 100. |
page_token |
Token halaman, yang diterima dari panggilan Saat melakukan penomoran halaman, semua parameter lain yang disediakan untuk |
show_deleted |
Apakah akan menampilkan resource yang telah dihapus atau tidak. |
ListPhraseSetsResponse
Pesan respons untuk metode ListPhraseSets.
| Kolom | |
|---|---|
phrase_sets[] |
Daftar PhraseSet yang diminta. |
next_page_token |
Token yang dapat dikirim sebagai |
ListRecognizersRequest
Pesan permintaan untuk metode ListRecognizers.
| Kolom | |
|---|---|
parent |
Wajib. Project dan lokasi Pengenal yang akan dicantumkan. Format yang diharapkan adalah |
page_size |
Jumlah maksimum Pengenal yang akan ditampilkan. Layanan mungkin menampilkan lebih sedikit dari nilai ini. Jika tidak ditentukan, paling banyak 5 Pengenal akan ditampilkan. Nilai maksimum adalah 100; nilai di atas 100 akan dikonversi menjadi 100. |
page_token |
Token halaman, yang diterima dari panggilan Saat melakukan penomoran halaman, semua parameter lain yang disediakan untuk |
show_deleted |
Apakah akan menampilkan resource yang telah dihapus atau tidak. |
ListRecognizersResponse
Pesan respons untuk metode ListRecognizers.
| Kolom | |
|---|---|
recognizers[] |
Daftar Pengenal yang diminta. |
next_page_token |
Token yang dapat dikirim sebagai |
LocationsMetadata
Metadata utama untuk Locations API for STT V2. Saat ini, hanya ada metadata tentang lokalitas, model, dan fitur
| Kolom | |
|---|---|
languages |
Informasi tentang lokalitas, model, dan fitur yang tersedia yang ditampilkan dalam struktur hierarkis lokalitas -> model -> fitur |
access_metadata |
Informasi tentang metadata akses untuk region dan project tertentu. |
ModelFeature
Mewakili fitur tunggal model. Jika fiturnya recognizer, release_state fitur mewakili release_state model
| Kolom | |
|---|---|
feature |
Nama fitur (Catatan: fitur dapat berupa |
release_state |
Status rilis fitur |
ModelFeatures
Mewakili kumpulan fitur milik model
| Kolom | |
|---|---|
model_feature[] |
Kolom berulang yang berisi semua fitur model |
Metadata Model
Metadata tentang model di wilayah tertentu untuk lokalitas tertentu. Saat ini, ini hanyalah fitur model
| Kolom | |
|---|---|
model_features |
Peta nama model -> fitur model tersebut |
NativeOutputFileFormatConfig
Jenis ini tidak memiliki kolom.
Konfigurasi output untuk proto BatchRecognizeResults yang diserialkan.
OperationMetadata
Mewakili metadata operasi yang berjalan lama.
| Kolom | |
|---|---|
create_time |
Waktu saat operasi dibuat. |
update_time |
Waktu saat operasi terakhir diperbarui. |
resource |
Jalur resource untuk target operasi. |
method |
Metode yang memicu operasi. |
kms_key_name |
Nama kunci KMS yang digunakan untuk mengenkripsi konten Operasi. Format yang diharapkan adalah |
kms_key_version_name |
Nama versi kunci KMS yang digunakan untuk mengenkripsi konten Operasi. Format yang diharapkan adalah |
progress_percent |
Progres persentase Operasi. Nilai dapat berkisar dari 0-100. Jika nilainya 100, berarti operasi telah selesai. |
Kolom union request. Permintaan yang melahirkan Operasi. request hanya ada berupa salah satu diantara berikut: |
|
batch_recognize_request |
BatchRecognizeRequest yang melahirkan Operasi. |
create_recognizer_request |
CreateRecognizerRequest yang memunculkan Operasi. |
update_recognizer_request |
UpdateRecognizerRequest yang melahirkan Operasi. |
delete_recognizer_request |
DeleteRecognizerRequest yang memunculkan Operasi. |
undelete_recognizer_request |
UndeleteRecognizerRequest yang melahirkan Operasi. |
create_custom_class_request |
CreateCustomClassRequest yang memunculkan Operasi. |
update_custom_class_request |
UpdateCustomClassRequest yang memunculkan Operasi. |
delete_custom_class_request |
DeleteCustomClassRequest yang memunculkan Operasi. |
undelete_custom_class_request |
UndeleteCustomClassRequest yang memunculkan Operasi. |
create_phrase_set_request |
CreatePhraseSetRequest yang memunculkan Operasi. |
update_phrase_set_request |
UpdatePhraseSetRequest yang memunculkan Operasi. |
delete_phrase_set_request |
DeletePhraseSetRequest yang memunculkan Operasi. |
undelete_phrase_set_request |
UndeletePhraseSetRequest yang melahirkan Operasi. |
update_config_request |
UpdateConfigRequest yang melahirkan Operasi. |
Kolom union metadata. Metadata spesifik per RPC. metadata hanya ada berupa salah satu diantara berikut: |
|
batch_recognize_metadata |
Metadata khusus untuk metode BatchRecognize. |
OutputFormatConfig
Konfigurasi untuk format hasil yang disimpan ke output.
| Kolom | |
|---|---|
native |
Konfigurasi untuk format output native. Jika kolom ini disetel atau jika tidak ada kolom format output lain yang disetel, transkrip akan ditulis ke sink dalam format asli. |
vtt |
Konfigurasi untuk format output VTT. Jika kolom ini disetel, transkrip akan ditulis ke sink dalam format VTT. |
srt |
Konfigurasi untuk format output SRT. Jika kolom ini disetel, transkrip akan ditulis ke sink dalam format SRT. |
PhraseSet
PhraseSet untuk memberikan bias dalam pengenalan ucapan. PhraseSet digunakan untuk memberikan "petunjuk" kepada speech recognizer agar lebih memilih kata dan frasa tertentu dalam hasilnya.
| Kolom | |
|---|---|
name |
Hanya output. ID. Nama resource PhraseSet. Format |
uid |
Hanya output. ID unik yang ditetapkan sistem untuk PhraseSet. |
phrases[] |
Daftar kata dan frasa. |
boost |
Peningkatan Petunjuk. Nilai positif akan meningkatkan kemungkinan frasa tertentu dikenali dibandingkan frasa lain yang terdengar serupa. Semakin tinggi peningkatannya, semakin tinggi juga peluang pengenalan positif palsu. Nilai |
display_name |
Nama yang dapat dibaca manusia dan dapat ditetapkan pengguna untuk PhraseSet. Harus terdiri dari 63 karakter atau kurang. |
state |
Hanya output. Status siklus proses PhraseSet. |
create_time |
Hanya output. Waktu pembuatan. |
update_time |
Hanya output. Waktu terakhir resource ini diubah. |
delete_time |
Hanya output. Waktu saat resource ini diminta untuk dihapus. |
expire_time |
Hanya output. Waktu saat resource ini akan dihapus. |
annotations |
Mengizinkan pengguna menyimpan data arbitrer dalam jumlah kecil. Panjang kunci dan nilai masing-masing tidak boleh lebih dari 63 karakter. Maksimal 100 anotasi. |
etag |
Hanya output. Checksum ini dihitung oleh server berdasarkan nilai kolom lainnya. Nilai ini dapat dikirim pada permintaan update, urungkan penghapusan, dan hapus untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
reconciling |
Hanya output. Apakah PhraseSet ini sedang dalam proses diperbarui atau tidak. |
kms_key_name |
Hanya output. Nama kunci KMS yang digunakan untuk mengenkripsi PhraseSet. Format yang diharapkan adalah |
kms_key_version_name |
Hanya output. Nama versi kunci KMS yang digunakan untuk mengenkripsi PhraseSet. Format yang diharapkan adalah |
Frasa
Frasa berisi kata dan "petunjuk" frasa sehingga pengenalan ucapan lebih mungkin mengenalinya. Hal ini dapat digunakan untuk meningkatkan akurasi kata dan frasa tertentu, misalnya, jika perintah tertentu biasanya diucapkan oleh pengguna. Hal ini juga dapat digunakan untuk menambahkan kata-kata tambahan ke kosakata pengenal.
Item daftar juga dapat menyertakan referensi CustomClass yang berisi grup kata yang mewakili konsep umum yang terjadi dalam bahasa alami.
| Kolom | |
|---|---|
value |
Frasa itu sendiri. |
boost |
Peningkatan Petunjuk. Menggantikan peningkat yang ditetapkan di tingkat set frasa. Nilai positif akan meningkatkan kemungkinan frasa tertentu dikenali dibandingkan frasa lain yang terdengar serupa. Semakin tinggi peningkatannya, semakin tinggi juga peluang pengenalan positif palsu. Nilai peningkatan negatif akan sesuai dengan anti-bias. Anti-bias tidak diaktifkan, sehingga nilai peningkat negatif akan menampilkan error. Nilai penguatan harus antara 0 dan 20. Nilai di luar rentang tersebut akan menampilkan error. Sebaiknya gunakan pendekatan penelusuran biner untuk menemukan nilai optimal untuk kasus penggunaan Anda serta menambahkan frasa dengan dan tanpa peningkat ke permintaan Anda. |
Negara bagian/Provinsi
Kumpulan status yang menentukan siklus proses PhraseSet.
| Enum | |
|---|---|
STATE_UNSPECIFIED |
Status tidak ditentukan. Ini hanya digunakan/berguna untuk membedakan nilai yang tidak disetel. |
ACTIVE |
Status normal dan aktif. |
DELETED |
PhraseSet ini telah dihapus. |
RecognitionConfig
Memberikan informasi ke Recognizer yang menentukan cara memproses permintaan pengenalan.
| Kolom | |
|---|---|
model |
Opsional. Model mana yang akan digunakan untuk permintaan pengenalan. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik. Panduan untuk memilih model yang akan digunakan dapat ditemukan di Dokumentasi Model Transkripsi dan model yang didukung di setiap region dapat ditemukan di Tabel Model yang Didukung. |
language_codes[] |
Opsional. Bahasa audio yang disediakan sebagai tag bahasa BCP-47. Tag bahasa dinormalisasi ke BCP-47 sebelum digunakan, misalnya "en-us" menjadi "en-US". Bahasa yang didukung untuk setiap model tercantum dalam Tabel Model yang Didukung. Jika bahasa tambahan diberikan, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi dalam audio. |
features |
Fitur pengenalan ucapan yang akan diaktifkan. |
adaptation |
Konteks adaptasi ucapan yang memberi bobot pada prediksi pengenal untuk kata dan frasa tertentu. |
transcript_normalization |
Opsional. Gunakan normalisasi transkripsi untuk otomatis mengganti bagian transkrip dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial yang stabil (stabilitas > 0,8) dan transkrip akhir. |
translation_config |
Opsional. Konfigurasi opsional yang digunakan untuk menjalankan terjemahan secara otomatis pada audio tertentu ke bahasa yang diinginkan untuk model yang didukung. |
denoiser_config |
Opsional. Konfigurasi pengurang derau opsional. Mungkin tidak didukung untuk semua model dan mungkin tidak berpengaruh. |
Kolom union decoding_config. Parameter decoding untuk audio yang dikirim untuk pengenalan. decoding_config hanya ada berupa salah satu diantara berikut: |
|
auto_decoding_config |
Mendeteksi parameter decoding secara otomatis. Lebih disukai untuk format yang didukung. |
explicit_decoding_config |
Parameter decoding yang ditentukan secara eksplisit. Wajib jika menggunakan audio PCM tanpa header (linear16, mulaw, alaw). |
RecognitionFeatures
Fitur pengenalan yang tersedia.
| Kolom | |
|---|---|
profanity_filter |
Jika disetel ke |
enable_word_time_offsets |
Jika |
enable_word_confidence |
Jika |
enable_automatic_punctuation |
Jika |
enable_spoken_punctuation |
Perilaku tanda baca lisan untuk panggilan. Jika |
enable_spoken_emojis |
Perilaku emoji yang diucapkan untuk panggilan. Jika |
multi_channel_mode |
Mode untuk mengenali audio multi-saluran. |
diarization_config |
Konfigurasi untuk mengaktifkan diarisasi pembicara. Untuk mengaktifkan diarisasi, tetapkan kolom ini ke pesan SpeakerDiarizationConfig kosong. |
max_alternatives |
Jumlah maksimum hipotesis pengenalan yang akan ditampilkan. Server mungkin menampilkan kurang dari |
MultiChannelMode
Opsi untuk cara mengenali audio multi-channel.
| Enum | |
|---|---|
MULTI_CHANNEL_MODE_UNSPECIFIED |
Nilai default untuk mode multi-saluran. Jika audio berisi beberapa saluran, hanya saluran pertama yang akan ditranskripsikan; saluran lainnya akan diabaikan. |
SEPARATE_RECOGNITION_PER_CHANNEL |
Jika dipilih, setiap saluran dalam audio yang diberikan akan ditranskripsikan secara terpisah. Opsi ini tidak dapat dipilih jika model yang dipilih adalah latest_short. |
RecognitionOutputConfig
Opsi konfigurasi untuk output pengenalan.
| Kolom | |
|---|---|
output_format_config |
Opsional. Konfigurasi untuk format hasil yang disimpan ke |
Kolom union
|
|
gcs_output_config |
Jika kolom ini diisi, hasil pengenalan akan ditulis ke URI Google Cloud Storage yang diberikan. |
inline_response_config |
Jika pesan ini diisi, hasil pengenalan akan diberikan dalam pesan |
RecognitionResponseMetadata
Metadata tentang permintaan dan respons pengenalan.
| Kolom | |
|---|---|
request_id |
ID permintaan global yang dibuat secara otomatis oleh API. |
total_billed_duration |
Jika tersedia, detik audio yang ditagih untuk permintaan yang sesuai. |
RecognizeRequest
Pesan permintaan untuk metode Recognize. content atau uri harus diberikan. Menyediakan keduanya atau tidak satu pun akan menampilkan INVALID_ARGUMENT. Lihat batas konten.
| Kolom | |
|---|---|
recognizer |
Wajib. Nama Pengenal yang akan digunakan selama pengenalan. Format yang diharapkan adalah |
config |
Fitur dan metadata audio yang akan digunakan untuk Pengenalan Ucapan Otomatis. Kolom ini bersama dengan kolom |
config_mask |
Daftar kolom di |
Kolom union audio_source. Sumber audio, yang berupa konten inline atau URI Google Cloud Storage. audio_source hanya ada berupa salah satu diantara berikut: |
|
content |
Byte data audio dienkode seperti yang ditentukan dalam |
uri |
URI yang mengarah ke file yang berisi byte data audio seperti yang ditentukan dalam |
RecognizeResponse
Pesan respons untuk metode Recognize.
| Kolom | |
|---|---|
results[] |
Daftar hasil transkripsi berurutan yang sesuai dengan bagian audio berurutan. |
metadata |
Metadata tentang pengenalan. |
Pengenal
Pesan Recognizer. Menyimpan konfigurasi dan metadata pengenalan.
| Kolom | |
|---|---|
name |
Hanya output. ID. Nama resource Recognizer. Format |
uid |
Hanya output. ID unik yang ditetapkan sistem untuk Pengenal. |
display_name |
Nama yang dapat dibaca manusia dan dapat ditetapkan pengguna untuk Pengenal. Harus terdiri dari 63 karakter atau kurang. |
model |
Opsional. Kolom ini sekarang tidak digunakan lagi. Lebih memilih kolom Model mana yang akan digunakan untuk permintaan pengenalan. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik. Panduan untuk memilih model yang akan digunakan dapat ditemukan di Dokumentasi Model Transkripsi dan model yang didukung di setiap region dapat ditemukan di Tabel Model yang Didukung. |
language_codes[] |
Opsional. Kolom ini sekarang tidak digunakan lagi. Lebih memilih kolom Bahasa audio yang disediakan sebagai tag bahasa BCP-47. Bahasa yang didukung untuk setiap model tercantum dalam Tabel Model yang Didukung. Jika bahasa tambahan diberikan, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi dalam audio. Saat Anda membuat atau memperbarui Pengenal, nilai ini disimpan dalam bentuk BCP-47 yang dinormalisasi. Misalnya, "en-us" disimpan sebagai "en-US". |
default_recognition_config |
Konfigurasi default yang akan digunakan untuk permintaan dengan Pengenal ini. Nilai ini dapat diganti dengan konfigurasi inline di kolom |
annotations |
Mengizinkan pengguna menyimpan data arbitrer dalam jumlah kecil. Panjang kunci dan nilai masing-masing tidak boleh lebih dari 63 karakter. Maksimal 100 anotasi. |
state |
Hanya output. Status siklus proses Recognizer. |
create_time |
Hanya output. Waktu pembuatan. |
update_time |
Hanya output. Terakhir kali Pengenal ini diubah. |
delete_time |
Hanya output. Waktu saat Penghapus ini diminta untuk dihapus. |
expire_time |
Hanya output. Waktu saat Pengenal ini akan dihapus. |
etag |
Hanya output. Checksum ini dihitung oleh server berdasarkan nilai kolom lainnya. Nilai ini dapat dikirim pada permintaan update, urungkan penghapusan, dan hapus untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
reconciling |
Hanya output. Apakah Recognizer ini sedang dalam proses diperbarui atau tidak. |
kms_key_name |
Hanya output. Nama kunci KMS yang digunakan untuk mengenkripsi Recognizer. Format yang diharapkan adalah |
kms_key_version_name |
Hanya output. Nama versi kunci KMS yang digunakan untuk mengenkripsi Recognizer. Format yang diharapkan adalah |
Negara bagian/Provinsi
Kumpulan status yang menentukan siklus proses Recognizer.
| Enum | |
|---|---|
STATE_UNSPECIFIED |
Nilai default. Nilai ini digunakan jika status tidak ada. |
ACTIVE |
Recognizer aktif dan siap digunakan. |
DELETED |
Pengenal ini telah dihapus. |
SpeakerDiarizationConfig
Konfigurasi untuk mengaktifkan diarisasi pembicara.
| Kolom | |
|---|---|
min_speaker_count |
Opsional. Sistem akan otomatis menentukan jumlah pembicara. Nilai ini saat ini tidak digunakan. |
max_speaker_count |
Opsional. Sistem akan otomatis menentukan jumlah pembicara. Nilai ini saat ini tidak digunakan. |
SpeechAdaptation
Memberikan "petunjuk" kepada pengenal ucapan untuk lebih memilih kata dan frasa tertentu dalam hasil. PhraseSet dapat ditentukan sebagai resource inline, atau referensi ke resource PhraseSet yang ada.
| Kolom | |
|---|---|
phrase_sets[] |
Daftar PhraseSet inline atau yang dirujuk. |
custom_classes[] |
Daftar CustomClass inline. Resource CustomClass yang ada dapat dirujuk langsung dalam PhraseSet. |
AdaptationPhraseSet
PhraseSet yang memihak, yang dapat berupa string yang mereferensikan nama resource PhraseSet yang ada, atau definisi inline PhraseSet.
| Kolom | |
|---|---|
Kolom union
|
|
phrase_set |
Nama resource PhraseSet yang ada. Pengguna harus memiliki akses baca ke resource dan resource tersebut tidak boleh dihapus. |
inline_phrase_set |
PhraseSet yang ditentukan secara inline. |
SpeechRecognitionAlternative
Hipotesis alternatif (alias daftar n-terbaik).
| Kolom | |
|---|---|
transcript |
Teks transkrip yang mewakili kata-kata yang diucapkan pengguna. |
confidence |
Perkiraan keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali sudah benar. Kolom ini hanya ditetapkan untuk alternatif teratas dari hasil non-streaming atau hasil streaming dengan |
words[] |
Daftar informasi khusus kata untuk setiap kata yang dikenali. Saat |
SpeechRecognitionResult
Hasil pengenalan ucapan yang sesuai dengan sebagian audio.
| Kolom | |
|---|---|
alternatives[] |
Dapat berisi satu atau beberapa hipotesis pengenalan. Alternatif ini diurutkan berdasarkan akurasi, dengan alternatif teratas (pertama) adalah yang paling mungkin, sebagaimana diberi peringkat oleh pengenal. |
channel_tag |
Untuk audio multi-saluran, ini adalah nomor saluran yang sesuai dengan hasil yang dikenali untuk audio dari saluran tersebut. Untuk |
result_end_offset |
Selisih waktu akhir hasil ini relatif terhadap awal audio. |
language_code |
Hanya output. Tag bahasa BCP-47 dari bahasa dalam hasil ini. Kode bahasa ini terdeteksi sebagai bahasa yang paling mungkin digunakan dalam audio. |
SrtOutputFileFormatConfig
Jenis ini tidak memiliki kolom.
Konfigurasi output file teks yang diformat SubRip Text.
StreamingRecognitionConfig
Memberikan informasi konfigurasi untuk permintaan StreamingRecognize.
| Kolom | |
|---|---|
config |
Wajib. Fitur dan metadata audio yang akan digunakan untuk Pengenalan Ucapan Otomatis. Kolom ini bersama dengan kolom |
config_mask |
Daftar kolom di |
streaming_features |
Fitur pengenalan ucapan yang diaktifkan khusus untuk permintaan pengenalan audio streaming. |
StreamingRecognitionFeatures
Fitur pengenalan yang tersedia khusus untuk permintaan pengenalan streaming.
| Kolom | |
|---|---|
enable_voice_activity_events |
Jika |
interim_results |
Apakah akan melakukan streaming hasil sementara ke klien atau tidak. Jika disetel ke benar (true), hasil sementara akan di-streaming ke klien. Jika tidak, hanya respons akhir yang akan di-streaming kembali. |
voice_activity_timeout |
Jika disetel, server akan otomatis menutup streaming setelah durasi yang ditentukan berlalu setelah peristiwa ucapan VOICE_ACTIVITY terakhir dikirim. Kolom |
VoiceActivityTimeout
Peristiwa yang dapat disetel waktu tunggunya untuk aktivitas suara.
| Kolom | |
|---|---|
speech_start_timeout |
Durasi untuk menghentikan streaming jika tidak ada ucapan yang dimulai. Jika ini disetel dan tidak ada ucapan yang terdeteksi dalam durasi ini di awal streaming, server akan menutup streaming. |
speech_end_timeout |
Durasi untuk menghentikan streaming setelah ucapan berakhir. Jika disetel dan tidak ada ucapan yang terdeteksi dalam durasi ini setelah ucapan terdeteksi, server akan menutup streaming. |
StreamingPengenalanResult
Hasil pengenalan ucapan streaming yang sesuai dengan bagian audio yang sedang diproses.
| Kolom | |
|---|---|
alternatives[] |
Dapat berisi satu atau beberapa hipotesis pengenalan. Alternatif ini diurutkan berdasarkan akurasi, dengan alternatif teratas (pertama) adalah yang paling mungkin, sebagaimana diberi peringkat oleh pengenal. |
is_final |
Jika |
stability |
Estimasi kemungkinan bahwa pengenal tidak akan mengubah tebakannya tentang hasil sementara ini. Nilai berkisar dari 0,0 (sama sekali tidak stabil) hingga 1,0 (sepenuhnya stabil). Kolom ini hanya disediakan untuk hasil sementara ( |
result_end_offset |
Selisih waktu akhir hasil ini relatif terhadap awal audio. |
channel_tag |
Untuk audio multi-saluran, ini adalah nomor saluran yang sesuai dengan hasil yang dikenali untuk audio dari saluran tersebut. Untuk |
language_code |
Hanya output. Tag bahasa BCP-47 dari bahasa dalam hasil ini. Kode bahasa ini terdeteksi sebagai bahasa yang paling mungkin digunakan dalam audio. |
StreamingRecognizeRequest
Pesan permintaan untuk metode StreamingRecognize. Beberapa pesan StreamingRecognizeRequest dikirim dalam satu panggilan.
Jika Recognizer yang dirujuk oleh recognizer berisi konfigurasi permintaan yang sepenuhnya ditentukan, maka aliran hanya dapat berisi pesan dengan hanya audio yang ditetapkan.
Jika tidak, pesan pertama harus berisi pesan recognizer dan streaming_config yang bersama-sama menentukan konfigurasi permintaan sepenuhnya dan tidak boleh berisi audio. Semua pesan berikutnya hanya boleh memiliki setelan audio.
| Kolom | |
|---|---|
recognizer |
Wajib. Nama Pengenal yang akan digunakan selama pengenalan. Format yang diharapkan adalah |
Kolom union
|
|
streaming_config |
StreamingRecognitionConfig yang akan digunakan dalam upaya pengenalan ini. Jika disediakan, RecognitionConfig ini akan menggantikan RecognitionConfig default yang disimpan di Recognizer. |
audio |
Byte audio inline yang akan Dikenali. Ukuran maksimum untuk kolom ini adalah 15 KB per permintaan. |
StreamingRecognizeResponse
StreamingRecognizeResponse adalah satu-satunya pesan yang ditampilkan ke klien oleh StreamingRecognize. Serangkaian pesan StreamingRecognizeResponse nol atau lebih di-streaming kembali ke klien. Jika tidak ada audio yang dapat dikenali, tidak ada pesan yang di-streaming kembali ke klien.
Berikut beberapa contoh StreamingRecognizeResponse yang mungkin ditampilkan saat memproses audio:
results { alternatives { transcript: "tube" } stability: 0.01 }
results { alternatives { transcript: "to be a" } stability: 0.01 }
results { alternatives { transcript: "to be" } stability: 0.9 } results { alternatives { transcript: " or not to be" } stability: 0.01 }
results { alternatives { transcript: "to be or not to be" confidence: 0.92 } alternatives { transcript: "to bee or not to bee" } is_final: true }
results { alternatives { transcript: " that's" } stability: 0.01 }
results { alternatives { transcript: " that is" } stability: 0.9 } results { alternatives { transcript: " the question" } stability: 0.01 }
results { alternatives { transcript: " that is the question" confidence: 0.98 } alternatives { transcript: " that was the question" } is_final: true }
Catatan:
Hanya dua respons di atas, yaitu #4 dan #7, yang berisi hasil akhir; keduanya ditandai dengan
is_final: true. Menggabungkan keduanya akan menghasilkan transkrip lengkap: "to be or not to be that is the question".Yang lainnya berisi
resultssementara. #3 dan #6 berisi duaresultssementara: bagian pertama memiliki stabilitas tinggi dan cenderung tidak berubah; bagian kedua memiliki stabilitas rendah dan cenderung berubah. Desainer UI dapat memilih untuk hanya menampilkan stabilitas tinggiresults.Nilai
stabilitydanconfidencespesifik yang ditampilkan di atas hanya untuk tujuan ilustrasi. Nilai sebenarnya dapat bervariasi.Di setiap respons, hanya salah satu kolom berikut yang akan ditetapkan:
error,speech_event_type, atau satu atau beberapa (berulang)results.
| Kolom | |
|---|---|
results[] |
Daftar berulang ini berisi nol atau beberapa hasil yang sesuai dengan bagian audio berurutan yang sedang diproses. Objek ini berisi nol atau satu hasil |
speech_event_type |
Menunjukkan jenis peristiwa ucapan. |
speech_event_offset |
Offset waktu antara awal audio dan emisi peristiwa. |
metadata |
Metadata tentang pengenalan. |
SpeechEventType
Menunjukkan jenis peristiwa ucapan.
| Enum | |
|---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
Tidak ada peristiwa ucapan yang ditentukan. |
END_OF_SINGLE_UTTERANCE |
Peristiwa ini menunjukkan bahwa server telah mendeteksi akhir ucapan pengguna dan tidak mengharapkan ucapan tambahan. Oleh karena itu, server tidak akan memproses audio tambahan dan akan menutup streaming dua arah gRPC. Peristiwa ini hanya dikirim jika ada pemutusan paksa karena keheningan terdeteksi lebih awal. Acara ini hanya tersedia melalui latest_short model. |
SPEECH_ACTIVITY_BEGIN |
Peristiwa ini menunjukkan bahwa server telah mendeteksi awal aktivitas suara manusia dalam streaming. Peristiwa ini dapat ditampilkan beberapa kali jika ucapan dimulai dan berhenti berulang kali selama streaming. Peristiwa ini hanya dikirim jika voice_activity_events disetel ke benar (true). |
SPEECH_ACTIVITY_END |
Peristiwa ini menunjukkan bahwa server telah mendeteksi akhir aktivitas suara manusia dalam streaming. Peristiwa ini dapat ditampilkan beberapa kali jika ucapan dimulai dan berhenti berulang kali selama streaming. Peristiwa ini hanya dikirim jika voice_activity_events disetel ke benar (true). |
TranscriptNormalization
Konfigurasi normalisasi transkripsi. Gunakan normalisasi transkripsi untuk otomatis mengganti bagian transkrip dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial yang stabil (stabilitas > 0,8) dan transkrip akhir.
| Kolom | |
|---|---|
entries[] |
Daftar entri pengganti. Kami akan melakukan penggantian dengan satu entri dalam satu waktu. Misalnya, entri kedua di ["cat" => "dog", "mountain cat" => "mountain dog"] tidak akan pernah diterapkan karena kami akan selalu memproses entri pertama sebelumnya. Maksimal 100 entri. |
Entri
Konfigurasi penggantian tunggal.
| Kolom | |
|---|---|
search |
Apa yang akan diganti. Panjang maksimum adalah 100 karakter. |
replace |
Apa yang akan diganti. Panjang maksimum adalah 100 karakter. |
case_sensitive |
Apakah penelusuran peka huruf besar/kecil. |
TranslationConfig
Konfigurasi terjemahan. Digunakan untuk menerjemahkan audio yang diberikan menjadi teks dalam bahasa yang diinginkan.
| Kolom | |
|---|---|
target_language |
Wajib. Kode bahasa yang akan diterjemahkan. |
UndeleteCustomClassRequest
Pesan permintaan untuk metode UndeleteCustomClass.
| Kolom | |
|---|---|
name |
Wajib. Nama CustomClass yang akan dibatalkan penghapusannya. Format: |
validate_only |
Jika disetel, validasi permintaan dan pratinjau CustomClass yang tidak dihapus, tetapi jangan benar-benar membatalkan penghapusannya. |
etag |
Checksum ini dihitung oleh server berdasarkan nilai kolom lainnya. Nilai ini dapat dikirim pada permintaan update, urungkan penghapusan, dan hapus untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
UndeletePhraseSetRequest
Pesan permintaan untuk metode UndeletePhraseSet.
| Kolom | |
|---|---|
name |
Wajib. Nama PhraseSet yang akan dibatalkan penghapusannya. Format: |
validate_only |
Jika disetel, validasi permintaan dan pratinjau PhraseSet yang tidak dihapus, tetapi jangan benar-benar membatalkan penghapusannya. |
etag |
Checksum ini dihitung oleh server berdasarkan nilai kolom lainnya. Nilai ini dapat dikirim pada permintaan update, urungkan penghapusan, dan hapus untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
UndeleteRecognizerRequest
Pesan permintaan untuk metode UndeleteRecognizer.
| Kolom | |
|---|---|
name |
Wajib. Nama Pengenal yang akan dibatalkan penghapusannya. Format: |
validate_only |
Jika disetel, validasi permintaan dan pratinjau Pengenal yang tidak dihapus, tetapi jangan benar-benar membatalkan penghapusannya. |
etag |
Checksum ini dihitung oleh server berdasarkan nilai kolom lainnya. Nilai ini dapat dikirim pada permintaan update, urungkan penghapusan, dan hapus untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. |
UpdateConfigRequest
Pesan permintaan untuk metode UpdateConfig.
| Kolom | |
|---|---|
config |
Wajib. Konfigurasi yang akan diperbarui. Kolom |
update_mask |
Daftar kolom yang akan diperbarui. |
UpdateCustomClassRequest
Pesan permintaan untuk metode UpdateCustomClass.
| Kolom | |
|---|---|
custom_class |
Wajib. CustomClass yang akan diperbarui. Kolom |
update_mask |
Daftar kolom yang akan diperbarui. Jika kosong, semua kolom akan dipertimbangkan untuk diperbarui. |
validate_only |
Jika disetel, validasi permintaan dan pratinjau CustomClass yang diperbarui, tetapi jangan benar-benar memperbaruinya. |
UpdatePhraseSetRequest
Pesan permintaan untuk metode UpdatePhraseSet.
| Kolom | |
|---|---|
phrase_set |
Wajib. PhraseSet yang akan diperbarui. Kolom |
update_mask |
Daftar kolom yang akan diperbarui. Jika kosong, semua kolom yang memiliki nilai non-default akan dipertimbangkan untuk diperbarui. Gunakan |
validate_only |
Jika disetel, validasi permintaan dan pratinjau PhraseSet yang diperbarui, tetapi jangan benar-benar memperbaruinya. |
UpdateRecognizerRequest
Pesan permintaan untuk metode UpdateRecognizer.
| Kolom | |
|---|---|
recognizer |
Wajib. Pengenal yang akan diperbarui. Kolom |
update_mask |
Daftar kolom yang akan diperbarui. Jika kosong, semua kolom yang memiliki nilai non-default akan dipertimbangkan untuk diperbarui. Gunakan |
validate_only |
Jika disetel, validasi permintaan dan pratinjau Recognizer yang diperbarui, tetapi jangan benar-benar memperbaruinya. |
VttOutputFileFormatConfig
Jenis ini tidak memiliki kolom.
Konfigurasi output untuk file subtitel berformat WebVTT.
WordInfo
Informasi khusus kata untuk kata yang dikenali.
| Kolom | |
|---|---|
start_offset |
Selisih waktu relatif terhadap awal audio, dan sesuai dengan awal kata yang diucapkan. Kolom ini hanya ditetapkan jika |
end_offset |
Selisih waktu relatif terhadap awal audio, dan sesuai dengan akhir kata yang diucapkan. Kolom ini hanya ditetapkan jika |
word |
Kata yang sesuai dengan kumpulan informasi ini. |
confidence |
Perkiraan keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali sudah benar. Kolom ini hanya ditetapkan untuk alternatif teratas dari hasil non-streaming atau hasil streaming dengan |
speaker_label |
Label yang berbeda ditetapkan untuk setiap pembicara dalam audio. Kolom ini menentukan salah satu pembicara yang terdeteksi mengucapkan kata ini. |