Package google.cloud.speech.v1

Indeks

Adaptasi

Layanan yang menerapkan Google Cloud Speech Adaptation API.

CreateCustomClass

rpc CreateCustomClass(CreateCustomClassRequest) returns (CustomClass)

Buat class kustom.

Cakupan otorisasi

Memerlukan cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform

Untuk mengetahui informasi selengkapnya, lihat Authentication Overview.

CreatePhraseSet

rpc CreatePhraseSet(CreatePhraseSetRequest) returns (PhraseSet)

Buat kumpulan saran frasa. Setiap item dalam set dapat berupa satu kata atau frasa multi-kata. Item dalam PhraseSet lebih disukai oleh model pengenalan saat Anda mengirim panggilan yang menyertakan PhraseSet.

Cakupan otorisasi

Memerlukan cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform

Untuk mengetahui informasi selengkapnya, lihat Authentication Overview.

DeleteCustomClass

rpc DeleteCustomClass(DeleteCustomClassRequest) returns (Empty)

Menghapus kelas kustom.

Cakupan otorisasi

Memerlukan cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform

Untuk mengetahui informasi selengkapnya, lihat Authentication Overview.

DeletePhraseSet

rpc DeletePhraseSet(DeletePhraseSetRequest) returns (Empty)

Menghapus kumpulan frasa.

Cakupan otorisasi

Memerlukan cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform

Untuk mengetahui informasi selengkapnya, lihat Authentication Overview.

GetCustomClass

rpc GetCustomClass(GetCustomClassRequest) returns (CustomClass)

Mendapatkan kelas kustom.

Cakupan otorisasi

Memerlukan cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform

Untuk mengetahui informasi selengkapnya, lihat Authentication Overview.

GetPhraseSet

rpc GetPhraseSet(GetPhraseSetRequest) returns (PhraseSet)

Mendapatkan set frasa.

Cakupan otorisasi

Memerlukan cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform

Untuk mengetahui informasi selengkapnya, lihat Authentication Overview.

ListCustomClasses

rpc ListCustomClasses(ListCustomClassesRequest) returns (ListCustomClassesResponse)

Mencantumkan class kustom.

Cakupan otorisasi

Memerlukan cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform

Untuk mengetahui informasi selengkapnya, lihat Authentication Overview.

ListPhraseSet

rpc ListPhraseSet(ListPhraseSetRequest) returns (ListPhraseSetResponse)

Mencantumkan kumpulan frasa.

Cakupan otorisasi

Memerlukan cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform

Untuk mengetahui informasi selengkapnya, lihat Authentication Overview.

UpdateCustomClass

rpc UpdateCustomClass(UpdateCustomClassRequest) returns (CustomClass)

Perbarui kelas kustom.

Cakupan otorisasi

Memerlukan cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform

Untuk mengetahui informasi selengkapnya, lihat Authentication Overview.

UpdatePhraseSet

rpc UpdatePhraseSet(UpdatePhraseSetRequest) returns (PhraseSet)

Perbarui set frasa.

Cakupan otorisasi

Memerlukan cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform

Untuk mengetahui informasi selengkapnya, lihat Authentication Overview.

Ucapan

Layanan yang menerapkan Google Cloud Speech API.

LongRunningRecognize

rpc LongRunningRecognize(LongRunningRecognizeRequest) returns (Operation)

Melakukan pengenalan ucapan asinkron: menerima hasil melalui antarmuka google.longrunning.Operations. Menampilkan Operation.error atau Operation.response yang berisi pesan LongRunningRecognizeResponse. Untuk mengetahui informasi selengkapnya tentang pengenalan ucapan asinkron, lihat cara melakukannya.

Cakupan otorisasi

Memerlukan cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform

Untuk mengetahui informasi selengkapnya, lihat Authentication Overview.

Kenali

rpc Recognize(RecognizeRequest) returns (RecognizeResponse)

Melakukan pengenalan ucapan sinkron: menerima hasil setelah semua audio dikirim dan diproses.

Cakupan otorisasi

Memerlukan cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform

Untuk mengetahui informasi selengkapnya, lihat Authentication Overview.

StreamingRecognize

rpc StreamingRecognize(StreamingRecognizeRequest) returns (StreamingRecognizeResponse)

Menjalankan pengenalan ucapan streaming dua arah: menerima hasil saat mengirim audio. Metode ini hanya tersedia melalui gRPC API (bukan REST).

Cakupan otorisasi

Memerlukan cakupan OAuth berikut:

  • https://www.googleapis.com/auth/cloud-platform

Untuk mengetahui informasi selengkapnya, lihat Authentication Overview.

CreateCustomClassRequest

Pesan yang dikirim oleh klien untuk metode CreateCustomClass.

Kolom
parent

string

Wajib. Resource induk tempat class kustom ini akan dibuat. Format:

projects/{project}/locations/{location}/customClasses

Speech-to-Text mendukung tiga lokasi: global, us (Amerika Utara AS), dan eu (Eropa). Jika Anda memanggil endpoint speech.googleapis.com, gunakan lokasi global. Untuk menentukan region, gunakan endpoint regional dengan nilai lokasi us atau eu yang cocok.

Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan parent:

  • speech.customClasses.create
custom_class_id

string

Wajib. ID yang akan digunakan untuk class kustom, yang akan menjadi komponen akhir dari nama resource class kustom.

Nilai ini harus dibatasi untuk huruf, angka, dan tanda hubung, dengan karakter pertama adalah huruf, karakter terakhir adalah huruf atau angka, dan terdiri dari 4-63 karakter.

custom_class

CustomClass

Wajib. Class kustom yang akan dibuat.

CreatePhraseSetRequest

Pesan yang dikirim oleh klien untuk metode CreatePhraseSet.

Kolom
parent

string

Wajib. Resource induk tempat set frasa ini akan dibuat. Format:

projects/{project}/locations/{location}

Speech-to-Text mendukung tiga lokasi: global, us (Amerika Utara AS), dan eu (Eropa). Jika Anda memanggil endpoint speech.googleapis.com, gunakan lokasi global. Untuk menentukan region, gunakan endpoint regional dengan nilai lokasi us atau eu yang cocok.

Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan parent:

  • speech.phraseSets.create
phrase_set_id

string

Wajib. ID yang akan digunakan untuk set frasa, yang akan menjadi komponen akhir dari nama resource set frasa.

Nilai ini harus dibatasi untuk huruf, angka, dan tanda hubung, dengan karakter pertama adalah huruf, karakter terakhir adalah huruf atau angka, dan terdiri dari 4-63 karakter.

phrase_set

PhraseSet

Wajib. Kumpulan frasa yang akan dibuat.

CustomClass

Sekumpulan kata atau frasa yang mewakili konsep umum yang kemungkinan muncul dalam audio Anda, misalnya daftar nama kapal penumpang. Item CustomClass dapat digantikan ke dalam placeholder yang Anda tetapkan dalam frasa PhraseSet.

Kolom
name

string

Nama resource class kustom.

custom_class_id

string

Jika class kustom ini adalah resource, custom_class_id adalah ID resource CustomClass. Peka huruf besar/kecil.

items[]

ClassItem

Kumpulan item class.

kms_key_name

string

Hanya output. Nama kunci KMS yang digunakan untuk mengenkripsi konten ClassItem. Format yang diharapkan adalah projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}.

kms_key_version_name

string

Hanya output. Nama versi kunci KMS yang digunakan untuk mengenkripsi konten ClassItem. Format yang diharapkan adalah projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}.

uid

string

Hanya output. ID unik yang ditetapkan sistem untuk CustomClass. Kolom ini tidak digunakan.

display_name

string

Hanya output. Nama yang dapat dibaca manusia dan dapat ditetapkan pengguna untuk CustomClass. Harus terdiri dari 63 karakter atau kurang. Kolom ini tidak digunakan.

state

State

Hanya output. Status siklus proses CustomClass. Kolom ini tidak digunakan.

delete_time

Timestamp

Hanya output. Waktu saat resource ini diminta untuk dihapus. Kolom ini tidak digunakan.

expire_time

Timestamp

Hanya output. Waktu saat resource ini akan dihapus. Kolom ini tidak digunakan.

annotations

map<string, string>

Hanya output. Mengizinkan pengguna menyimpan data arbitrer dalam jumlah kecil. Panjang kunci dan nilai masing-masing tidak boleh lebih dari 63 karakter. Maksimal 100 anotasi. Kolom ini tidak digunakan.

etag

string

Hanya output. Checksum ini dihitung oleh server berdasarkan nilai kolom lainnya. Nilai ini dapat dikirim pada permintaan update, urungkan penghapusan, dan hapus untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. Kolom ini tidak digunakan.

reconciling

bool

Hanya output. Apakah CustomClass ini sedang dalam proses diperbarui atau tidak. Kolom ini tidak digunakan.

ClassItem

Item class.

Kolom
value

string

Nilai item kelas.

Negara bagian/Provinsi

Kumpulan status yang menentukan siklus proses CustomClass.

Enum
STATE_UNSPECIFIED Status tidak ditentukan. Ini hanya digunakan/berguna untuk membedakan nilai yang tidak disetel.
ACTIVE Status normal dan aktif.
DELETED CustomClass ini telah dihapus.

DeleteCustomClassRequest

Pesan yang dikirim oleh klien untuk metode DeleteCustomClass.

Kolom
name

string

Wajib. Nama class kustom yang akan dihapus. Format:

projects/{project}/locations/{location}/customClasses/{custom_class}

Speech-to-Text mendukung tiga lokasi: global, us (Amerika Utara AS), dan eu (Eropa). Jika Anda memanggil endpoint speech.googleapis.com, gunakan lokasi global. Untuk menentukan region, gunakan endpoint regional dengan nilai lokasi us atau eu yang cocok.

Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan name:

  • speech.customClasses.delete

DeletePhraseSetRequest

Pesan yang dikirim oleh klien untuk metode DeletePhraseSet.

Kolom
name

string

Wajib. Nama set frasa yang akan dihapus. Format:

projects/{project}/locations/{location}/phraseSets/{phrase_set}

Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan name:

  • speech.phraseSets.delete

GetCustomClassRequest

Pesan yang dikirim oleh klien untuk metode GetCustomClass.

Kolom
name

string

Wajib. Nama class kustom yang akan diambil. Format:

projects/{project}/locations/{location}/customClasses/{custom_class}

Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan name:

  • speech.customClasses.get

GetPhraseSetRequest

Pesan yang dikirim oleh klien untuk metode GetPhraseSet.

Kolom
name

string

Wajib. Nama set frasa yang akan diambil. Format:

projects/{project}/locations/{location}/phraseSets/{phrase_set}

Speech-to-Text mendukung tiga lokasi: global, us (Amerika Utara AS), dan eu (Eropa). Jika Anda memanggil endpoint speech.googleapis.com, gunakan lokasi global. Untuk menentukan region, gunakan endpoint regional dengan nilai lokasi us atau eu yang cocok.

Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan name:

  • speech.phraseSets.get

ListCustomClassesRequest

Pesan yang dikirim oleh klien untuk metode ListCustomClasses.

Kolom
parent

string

Wajib. Induk, yang memiliki kumpulan class kustom ini. Format:

projects/{project}/locations/{location}/customClasses

Speech-to-Text mendukung tiga lokasi: global, us (Amerika Utara AS), dan eu (Eropa). Jika Anda memanggil endpoint speech.googleapis.com, gunakan lokasi global. Untuk menentukan region, gunakan endpoint regional dengan nilai lokasi us atau eu yang cocok.

Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan parent:

  • speech.customClasses.list
page_size

int32

Jumlah maksimum kelas kustom yang akan ditampilkan. Layanan mungkin menampilkan lebih sedikit dari nilai ini. Jika tidak ditentukan, paling banyak 50 kelas kustom akan ditampilkan. Nilai maksimum adalah 1.000; nilai di atas 1.000 akan dikonversi menjadi 1.000.

page_token

string

Token halaman, yang diterima dari panggilan ListCustomClass sebelumnya. Berikan ini untuk mengambil halaman selanjutnya.

Saat melakukan penomoran halaman, semua parameter lain yang disediakan untuk ListCustomClass harus sesuai dengan panggilan yang memberikan token halaman.

ListCustomClassesResponse

Pesan yang ditampilkan ke klien oleh metode ListCustomClasses.

Kolom
custom_classes[]

CustomClass

Class kustom.

next_page_token

string

Token yang dapat dikirim sebagai page_token untuk mengambil halaman berikutnya. Jika kolom ini dihilangkan, tidak akan ada halaman berikutnya.

ListPhraseSetRequest

Pesan yang dikirim oleh klien untuk metode ListPhraseSet.

Kolom
parent

string

Wajib. Induk, yang memiliki kumpulan set frasa ini. Format:

projects/{project}/locations/{location}

Speech-to-Text mendukung tiga lokasi: global, us (Amerika Utara AS), dan eu (Eropa). Jika Anda memanggil endpoint speech.googleapis.com, gunakan lokasi global. Untuk menentukan region, gunakan endpoint regional dengan nilai lokasi us atau eu yang cocok.

Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan parent:

  • speech.phraseSets.list
page_size

int32

Jumlah maksimum set frasa yang akan ditampilkan. Layanan mungkin menampilkan lebih sedikit dari nilai ini. Jika tidak ditentukan, paling banyak 50 set frasa akan ditampilkan. Nilai maksimum adalah 1.000; nilai di atas 1.000 akan dikonversi menjadi 1.000.

page_token

string

Token halaman, yang diterima dari panggilan ListPhraseSet sebelumnya. Berikan ini untuk mengambil halaman selanjutnya.

Saat melakukan penomoran halaman, semua parameter lain yang disediakan untuk ListPhraseSet harus sesuai dengan panggilan yang memberikan token halaman.

ListPhraseSetResponse

Pesan yang ditampilkan ke klien oleh metode ListPhraseSet.

Kolom
phrase_sets[]

PhraseSet

Kumpulan frasa.

next_page_token

string

Token yang dapat dikirim sebagai page_token untuk mengambil halaman berikutnya. Jika kolom ini dihilangkan, tidak akan ada halaman berikutnya.

LongRunningRecognizeMetadata

Menjelaskan progres panggilan LongRunningRecognize yang berjalan lama. Hal ini disertakan dalam kolom metadata dari Operation yang ditampilkan oleh panggilan GetOperation dari layanan google::longrunning::Operations.

Kolom
progress_percent

int32

Perkiraan persentase audio yang diproses sejauh ini. Dijamin 100 jika audio telah diproses sepenuhnya dan hasilnya tersedia.

start_time

Timestamp

Waktu saat permintaan diterima.

last_update_time

Timestamp

Waktu update pemrosesan terbaru.

uri

string

Hanya output. URI file audio yang sedang ditranskripsikan. Kosong jika audio dikirim sebagai konten byte.

LongRunningRecognizeRequest

Pesan tingkat teratas yang dikirim oleh klien untuk metode LongRunningRecognize.

Kolom
config

RecognitionConfig

Wajib. Memberikan informasi ke pengenal yang menentukan cara memproses permintaan.

audio

RecognitionAudio

Wajib. Data audio yang akan dikenali.

output_config

TranscriptOutputConfig

Opsional. Menentukan tujuan opsional untuk hasil pengenalan.

LongRunningRecognizeResponse

Satu-satunya pesan yang ditampilkan ke klien oleh metode LongRunningRecognize. Objek ini berisi hasil sebagai nol atau beberapa pesan SpeechRecognitionResult berurutan. Hal ini disertakan dalam kolom result.response dari Operation yang ditampilkan oleh panggilan GetOperation dari layanan google::longrunning::Operations.

Kolom
results[]

SpeechRecognitionResult

Daftar hasil transkripsi berurutan yang sesuai dengan bagian audio berurutan.

total_billed_time

Duration

Jika tersedia, detik audio yang ditagih untuk permintaan yang sesuai.

output_config

TranscriptOutputConfig

Konfigurasi output asli jika ada dalam permintaan.

output_error

Status

Jika output transkrip gagal, kolom ini berisi error yang relevan.

speech_adaptation_info

SpeechAdaptationInfo

Memberikan informasi tentang perilaku adaptasi ucapan dalam respons

request_id

int64

ID yang terkait dengan permintaan. Ini adalah ID unik yang khusus untuk permintaan tertentu.

PhraseSet

Memberikan "petunjuk" kepada pengenal ucapan untuk lebih memilih kata dan frasa tertentu dalam hasil.

Kolom
name

string

Nama resource set frasa.

phrases[]

Phrase

Daftar kata dan frasa.

boost

float

Peningkatan Petunjuk. Nilai positif akan meningkatkan kemungkinan frasa tertentu dikenali dibandingkan frasa lain yang terdengar serupa. Semakin tinggi peningkatannya, semakin tinggi juga peluang pengenalan positif palsu. Nilai peningkatan negatif akan sesuai dengan anti-bias. Anti-bias tidak diaktifkan, sehingga peningkatan negatif akan diabaikan. Meskipun boost dapat menerima berbagai nilai positif, sebagian besar kasus penggunaan paling baik dilayani dengan nilai antara 0 (eksklusif) dan 20. Sebaiknya gunakan pendekatan penelusuran biner untuk menemukan nilai optimal untuk kasus penggunaan Anda serta menambahkan frasa dengan dan tanpa peningkat ke permintaan Anda.

kms_key_name

string

Hanya output. Nama kunci KMS yang digunakan untuk mengenkripsi konten PhraseSet. Format yang diharapkan adalah projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}.

kms_key_version_name

string

Hanya output. Nama versi kunci KMS yang digunakan untuk mengenkripsi konten PhraseSet. Format yang diharapkan adalah projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}.

uid

string

Hanya output. ID unik yang ditetapkan sistem untuk PhraseSet. Kolom ini tidak digunakan.

display_name

string

Hanya output. Nama yang dapat dibaca manusia dan dapat ditetapkan pengguna untuk PhraseSet. Harus terdiri dari 63 karakter atau kurang. Kolom ini tidak digunakan.

state

State

Hanya output. Status siklus proses CustomClass. Kolom ini tidak digunakan.

delete_time

Timestamp

Hanya output. Waktu saat resource ini diminta untuk dihapus. Kolom ini tidak digunakan.

expire_time

Timestamp

Hanya output. Waktu saat resource ini akan dihapus. Kolom ini tidak digunakan.

annotations

map<string, string>

Hanya output. Mengizinkan pengguna menyimpan data arbitrer dalam jumlah kecil. Panjang kunci dan nilai masing-masing tidak boleh lebih dari 63 karakter. Maksimal 100 anotasi. Kolom ini tidak digunakan.

etag

string

Hanya output. Checksum ini dihitung oleh server berdasarkan nilai kolom lainnya. Nilai ini dapat dikirim pada permintaan update, urungkan penghapusan, dan hapus untuk memastikan klien memiliki nilai terbaru sebelum melanjutkan. Kolom ini tidak digunakan.

reconciling

bool

Hanya output. Apakah PhraseSet ini sedang dalam proses diperbarui atau tidak. Kolom ini tidak digunakan.

Frasa

Frasa yang berisi "petunjuk" kata dan frasa sehingga pengenalan ucapan lebih mungkin mengenali frasa tersebut. Hal ini dapat digunakan untuk meningkatkan akurasi kata dan frasa tertentu, misalnya, jika perintah tertentu biasanya diucapkan oleh pengguna. Hal ini juga dapat digunakan untuk menambahkan kata-kata tambahan ke kosakata pengenal. Lihat batas penggunaan.

Item daftar juga dapat menyertakan class bawaan atau kustom yang berisi grup kata yang mewakili konsep umum yang muncul dalam bahasa alami. Misalnya, daripada memberikan petunjuk frasa untuk setiap bulan dalam setahun (misalnya, "saya lahir pada bulan januari", "saya lahir pada bulan februari", ...), penggunaan class $MONTH bawaan meningkatkan kemungkinan transkripsi audio yang menyertakan bulan dengan benar (misalnya, "saya lahir pada bulan $month"). Untuk merujuk ke class bawaan, gunakan simbol class yang diawali dengan $, misalnya $MONTH. Untuk merujuk ke class kustom yang ditentukan inline dalam permintaan, tetapkan custom_class_id class ke string yang unik untuk semua resource class dan class inline. Kemudian, gunakan ID class yang diapit dalam ${...}, misalnya "${my-months}". Untuk merujuk ke resource class kustom, gunakan ID class yang diapit dalam ${} (misalnya, ${my-months}).

Speech-to-Text mendukung tiga lokasi: global, us (Amerika Utara AS), dan eu (Eropa). Jika Anda memanggil endpoint speech.googleapis.com, gunakan lokasi global. Untuk menentukan region, gunakan endpoint regional dengan nilai lokasi us atau eu yang cocok.

Kolom
value

string

Frasa itu sendiri.

boost

float

Peningkatan Petunjuk. Menggantikan peningkat yang ditetapkan di tingkat set frasa. Nilai positif akan meningkatkan kemungkinan frasa tertentu dikenali dibandingkan frasa lain yang terdengar serupa. Semakin tinggi peningkatannya, semakin tinggi juga peluang pengenalan positif palsu. Peningkatan negatif akan diabaikan. Meskipun boost dapat menerima berbagai nilai positif, sebagian besar kasus penggunaan akan lebih baik dengan nilai antara 0 dan 20. Sebaiknya gunakan pendekatan penelusuran biner untuk menemukan nilai optimal untuk kasus penggunaan Anda serta menambahkan frasa dengan dan tanpa peningkat ke permintaan Anda.

Negara bagian/Provinsi

Kumpulan status yang menentukan siklus proses CustomClass.

Enum
STATE_UNSPECIFIED Status tidak ditentukan. Ini hanya digunakan/berguna untuk membedakan nilai yang tidak disetel.
ACTIVE Status normal dan aktif.
DELETED CustomClass ini telah dihapus.

RecognitionAudio

Berisi data audio dalam encoding yang ditentukan dalam RecognitionConfig. content atau uri harus diberikan. Menyediakan keduanya atau tidak satu pun akan menampilkan google.rpc.Code.INVALID_ARGUMENT. Lihat batas konten.

Kolom
Kolom union audio_source. Sumber audio, yang berupa konten inline atau URI Google Cloud Storage. audio_source hanya ada berupa salah satu diantara berikut:
content

bytes

Byte data audio dienkode seperti yang ditentukan dalam RecognitionConfig. Catatan: seperti semua kolom byte, buffer proto menggunakan representasi biner murni, sedangkan representasi JSON menggunakan base64.

uri

string

URI yang mengarah ke file yang berisi byte data audio seperti yang ditentukan dalam RecognitionConfig. File tidak boleh dikompresi (misalnya, gzip). Saat ini, hanya URI Google Cloud Storage yang didukung, yang harus ditentukan dalam format berikut: gs://bucket_name/object_name (format URI lainnya akan menampilkan google.rpc.Code.INVALID_ARGUMENT). Untuk mengetahui informasi selengkapnya, lihat URI Permintaan.

RecognitionConfig

Memberikan informasi ke pengenal yang menentukan cara memproses permintaan.

Kolom
encoding

AudioEncoding

Encoding data audio yang dikirim dalam semua pesan RecognitionAudio. Kolom ini bersifat opsional untuk file audio FLAC dan WAV, serta wajib diisi untuk semua format audio lainnya. Untuk mengetahui detailnya, lihat AudioEncoding.

sample_rate_hertz

int32

Frekuensi sampel dalam Hertz dari data audio yang dikirim dalam semua pesan RecognitionAudio. Nilai yang valid adalah: 8000-48000. 16.000 adalah nilai yang optimal. Untuk hasil terbaik, tetapkan frekuensi sampling sumber audio ke 16.000 Hz. Jika tidak memungkinkan, gunakan frekuensi sampel native sumber audio (alih-alih mengambil ulang sampel). Kolom ini bersifat opsional untuk file audio FLAC dan WAV, tetapi wajib diisi untuk semua format audio lainnya. Untuk mengetahui detailnya, lihat AudioEncoding.

audio_channel_count

int32

Jumlah saluran dalam data audio input. HANYA tetapkan ini untuk pengenalan MULTI-CHANNEL. Nilai yang valid untuk LINEAR16, OGG_OPUS, dan FLAC adalah 1-8. Nilai yang valid untuk MULAW, AMR, AMR_WB, dan SPEEX_WITH_HEADER_BYTE hanya 1. Jika 0 atau tidak ada, defaultnya adalah satu saluran (mono). Catatan: Secara default, kami hanya mengenali channel pertama. Untuk melakukan pengenalan independen di setiap saluran, tetapkan enable_separate_recognition_per_channel ke 'true'.

enable_separate_recognition_per_channel

bool

Setelan ini harus ditetapkan ke true secara eksplisit dan audio_channel_count > 1 agar setiap saluran dikenali secara terpisah. Hasil pengenalan akan berisi kolom channel_tag untuk menyatakan saluran mana yang memiliki hasil tersebut. Jika tidak benar, kami hanya akan mengenali saluran pertama. Permintaan ditagih secara kumulatif untuk semua saluran yang dikenali: audio_channel_count dikalikan dengan durasi audio.

language_code

string

Wajib. Bahasa audio yang disediakan sebagai tag bahasa BCP-47. Contoh: "en-US". Lihat Dukungan Bahasa untuk mengetahui daftar kode bahasa yang saat ini didukung.

alternative_language_codes[]

string

Daftar hingga 3 tag bahasa BCP-47 tambahan, yang mencantumkan kemungkinan bahasa alternatif dari audio yang diberikan. Lihat Dukungan Bahasa untuk mengetahui daftar kode bahasa yang saat ini didukung. Jika bahasa alternatif tercantum, hasil pengenalan akan berisi pengenalan dalam bahasa yang paling mungkin terdeteksi, termasuk main language_code. Hasil pengenalan akan menyertakan tag bahasa dari bahasa yang terdeteksi dalam audio. Catatan: Fitur ini hanya didukung untuk kasus penggunaan Perintah Suara dan Penelusuran Suara, dan performanya dapat bervariasi untuk kasus penggunaan lainnya (misalnya, transkripsi panggilan telepon).

max_alternatives

int32

Jumlah maksimum hipotesis pengenalan yang akan ditampilkan. Secara khusus, jumlah maksimum pesan SpeechRecognitionAlternative dalam setiap SpeechRecognitionResult. Server mungkin menampilkan kurang dari max_alternatives. Nilai yang valid adalah 0-30. Nilai 0 atau 1 akan menampilkan maksimum satu. Jika dihilangkan, akan menampilkan maksimum satu.

profanity_filter

bool

Jika disetel ke true, server akan mencoba memfilter kata-kata tidak sopan, mengganti semua karakter kecuali karakter awal dalam setiap kata yang difilter dengan tanda bintang, misalnya "f***". Jika disetel ke false atau dihilangkan, kata-kata tidak sopan tidak akan difilter.

adaptation

SpeechAdaptation

Konfigurasi adaptasi ucapan meningkatkan akurasi pengenalan ucapan. Untuk mengetahui informasi selengkapnya, lihat dokumentasi adaptasi ucapan. Jika ditetapkan, adaptasi ucapan akan menggantikan kolom speech_contexts.

transcript_normalization

TranscriptNormalization

Opsional. Gunakan normalisasi transkripsi untuk otomatis mengganti bagian transkrip dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial yang stabil (stabilitas > 0,8) dan transkrip akhir.

speech_contexts[]

SpeechContext

Array SpeechContext. Cara untuk memberikan konteks guna membantu pengenalan ucapan. Untuk mengetahui informasi selengkapnya, lihat adaptasi ucapan.

enable_word_time_offsets

bool

Jika true, hasil teratas mencakup daftar kata dan selisih waktu mulai dan berakhir (stempel waktu) untuk kata-kata tersebut. Jika false, tidak ada informasi offset waktu tingkat kata yang ditampilkan. Defaultnya adalah false.

enable_word_confidence

bool

Jika true, hasil teratas mencakup daftar kata dan tingkat keyakinan untuk kata-kata tersebut. Jika false, tidak ada informasi keyakinan tingkat kata yang ditampilkan. Defaultnya adalah false.

enable_automatic_punctuation

bool

Jika 'true', menambahkan tanda baca ke hipotesis hasil pengenalan. Fitur ini hanya tersedia dalam bahasa tertentu. Menetapkan ini untuk permintaan dalam bahasa lain tidak akan berpengaruh sama sekali. Nilai default 'false' tidak menambahkan tanda baca ke hipotesis hasil.

enable_spoken_punctuation

BoolValue

Perilaku tanda baca yang diucapkan untuk panggilan Jika tidak disetel, akan menggunakan perilaku default berdasarkan model pilihan, misalnya command_and_search akan mengaktifkan tanda baca yang diucapkan secara default Jika 'true', akan menggantikan tanda baca yang diucapkan dengan simbol yang sesuai dalam permintaan. Misalnya, "apa kabar tanda tanya" akan menjadi "apa kabar?". Lihat https://cloud.google.com/speech-to-text/docs/spoken-punctuation untuk mendapatkan dukungan. Jika 'false', tanda baca lisan tidak diganti.

enable_spoken_emojis

BoolValue

Perilaku emoji yang diucapkan untuk panggilan Jika tidak disetel, akan menggunakan perilaku default berdasarkan model pilihan Jika 'true', akan menambahkan format emoji yang diucapkan untuk permintaan. Tindakan ini akan menggantikan emoji yang diucapkan dengan simbol Unicode yang sesuai dalam transkrip akhir. Jika 'false', emoji lisan tidak diganti.

diarization_config

SpeakerDiarizationConfig

Konfigurasi untuk mengaktifkan diarisasi pembicara dan menetapkan parameter tambahan agar diarisasi lebih sesuai untuk aplikasi Anda. Catatan: Jika diaktifkan, kami akan mengirimkan semua kata dari awal audio untuk alternatif teratas dalam setiap respons STREAMING berturut-turut. Hal ini dilakukan untuk meningkatkan kualitas tag pembicara kami karena model kami belajar mengidentifikasi pembicara dalam percakapan dari waktu ke waktu. Untuk permintaan non-streaming, hasil diarisasi hanya akan diberikan dalam alternatif teratas SpeechRecognitionResult FINAL.

metadata

RecognitionMetadata

Metadata terkait permintaan ini.

model

string

Model mana yang harus dipilih untuk permintaan tertentu. Pilih model yang paling sesuai dengan domain Anda untuk mendapatkan hasil terbaik. Jika model tidak ditentukan secara eksplisit, kami akan otomatis memilih model berdasarkan parameter di RecognitionConfig.

Model Deskripsi

latest_long

Paling cocok untuk konten berdurasi panjang seperti media atau percakapan.

latest_short

Paling cocok untuk konten singkat seperti perintah atau ucapan terarah satu pengambilan.

command_and_search

Paling cocok untuk kueri singkat seperti perintah suara atau penelusuran suara.

phone_call

Paling cocok untuk audio yang berasal dari panggilan telepon (biasanya direkam pada frekuensi sampel 8 kHz).

video

Paling cocok untuk audio yang berasal dari video atau mencakup beberapa pembicara. Idealnya audio direkam pada frekuensi sampel 16 khz atau lebih tinggi. Ini adalah model premium yang harganya lebih mahal daripada tarif standar.

default

Paling cocok untuk audio yang bukan merupakan salah satu dari model audio tertentu. Misalnya, audio format panjang. Idealnya audio berjenis high fidelity, dan direkam pada frekuensi sampel 16 khz atau lebih tinggi.

medical_conversation

Paling cocok untuk audio yang berasal dari percakapan antara penyedia layanan kesehatan dan pasien.

medical_dictation

Paling cocok untuk audio yang berasal dari catatan dikte oleh penyedia layanan kesehatan.

use_enhanced

bool

Tetapkan ke benar (true) untuk menggunakan model yang ditingkatkan kualitasnya untuk pengenalan ucapan. Jika use_enhanced disetel ke benar (true) dan kolom model tidak disetel, model yang ditingkatkan yang sesuai akan dipilih jika ada model yang ditingkatkan untuk audio tersebut.

Jika use_enhanced benar (true) dan versi yang ditingkatkan dari model yang ditentukan tidak ada, maka ucapan akan dikenali menggunakan versi standar dari model yang ditentukan.

AudioEncoding

Encoding data audio yang dikirim dalam permintaan.

Semua encoding hanya mendukung audio 1 channel (mono), kecuali jika kolom audio_channel_count dan enable_separate_recognition_per_channel ditetapkan.

Untuk hasil terbaik, sumber audio harus direkam dan dikirim menggunakan encoding lossless (FLAC atau LINEAR16). Akurasi pengenalan ucapan dapat berkurang jika codec lossy digunakan untuk merekam atau mengirimkan audio, terutama jika ada suara bising di latar belakang. Codec lossy mencakup MULAW, AMR, AMR_WB, OGG_OPUS, SPEEX_WITH_HEADER_BYTE, MP3, dan WEBM_OPUS.

Format file audio FLAC dan WAV menyertakan header yang menjelaskan konten audio yang disertakan. Anda dapat meminta pengenalan untuk file WAV yang berisi audio yang dienkode LINEAR16 atau MULAW. Jika Anda mengirim format file audio FLAC atau WAV dalam permintaan, Anda tidak perlu menentukan AudioEncoding; format encoding audio ditentukan dari header file. Jika Anda menentukan AudioEncoding saat mengirim audio FLAC atau WAV, konfigurasi encoding harus cocok dengan encoding yang dijelaskan di header audio; jika tidak, permintaan akan menampilkan kode error google.rpc.Code.INVALID_ARGUMENT.

Enum
ENCODING_UNSPECIFIED Tidak ditentukan.
LINEAR16 Sampel little-endian bertanda 16-bit tanpa kompresi (PCM Linear).
FLAC FLAC (Free Lossless Audio Codec) adalah encoding yang direkomendasikan karena lossless--oleh karena itu pengenalan tidak terganggu--dan hanya memerlukan sekitar setengah bandwidth LINEAR16. Encoding streaming FLAC mendukung sampel 16-bit dan 24-bit, tetapi tidak semua kolom di STREAMINFO didukung.
MULAW Sampel 8-bit yang memadatkan sampel audio 14-bit menggunakan PCMU/mu-law G.711.
AMR Codec Narrowband Multi-Kecepatan Adaptif. sample_rate_hertz harus 8000.
AMR_WB Codec Wideband Multi-Kecepatan Adaptif. sample_rate_hertz harus 16000.
OGG_OPUS Frame audio yang dienkode Opus dalam container Ogg (OggOpus). sample_rate_hertz harus salah satu dari 8000, 12000, 16000, 24000, atau 48000.
SPEEX_WITH_HEADER_BYTE Meskipun penggunaan encoding lossy tidak direkomendasikan, jika encoding dengan bitrate yang sangat rendah diperlukan, OGG_OPUS lebih disarankan daripada encoding Speex. Encoding Speex yang didukung oleh Cloud Speech API memiliki byte header di setiap blok, seperti pada jenis MIME audio/x-speex-with-header-byte. Codec ini adalah varian encoding Speex RTP yang ditentukan dalam RFC 5574. Aliran adalah urutan blok, satu blok per paket RTP. Setiap blok dimulai dengan byte yang berisi panjang blok, dalam byte, diikuti dengan satu atau beberapa frame data Speex, yang di-padding ke bilangan bulat byte (oktet) seperti yang ditentukan dalam RFC 5574. Dengan kata lain, setiap header RTP diganti dengan satu byte yang berisi panjang blok. Hanya wideband Speex yang didukung. sample_rate_hertz harus 16000.
MP3 Audio MP3. Encoding MP3 adalah fitur Beta dan hanya tersedia di v1p1beta1. Mendukung semua kecepatan bit MP3 standar (yang berkisar dari 32-320 kbps). Saat menggunakan encoding ini, sample_rate_hertz harus cocok dengan frekuensi sampel file yang digunakan.
WEBM_OPUS Frame audio yang dienkode Opus dalam container WebM (WebM). sample_rate_hertz harus salah satu dari 8000, 12000, 16000, 24000, atau 48000.
ALAW Sampel 8-bit yang memadatkan sampel audio 13-bit menggunakan G.711 PCMU/a-law.

RecognitionMetadata

Deskripsi data audio yang akan dikenali.

Kolom
interaction_type

InteractionType

Kasus penggunaan yang paling mendeskripsikan konten audio yang akan dikenali.

industry_naics_code_of_audio

uint32

Vertical industri yang paling sesuai dengan permintaan pengenalan ucapan ini. Hal ini paling menunjukkan topik yang ada dalam audio. Gunakan kode NAICS 6 digit untuk mengidentifikasi vertikal industri - lihat https://www.naics.com/search/.

microphone_distance

MicrophoneDistance

Jenis audio yang paling mendekati deskripsi audio yang sedang dikenali.

original_media_type

OriginalMediaType

Media asli tempat ucapan direkam.

recording_device_type

RecordingDeviceType

Jenis perangkat yang digunakan untuk merekam ucapan.

recording_device_name

string

Perangkat yang digunakan untuk membuat rekaman. Contohnya 'Nexus 5X' atau 'Polycom SoundStation IP 6000' atau 'POTS' atau 'VoIP' atau 'Mikrofon Cardioid'.

original_mime_type

string

Jenis MIME file audio asli. Misalnya, audio/m4a, audio/x-alaw-basic, audio/mp3, audio/3gpp. Daftar kemungkinan jenis MIME audio dikelola di http://www.iana.org/assignments/media-types/media-types.xhtml#audio

audio_topic

string

Deskripsi konten. Mis. "Rekaman sidang mahkamah agung federal dari tahun 2012".

InteractionType

Kategori kasus penggunaan yang dapat mendeskripsikan permintaan pengenalan audio.

Enum
INTERACTION_TYPE_UNSPECIFIED Kasus penggunaan tidak diketahui atau bukan salah satu nilai di bawah.
DISCUSSION Beberapa orang dalam percakapan atau diskusi. Misalnya, dalam rapat dengan dua orang atau lebih yang berpartisipasi aktif. Biasanya semua orang yang berbicara akan berada di ruangan yang sama (jika tidak, lihat PHONE_CALL)
PRESENTATION Satu atau beberapa orang yang memberikan kuliah atau presentasi kepada orang lain, sebagian besar tanpa gangguan.
PHONE_CALL Panggilan telepon atau konferensi video yang diikuti secara aktif oleh dua orang atau lebih yang tidak berada di ruangan yang sama.
VOICEMAIL Pesan rekaman yang ditujukan untuk didengarkan oleh orang lain.
PROFESSIONALLY_PRODUCED Audio yang diproduksi secara profesional (misalnya, Acara TV, Podcast).
VOICE_COMMAND Mentranskripsikan perintah suara, seperti untuk mengontrol perangkat.
DICTATION Mentranskripsikan ucapan ke teks untuk membuat dokumen tertulis, seperti pesan teks, email, atau laporan.

MicrophoneDistance

Mencantumkan jenis setelan perekaman yang menjelaskan file audio.

Enum
MICROPHONE_DISTANCE_UNSPECIFIED Jenis audio tidak diketahui.
NEARFIELD Audio diambil dari mikrofon yang ditempatkan di dekatnya. Misalnya, ponsel, perekam suara, atau mikrofon genggam. Umumnya jika speaker berada dalam jarak 1 meter dari mikrofon.
MIDFIELD Speaker berada dalam jarak 3 meter dari mikrofon.
FARFIELD Speaker berjarak lebih dari 3 meter dari mikrofon.

OriginalMediaType

Media asli tempat ucapan direkam.

Enum
ORIGINAL_MEDIA_TYPE_UNSPECIFIED Jenis media asli tidak diketahui.
AUDIO Data ucapan adalah rekaman audio.
VIDEO Data ucapan yang awalnya direkam dalam video.

RecordingDeviceType

Jenis perangkat yang digunakan untuk merekam ucapan.

Enum
RECORDING_DEVICE_TYPE_UNSPECIFIED Perangkat perekam tidak diketahui.
SMARTPHONE Ucapan direkam di smartphone.
PC Ucapan direkam menggunakan komputer atau tablet pribadi.
PHONE_LINE Ucapan direkam melalui saluran telepon.
VEHICLE Ucapan direkam di dalam kendaraan.
OTHER_OUTDOOR_DEVICE Ucapan direkam di luar ruangan.
OTHER_INDOOR_DEVICE Ucapan direkam di dalam ruangan.

RecognizeRequest

Pesan tingkat teratas yang dikirim oleh klien untuk metode Recognize.

Kolom
config

RecognitionConfig

Wajib. Memberikan informasi ke pengenal yang menentukan cara memproses permintaan.

audio

RecognitionAudio

Wajib. Data audio yang akan dikenali.

RecognizeResponse

Satu-satunya pesan yang ditampilkan ke klien oleh metode Recognize. Objek ini berisi hasil sebagai nol atau beberapa pesan SpeechRecognitionResult berurutan.

Kolom
results[]

SpeechRecognitionResult

Daftar hasil transkripsi berurutan yang sesuai dengan bagian audio berurutan.

total_billed_time

Duration

Jika tersedia, detik audio yang ditagih untuk permintaan yang sesuai.

speech_adaptation_info

SpeechAdaptationInfo

Memberikan informasi tentang perilaku adaptasi dalam respons

request_id

int64

ID yang terkait dengan permintaan. Ini adalah ID unik yang khusus untuk permintaan tertentu.

using_legacy_models

bool

Apakah permintaan menggunakan model ASR lama (tidak otomatis dimigrasikan untuk menggunakan model conformer).

SpeakerDiarizationConfig

Konfigurasi untuk mengaktifkan diarisasi pembicara.

Kolom
enable_speaker_diarization

bool

Jika 'true', mengaktifkan deteksi pembicara untuk setiap kata yang dikenali dalam alternatif teratas hasil pengenalan menggunakan speaker_label yang disediakan di WordInfo.

min_speaker_count

int32

Jumlah minimum pembicara dalam percakapan. Rentang ini memberi Anda lebih banyak fleksibilitas dengan memungkinkan sistem menentukan jumlah speaker yang benar secara otomatis. Jika tidak ditetapkan, nilai defaultnya adalah 2.

max_speaker_count

int32

Jumlah maksimum pembicara dalam percakapan. Rentang ini memberi Anda lebih banyak fleksibilitas dengan memungkinkan sistem menentukan jumlah speaker yang benar secara otomatis. Jika tidak ditetapkan, nilai defaultnya adalah 6.

speaker_tag
(deprecated)

int32

Hanya output. Tidak digunakan.

SpeechAdaptation

Konfigurasi adaptasi ucapan.

Kolom
phrase_sets[]

PhraseSet

Kumpulan set frasa. Untuk menentukan saran secara inline, biarkan name set frasa kosong dan isi kolom lainnya. Kumpulan frasa apa pun dapat menggunakan class kustom apa pun.

phrase_set_references[]

string

Kumpulan nama resource set frasa yang akan digunakan.

custom_classes[]

CustomClass

Kumpulan class kustom. Untuk menentukan class secara inline, biarkan name class kosong dan isi kolom lainnya, sehingga memberikan custom_class_id yang unik. Merujuk ke class yang ditentukan sebaris dalam petunjuk frasa berdasarkan custom_class_id-nya.

abnf_grammar

ABNFGrammar

Augmented Backus-Naur form (ABNF) adalah notasi tata bahasa standar yang terdiri dari serangkaian aturan derivasi. Lihat spesifikasi: https://www.w3.org/TR/speech-grammar

ABNFGrammar

Kolom
abnf_strings[]

string

Semua deklarasi dan aturan tata bahasa ABNF dipecah menjadi beberapa string yang akan digabungkan.

SpeechAdaptationInfo

Informasi tentang penggunaan adaptasi ucapan dalam hasil

Kolom
adaptation_timeout

bool

Apakah terjadi waktu tunggu saat menerapkan adaptasi ucapan. Jika benar (true), adaptasi tidak berpengaruh pada transkrip respons.

timeout_message

string

Jika ditetapkan, menampilkan pesan yang menentukan bagian permintaan adaptasi ucapan yang waktunya habis.

SpeechContext

Memberikan "petunjuk" kepada pengenal ucapan untuk lebih memilih kata dan frasa tertentu dalam hasil.

Kolom
phrases[]

string

Daftar string yang berisi "petunjuk" kata dan frasa sehingga pengenalan ucapan lebih mungkin mengenalinya. Hal ini dapat digunakan untuk meningkatkan akurasi kata dan frasa tertentu, misalnya, jika perintah tertentu biasanya diucapkan oleh pengguna. Hal ini juga dapat digunakan untuk menambahkan kata-kata tambahan ke kosakata pengenal. Lihat batas penggunaan.

Item daftar juga dapat ditetapkan ke class untuk grup kata yang mewakili konsep umum yang terjadi dalam bahasa alami. Misalnya, daripada memberikan petunjuk frasa untuk setiap bulan dalam setahun, penggunaan class $MONTH meningkatkan kemungkinan transkripsi audio yang menyertakan bulan dengan benar.

boost

float

Peningkatan Petunjuk. Nilai positif akan meningkatkan kemungkinan frasa tertentu dikenali dibandingkan frasa lain yang terdengar serupa. Semakin tinggi peningkatannya, semakin tinggi juga peluang pengenalan positif palsu. Nilai peningkatan negatif akan sesuai dengan anti-bias. Anti-bias tidak diaktifkan, sehingga peningkatan negatif akan diabaikan. Meskipun boost dapat menerima berbagai nilai positif, sebagian besar kasus penggunaan akan lebih baik dengan nilai antara 0 dan 20. Sebaiknya gunakan pendekatan penelusuran biner untuk menemukan nilai optimal untuk kasus penggunaan Anda.

SpeechRecognitionAlternative

Hipotesis alternatif (alias daftar n-terbaik).

Kolom
transcript

string

Teks transkrip yang mewakili kata-kata yang diucapkan pengguna. Dalam bahasa yang menggunakan spasi untuk memisahkan kata, transkrip mungkin memiliki spasi di awal jika bukan hasil pertama. Anda dapat menggabungkan setiap hasil untuk mendapatkan transkrip lengkap tanpa menggunakan pemisah.

confidence

float

Perkiraan keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali sudah benar. Kolom ini hanya ditetapkan untuk alternatif teratas dari hasil non-streaming atau hasil streaming dengan is_final=true. Akurasi kolom ini tidak dijamin dan pengguna tidak boleh mengandalkannya untuk selalu disediakan. Nilai default 0,0 adalah nilai sentinel yang menunjukkan bahwa confidence tidak ditetapkan.

words[]

WordInfo

Daftar informasi khusus kata untuk setiap kata yang dikenali. Catatan: Jika enable_speaker_diarization benar, Anda akan melihat semua kata dari awal audio.

SpeechRecognitionResult

Hasil pengenalan ucapan yang sesuai dengan sebagian audio.

Kolom
alternatives[]

SpeechRecognitionAlternative

Dapat berisi satu atau beberapa hipotesis pengenalan (hingga maksimum yang ditentukan dalam max_alternatives). Alternatif ini diurutkan berdasarkan akurasi, dengan alternatif teratas (pertama) adalah yang paling mungkin, sebagaimana diberi peringkat oleh pengenal.

channel_tag

int32

Untuk audio multi-saluran, ini adalah nomor saluran yang sesuai dengan hasil yang dikenali untuk audio dari saluran tersebut. Untuk audio_channel_count = N, nilai outputnya dapat berkisar dari '1' hingga 'N'.

result_end_time

Duration

Selisih waktu akhir hasil ini relatif terhadap awal audio.

language_code

string

Hanya output. Tag bahasa BCP-47 dari bahasa dalam hasil ini. Kode bahasa ini terdeteksi sebagai bahasa yang paling mungkin digunakan dalam audio.

StreamingRecognitionConfig

Memberikan informasi ke pengenal yang menentukan cara memproses permintaan.

Kolom
config

RecognitionConfig

Wajib. Memberikan informasi ke pengenal yang menentukan cara memproses permintaan.

single_utterance

bool

Jika false atau tidak ada, pengenal akan melakukan pengenalan berkelanjutan (terus menunggu dan memproses audio meskipun pengguna berhenti berbicara) hingga klien menutup aliran input (gRPC API) atau hingga batas waktu maksimum tercapai. Dapat menampilkan beberapa StreamingRecognitionResult dengan tanda is_final yang ditetapkan ke true.

Jika true, pengenal akan mendeteksi satu ucapan lisan. Saat mendeteksi bahwa pengguna telah menjeda atau berhenti berbicara, API akan menampilkan peristiwa END_OF_SINGLE_UTTERANCE dan menghentikan pengenalan. API ini akan menampilkan paling banyak satu StreamingRecognitionResult dengan tanda is_final yang disetel ke true.

Kolom single_utterance hanya dapat digunakan dengan model tertentu, jika tidak, error akan ditampilkan. Kolom model di RecognitionConfig harus ditetapkan ke:

  • command_and_search
  • phone_call AND kolom tambahan useEnhanced=true
  • Kolom model tidak ditentukan. Dalam hal ini, API akan otomatis memilih model berdasarkan parameter lain yang Anda tetapkan di RecognitionConfig.
interim_results

bool

Jika true, hasil sementara (hipotesis tentatif) dapat ditampilkan saat tersedia (hasil sementara ini ditunjukkan dengan tanda is_final=false). Jika false atau tidak ada, hanya hasil is_final=true yang ditampilkan.

enable_voice_activity_events

bool

Jika true, respons dengan peristiwa ucapan aktivitas suara akan ditampilkan saat terdeteksi.

voice_activity_timeout

VoiceActivityTimeout

Jika disetel, server akan otomatis menutup streaming setelah durasi yang ditentukan berlalu setelah peristiwa ucapan VOICE_ACTIVITY terakhir dikirim. Kolom voice_activity_events juga harus disetel ke benar (true).

VoiceActivityTimeout

Peristiwa yang dapat disetel waktu tunggunya untuk aktivitas suara.

Kolom
speech_start_timeout

Duration

Durasi untuk menghentikan streaming jika tidak ada ucapan yang dimulai.

speech_end_timeout

Duration

Durasi untuk menghentikan streaming setelah ucapan berakhir.

StreamingPengenalanResult

Hasil pengenalan ucapan streaming yang sesuai dengan bagian audio yang sedang diproses.

Kolom
alternatives[]

SpeechRecognitionAlternative

Dapat berisi satu atau beberapa hipotesis pengenalan (hingga maksimum yang ditentukan dalam max_alternatives). Alternatif ini diurutkan berdasarkan akurasi, dengan alternatif teratas (pertama) adalah yang paling mungkin, sebagaimana diberi peringkat oleh pengenal.

is_final

bool

Jika false, StreamingRecognitionResult ini menunjukkan hasil sementara yang dapat berubah. Jika true, ini adalah terakhir kalinya layanan ucapan akan menampilkan StreamingRecognitionResult ini, pengenal tidak akan menampilkan hipotesis lebih lanjut untuk bagian transkrip dan audio yang sesuai ini.

stability

float

Estimasi kemungkinan bahwa pengenal tidak akan mengubah tebakannya tentang hasil sementara ini. Nilai berkisar dari 0,0 (sama sekali tidak stabil) hingga 1,0 (sepenuhnya stabil). Kolom ini hanya disediakan untuk hasil sementara (is_final=false). Nilai default 0,0 adalah nilai sentinel yang menunjukkan bahwa stability tidak ditetapkan.

result_end_time

Duration

Selisih waktu akhir hasil ini relatif terhadap awal audio.

channel_tag

int32

Untuk audio multi-saluran, ini adalah nomor saluran yang sesuai dengan hasil yang dikenali untuk audio dari saluran tersebut. Untuk audio_channel_count = N, nilai outputnya dapat berkisar dari '1' hingga 'N'.

language_code

string

Hanya output. Tag bahasa BCP-47 dari bahasa dalam hasil ini. Kode bahasa ini terdeteksi sebagai bahasa yang paling mungkin digunakan dalam audio.

StreamingRecognizeRequest

Pesan tingkat teratas yang dikirim oleh klien untuk metode StreamingRecognize. Beberapa pesan StreamingRecognizeRequest dikirim. Pesan pertama harus berisi pesan streaming_config dan tidak boleh berisi audio_content. Semua pesan berikutnya harus berisi audio_content dan tidak boleh berisi pesan streaming_config.

Kolom
Kolom union streaming_request. Permintaan streaming, yang berupa konfigurasi streaming atau konten audio. streaming_request hanya ada berupa salah satu diantara berikut:
streaming_config

StreamingRecognitionConfig

Memberikan informasi ke pengenal yang menentukan cara memproses permintaan. Pesan StreamingRecognizeRequest pertama harus berisi pesan streaming_config.

audio_content

bytes

Data audio yang akan dikenali. Potongan data audio berurutan dikirim dalam pesan StreamingRecognizeRequest berurutan. Pesan StreamingRecognizeRequest pertama tidak boleh berisi data audio_content dan semua pesan StreamingRecognizeRequest berikutnya harus berisi data audio_content. Byte audio harus dienkode seperti yang ditentukan dalam RecognitionConfig. Catatan: seperti semua kolom byte, buffer proto menggunakan representasi biner murni (bukan base64). Lihat batas konten.

StreamingRecognizeResponse

StreamingRecognizeResponse adalah satu-satunya pesan yang ditampilkan ke klien oleh StreamingRecognize. Serangkaian pesan StreamingRecognizeResponse nol atau lebih di-streaming kembali ke klien. Jika tidak ada audio yang dapat dikenali, dan single_utterance disetel ke salah (false), maka tidak ada pesan yang di-streaming kembali ke klien.

Berikut adalah contoh serangkaian StreamingRecognizeResponse yang mungkin ditampilkan saat memproses audio:

  1. results { alternatives { transcript: "tube" } stability: 0.01 }

  2. results { alternatives { transcript: "to be a" } stability: 0.01 }

  3. results { alternatives { transcript: "to be" } stability: 0.9 } results { alternatives { transcript: " or not to be" } stability: 0.01 }

  4. results { alternatives { transcript: "to be or not to be" confidence: 0.92 } alternatives { transcript: "to bee or not to bee" } is_final: true }

  5. results { alternatives { transcript: " that's" } stability: 0.01 }

  6. results { alternatives { transcript: " that is" } stability: 0.9 } results { alternatives { transcript: " the question" } stability: 0.01 }

  7. results { alternatives { transcript: " that is the question" confidence: 0.98 } alternatives { transcript: " that was the question" } is_final: true }

Catatan:

  • Hanya dua respons di atas, yaitu #4 dan #7, yang berisi hasil akhir; keduanya ditandai dengan is_final: true. Menggabungkan keduanya akan menghasilkan transkrip lengkap: "to be or not to be that is the question".

  • Yang lainnya berisi results sementara. #3 dan #6 berisi dua results sementara: bagian pertama memiliki stabilitas tinggi dan cenderung tidak berubah; bagian kedua memiliki stabilitas rendah dan cenderung berubah. Desainer UI dapat memilih untuk hanya menampilkan stabilitas tinggi results.

  • Nilai stability dan confidence spesifik yang ditampilkan di atas hanya untuk tujuan ilustrasi. Nilai sebenarnya dapat bervariasi.

  • Di setiap respons, hanya salah satu kolom berikut yang akan ditetapkan: error, speech_event_type, atau satu atau beberapa (berulang) results.

Kolom
error

Status

Jika ditetapkan, menampilkan pesan google.rpc.Status yang menentukan error untuk operasi.

results[]

StreamingRecognitionResult

Daftar berulang ini berisi nol atau beberapa hasil yang sesuai dengan bagian audio berurutan yang sedang diproses. Objek ini berisi nol atau satu hasil is_final=true (bagian yang baru diselesaikan), diikuti dengan nol atau lebih hasil is_final=false (hasil sementara).

speech_event_type

SpeechEventType

Menunjukkan jenis peristiwa ucapan.

speech_event_time

Duration

Offset waktu antara awal audio dan emisi peristiwa.

total_billed_time

Duration

Jika tersedia, detik audio yang ditagih untuk streaming. Hanya disetel jika ini adalah respons terakhir dalam stream.

speech_adaptation_info

SpeechAdaptationInfo

Memberikan informasi tentang perilaku adaptasi dalam respons

request_id

int64

ID yang terkait dengan permintaan. Ini adalah ID unik yang khusus untuk permintaan tertentu.

SpeechEventType

Menunjukkan jenis peristiwa ucapan.

Enum
SPEECH_EVENT_UNSPECIFIED Tidak ada peristiwa ucapan yang ditentukan.
END_OF_SINGLE_UTTERANCE Peristiwa ini menunjukkan bahwa server telah mendeteksi akhir ucapan pengguna dan tidak mengharapkan ucapan tambahan. Oleh karena itu, server tidak akan memproses audio tambahan (meskipun mungkin akan menampilkan hasil tambahan setelahnya). Klien harus berhenti mengirimkan data audio tambahan, menutup sebagian koneksi gRPC, dan menunggu hasil tambahan hingga server menutup koneksi gRPC. Peristiwa ini hanya dikirim jika single_utterance ditetapkan ke true, dan tidak digunakan jika sebaliknya.
SPEECH_ACTIVITY_BEGIN Peristiwa ini menunjukkan bahwa server telah mendeteksi awal aktivitas suara manusia dalam streaming. Peristiwa ini dapat ditampilkan beberapa kali jika ucapan dimulai dan berhenti berulang kali selama streaming. Peristiwa ini hanya dikirim jika voice_activity_events disetel ke benar (true).
SPEECH_ACTIVITY_END Peristiwa ini menunjukkan bahwa server telah mendeteksi akhir aktivitas suara manusia dalam streaming. Peristiwa ini dapat ditampilkan beberapa kali jika ucapan dimulai dan berhenti berulang kali selama streaming. Peristiwa ini hanya dikirim jika voice_activity_events disetel ke benar (true).
SPEECH_ACTIVITY_TIMEOUT Peristiwa ini menunjukkan bahwa waktu tunggu yang ditetapkan pengguna untuk awal atau akhir aktivitas ucapan telah terlampaui. Setelah menerima peristiwa ini, klien diharapkan mengirimkan penutupan setengah. Audio lebih lanjut tidak akan diproses.

TranscriptNormalization

Konfigurasi normalisasi transkripsi. Gunakan normalisasi transkripsi untuk otomatis mengganti bagian transkrip dengan frasa pilihan Anda. Untuk StreamingRecognize, normalisasi ini hanya berlaku untuk transkrip parsial yang stabil (stabilitas > 0,8) dan transkrip akhir.

Kolom
entries[]

Entry

Daftar entri pengganti. Kami akan melakukan penggantian dengan satu entri dalam satu waktu. Misalnya, entri kedua di ["cat" => "dog", "mountain cat" => "mountain dog"] tidak akan pernah diterapkan karena kami akan selalu memproses entri pertama sebelumnya. Maksimal 100 entri.

Entri

Konfigurasi penggantian tunggal.

Kolom
search

string

Apa yang akan diganti. Panjang maksimum adalah 100 karakter.

replace

string

Apa yang akan diganti. Panjang maksimum adalah 100 karakter.

case_sensitive

bool

Apakah penelusuran peka huruf besar/kecil.

TranscriptOutputConfig

Menentukan tujuan opsional untuk hasil pengenalan.

Kolom

Kolom union output_type.

output_type hanya dapat berupa salah satu dari hal berikut:

gcs_uri

string

Menentukan URI Cloud Storage untuk hasil pengenalan. Harus ditentukan dalam format: gs://bucket_name/object_name, dan bucket harus sudah ada.

UpdateCustomClassRequest

Pesan yang dikirim oleh klien untuk metode UpdateCustomClass.

Kolom
custom_class

CustomClass

Wajib. Class kustom yang akan diperbarui.

Kolom name kelas kustom digunakan untuk mengidentifikasi kelas kustom yang akan diperbarui. Format:

projects/{project}/locations/{location}/customClasses/{custom_class}

Speech-to-Text mendukung tiga lokasi: global, us (Amerika Utara AS), dan eu (Eropa). Jika Anda memanggil endpoint speech.googleapis.com, gunakan lokasi global. Untuk menentukan region, gunakan endpoint regional dengan nilai lokasi us atau eu yang cocok.

Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan customClass:

  • speech.customClasses.update
update_mask

FieldMask

Daftar kolom yang akan diperbarui.

UpdatePhraseSetRequest

Pesan yang dikirim oleh klien untuk metode UpdatePhraseSet.

Kolom
phrase_set

PhraseSet

Wajib. Kumpulan frasa yang akan diperbarui.

Kolom name set frasa digunakan untuk mengidentifikasi set yang akan diperbarui. Format:

projects/{project}/locations/{location}/phraseSets/{phrase_set}

Speech-to-Text mendukung tiga lokasi: global, us (Amerika Utara AS), dan eu (Eropa). Jika Anda memanggil endpoint speech.googleapis.com, gunakan lokasi global. Untuk menentukan region, gunakan endpoint regional dengan nilai lokasi us atau eu yang cocok.

Otorisasi memerlukan izin IAM berikut pada resource yang ditentukan phraseSet:

  • speech.phraseSets.update
update_mask

FieldMask

Daftar kolom yang akan diperbarui.

WordInfo

Informasi khusus kata untuk kata yang dikenali.

Kolom
start_time

Duration

Selisih waktu relatif terhadap awal audio, dan sesuai dengan awal kata yang diucapkan. Kolom ini hanya ditetapkan jika enable_word_time_offsets=true dan hanya dalam hipotesis teratas. Ini adalah fitur eksperimental dan akurasi selisih waktu dapat bervariasi.

end_time

Duration

Selisih waktu relatif terhadap awal audio, dan sesuai dengan akhir kata yang diucapkan. Kolom ini hanya ditetapkan jika enable_word_time_offsets=true dan hanya dalam hipotesis teratas. Ini adalah fitur eksperimental dan akurasi selisih waktu dapat bervariasi.

word

string

Kata yang sesuai dengan kumpulan informasi ini.

confidence

float

Perkiraan keyakinan antara 0,0 dan 1,0. Angka yang lebih tinggi menunjukkan estimasi kemungkinan yang lebih besar bahwa kata yang dikenali sudah benar. Kolom ini hanya ditetapkan untuk alternatif teratas dari hasil non-streaming atau hasil streaming dengan is_final=true. Akurasi kolom ini tidak dijamin dan pengguna tidak boleh mengandalkannya untuk selalu disediakan. Nilai default 0,0 adalah nilai sentinel yang menunjukkan bahwa confidence tidak ditetapkan.

speaker_tag
(deprecated)

int32

Hanya output. Nilai bilangan bulat yang berbeda ditetapkan untuk setiap pembicara dalam audio. Kolom ini menentukan salah satu pembicara yang terdeteksi mengucapkan kata ini. Nilai berkisar dari '1' hingga diarization_speaker_count. speaker_tag ditetapkan jika enable_speaker_diarization = 'true' dan hanya untuk alternatif teratas. Catatan: Gunakan speaker_label sebagai gantinya.

speaker_label

string

Hanya output. Nilai label yang ditetapkan untuk setiap penutur unik dalam audio. Kolom ini menentukan speaker mana yang terdeteksi telah mengucapkan kata ini. Untuk beberapa model, seperti medical_conversation, ini dapat berupa peran penutur yang sebenarnya, misalnya "pasien" atau "penyedia", tetapi umumnya ini adalah angka yang mengidentifikasi penutur. Kolom ini hanya disetel jika enable_speaker_diarization = 'true' dan hanya untuk alternatif teratas.