Chirp 3, model generatif khusus Pengenalan Ucapan Otomatis (ASR) multi-bahasa generasi terbaru dari Google yang ditawarkan oleh Speech-to-Text (STT) API v2 Google Cloud, tersedia untuk Transkripsi suara.
Siapkan
Ikuti langkah-langkah berikut untuk mengaktifkan transkripsi dengan Speech-to-Text Chirp 3.
Konsol
Saat Anda membuat atau memperbarui profil percakapan menggunakan konsol Agent Assist, ikuti langkah-langkah berikut untuk mengonfigurasi setelan Speech-to-Text agar menggunakan model Chirp 3.
- Klik Profil percakapan.
- Klik nama profil Anda.
- Buka bagian Speech to Text Config.
- Pilih Chirp 3 untuk model.
- (Opsional) Pilih Use Long Form Model for AA Telephony SipRec Integration jika audio ditransmisikan melalui Integrasi Telepon.
- (Opsional) Konfigurasi Kode Bahasa dan hingga satu Kode Bahasa Alternatif untuk transkripsi yang dibatasi bahasa.
- (Opsional) Konfigurasi auto sebagai kode bahasa untuk transkripsi agnostik bahasa.
- (Opsional) Konfigurasi Frasa untuk adaptasi ucapan guna meningkatkan akurasi dengan adaptasi model.
REST API
Anda dapat memanggil API secara langsung untuk membuat atau memperbarui profil percakapan. Aktifkan STT V2 dengan kolom ConversationProfile.sttConfig.useSttV2, seperti yang ditunjukkan dalam contoh berikut.
Contoh Konfigurasi:
{ "name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f "displayName": "CONVERSATION_PROFILE_NAME", "automatedAgentConfig": { }, "humanAgentAssistantConfig": { "notificationConfig": { "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID", "messageFormat": "JSON" }, "humanAgentSuggestionConfig": { "featureConfigs": [{ "enableEventBasedSuggestion": true, "suggestionFeature": { "type": "ARTICLE_SUGGESTION" }, "conversationModelConfig": { } }] }, "messageAnalysisConfig": { } }, "sttConfig": { "model": "chirp_3", "useSttV2": true, }, "languageCode": "en-US" }
Praktik terbaik
Ikuti saran berikut untuk mengoptimalkan transkripsi suara dengan model Chirp 3.
Streaming audio
Untuk memaksimalkan performa Chirp 3, kirim audio hampir secara real time. Artinya, jika Anda memiliki audio berdurasi X detik, streaming audio tersebut dalam waktu sekitar X detik. Bagi audio Anda menjadi beberapa bagian kecil, masing-masing dengan ukuran frame 100 md. Untuk mengetahui praktik terbaik streaming audio lainnya, lihat dokumentasi Speech-to-Text.
Menggunakan adaptasi ucapan
Gunakan transkripsi dengan adaptasi ucapan Chirp 3 hanya dengan frasa inline yang dikonfigurasi di profil percakapan.
Dukungan wilayah dan bahasa
Chirp 3 tersedia untuk semua bahasa Speech-to-Text dengan kesiapan peluncuran yang berbeda, dan di semua wilayah Agent Assist kecuali northamerica-northeast1, northamerica-northeast2, dan asia-south1.
Kuota
Jumlah permintaan transkripsi menggunakan model Chirp 3 dibatasi oleh kuota SttV2StreamingRequestsPerMinutePerResourceTypePerRegion dengan chirp_3 yang diberi label sebagai jenis resource. Lihat Google Cloud panduan kuota untuk mengetahui informasi tentang penggunaan kuota dan cara meminta penambahan kuota.
Untuk kuota, permintaan transkripsi ke endpoint Dialogflow global berada di region us-central1.