Dokumen ini menjelaskan cara mengonfigurasi respons ucapan yang disintesis dan deteksi aktivitas suara di Live API. Anda dapat mengonfigurasi respons dalam berbagai suara dan bahasa HD, serta mengonfigurasi setelan deteksi aktivitas suara untuk memungkinkan pengguna menginterupsi model.
Menyetel bahasa dan suara
Untuk menyetel bahasa dan suara respons, konfigurasikan sebagai berikut:
Konsol
- Buka Vertex AI Studio > Stream realtime.
- Di peluas Output, pilih suara dari drop-down Suara.
- Di perluasan yang sama, pilih bahasa dari drop-down Bahasa.
- Klik Mulai sesi untuk memulai sesi.
Python
from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig config = LiveConnectConfig( response_modalities=["AUDIO"], speech_config=SpeechConfig( voice_config=VoiceConfig( prebuilt_voice_config=PrebuiltVoiceConfig( voice_name=voice_name, ) ), language_code="en-US", ), )
Suara yang didukung
Live API mendukung 30 opsi suara berikut di kolom
voice_name:
|
Zephyr -- Bright Kore -- Firm Orus -- Firm Autonoe -- Bright Umbriel -- Easy-going Erinome -- Clear Laomedeia -- Upbeat Schedar -- Even Achird -- Friendly Sadachbia -- Lively |
Puck -- Upbeat Fenrir -- Excitable Aoede -- Breezy Enceladus -- Breathy Algieba -- Smooth Algenib -- Gravelly Achernar -- Soft Gacrux -- Mature Zubenelgenubi -- Casual Sadaltager -- Knowledgeable |
Charon -- Informatif (Informative) Leda -- Muda (Youthful) Callirrhoe -- Santai (Easy-going) Iapetus -- Jelas (Clear) Despina -- Lancar (Smooth) Rasalgethi -- Informatif (Informative) Alnilam -- Tegas (Firm) Pulcherrima -- Maju (Forward) Vindemiatrix -- Lembut (Gentle) Sulafat -- Hangat (Warm) |
Bahasa yang didukung
Live API mendukung 24 bahasa berikut:
| Bahasa | Kode BCP-47 | Bahasa | Kode BCP-47 |
|---|---|---|---|
| Arab (Mesir) | ar-EG | Jerman (Jerman) | de-DE |
| Inggris (AS) | en-US | Spanyol (AS) | es-US |
| Prancis (Prancis) | fr-FR | Hindi (India) | hi-IN |
| Indonesia (Indonesia) | id-ID | Italia (Italia) | it-IT |
| Jepang (Jepang) | ja-JP | Korea (Korea) | ko-KR |
| Portugis (Brasil) | pt-BR | Rusia (Rusia) | ru-RU |
| Belanda (Belanda) | nl-NL | Polandia (Polandia) | pl-PL |
| Thai (Thailand) | th-TH | Turkiye (Turkiye) | tr-TR |
| Vietnam (Vietnam) | vi-VN | Rumania (Rumania) | ro-RO |
| Ukraina (Ukraina) | uk-UA | Bengali (Bangladesh) | bn-BD |
| Inggris (India) | Paket en-IN & hi-IN | Marathi (India) | mr-IN |
| Tamil (India) | ta-IN | Telugu (India) | te-IN |
Mengonfigurasi deteksi aktivitas suara
Deteksi aktivitas suara (VAD) memungkinkan model mengenali saat seseorang sedang berbicara. Hal ini penting untuk menciptakan percakapan yang natural, karena memungkinkan pengguna menginterupsi model kapan saja.
Saat VAD mendeteksi gangguan, pembuatan yang sedang berlangsung akan dibatalkan dan
dihapus. Hanya informasi yang sudah dikirim ke klien yang dipertahankan dalam histori sesi. Server kemudian mengirimkan pesan BidiGenerateContentServerContent
untuk melaporkan gangguan. Kemudian, server akan membatalkan panggilan fungsi yang tertunda dan mengirim pesan BidiGenerateContentServerContent dengan ID panggilan yang dibatalkan.
Python
config = { "response_modalities": ["audio"], "realtime_input_config": { "automatic_activity_detection": { "disabled": False, # default "start_of_speech_sensitivity": "low", "end_of_speech_sensitivity": "low", "prefix_padding_ms": 20, "silence_duration_ms": 100, } } }
Langkah berikutnya
- Memulai dan mengelola sesi live
- Mengirimkan streaming audio dan video
- Menggunakan terjemahan ucapan ke ucapan
- Praktik terbaik dengan Live API