Dokumen ini menjelaskan cara mengonfigurasi respons ucapan yang disintesis dan deteksi aktivitas suara di Gemini Live API. Anda dapat mengonfigurasi respons dalam berbagai suara dan bahasa HD, serta mengonfigurasi setelan deteksi aktivitas suara untuk memungkinkan pengguna menginterupsi model.
Menyetel bahasa dan suara
Model audio native seperti gemini-live-2.5-flash-native-audio dapat beralih antarbahasa secara alami selama percakapan. Anda juga dapat membatasi bahasa yang digunakan oleh Gemini dengan menentukannya dalam petunjuk sistem.
Untuk model non-native-audio seperti gemini-live-2.5-flash, Anda dapat mengonfigurasi
bahasa di speech_config.language_code.
Suara dikonfigurasi di kolom voice_name untuk semua model.
Contoh kode berikut menunjukkan cara mengonfigurasi bahasa dan suara.
from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig config = LiveConnectConfig( response_modalities=["AUDIO"], speech_config=SpeechConfig( voice_config=VoiceConfig( prebuilt_voice_config=PrebuiltVoiceConfig( voice_name=voice_name, ) ), language_code="en-US", ), )
Suara yang didukung
Gemini Live API mendukung 30 opsi suara berikut di kolom voice_name:
|
Zephyr -- Bright Kore -- Firm Orus -- Firm Autonoe -- Bright Umbriel -- Easy-going Erinome -- Clear Laomedeia -- Upbeat Schedar -- Even Achird -- Friendly Sadachbia -- Lively |
Puck -- Upbeat Fenrir -- Excitable Aoede -- Breezy Enceladus -- Breathy Algieba -- Smooth Algenib -- Gravelly Achernar -- Soft Gacrux -- Mature Zubenelgenubi -- Casual Sadaltager -- Knowledgeable |
Charon -- Informatif Leda -- Muda Callirrhoe -- Santai Iapetus -- Jelas Despina -- Halus Rasalgethi -- Informatif Alnilam -- Tegas Pulcherrima -- Maju Vindemiatrix -- Lembut Sulafat -- Hangat |
Bahasa yang didukung
Gemini Live API mendukung 24 bahasa berikut:
| Bahasa | Kode BCP-47 | Bahasa | Kode BCP-47 |
|---|---|---|---|
| Arab (Mesir) | ar-EG | Jerman (Jerman) | de-DE |
| Inggris (AS) | en-US | Spanyol (AS) | es-US |
| Prancis (Prancis) | fr-FR | Hindi (India) | hi-IN |
| Indonesia (Indonesia) | id-ID | Italia (Italia) | it-IT |
| Jepang (Jepang) | ja-JP | Korea (Korea) | ko-KR |
| Portugis (Brasil) | pt-BR | Rusia (Rusia) | ru-RU |
| Belanda (Belanda) | nl-NL | Polandia (Polandia) | pl-PL |
| Thai (Thailand) | th-TH | Turkiye (Turkiye) | tr-TR |
| Vietnam (Vietnam) | vi-VN | Rumania (Rumania) | ro-RO |
| Ukraina (Ukraina) | uk-UA | Bengali (Bangladesh) | bn-BD |
| Inggris (India) | Paket en-IN & hi-IN | Marathi (India) | mr-IN |
| Tamil (India) | ta-IN | Telugu (India) | te-IN |
Mengonfigurasi deteksi aktivitas suara
Deteksi aktivitas suara (VAD) memungkinkan model mengenali saat seseorang sedang berbicara. Hal ini penting untuk menciptakan percakapan yang natural, karena memungkinkan pengguna menginterupsi model kapan saja.
Saat VAD mendeteksi gangguan, pembuatan yang sedang berlangsung akan dibatalkan dan
dihapus. Hanya informasi yang sudah dikirim ke klien yang dipertahankan dalam histori sesi. Server kemudian mengirimkan pesan BidiGenerateContentServerContent
untuk melaporkan gangguan. Kemudian, server akan membatalkan panggilan fungsi yang tertunda dan mengirim pesan BidiGenerateContentServerContent dengan ID panggilan yang dibatalkan.
Python
config = { "response_modalities": ["audio"], "realtime_input_config": { "automatic_activity_detection": { "disabled": False, # default "start_of_speech_sensitivity": "low", "end_of_speech_sensitivity": "low", "prefix_padding_ms": 20, "silence_duration_ms": 100, } } }
Langkah berikutnya
- Memulai dan mengelola sesi live
- Mengirimkan streaming audio dan video
- Menggunakan terjemahan ucapan ke ucapan
- Praktik terbaik dengan Gemini Live API