Mengonfigurasi bahasa dan suara

Dokumen ini menjelaskan cara mengonfigurasi respons ucapan yang disintesis dan deteksi aktivitas suara di Gemini Live API. Anda dapat mengonfigurasi respons dalam berbagai suara dan bahasa HD, serta mengonfigurasi setelan deteksi aktivitas suara untuk memungkinkan pengguna menginterupsi model.

Menyetel bahasa dan suara

Model audio native seperti gemini-live-2.5-flash-native-audio dapat beralih antarbahasa secara alami selama percakapan. Anda juga dapat membatasi bahasa yang digunakan oleh Gemini dengan menentukannya dalam petunjuk sistem.

Untuk model non-native-audio seperti gemini-live-2.5-flash, Anda dapat mengonfigurasi bahasa di speech_config.language_code.

Suara dikonfigurasi di kolom voice_name untuk semua model.

Contoh kode berikut menunjukkan cara mengonfigurasi bahasa dan suara.

from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig

config = LiveConnectConfig(
  response_modalities=["AUDIO"],
  speech_config=SpeechConfig(
    voice_config=VoiceConfig(
        prebuilt_voice_config=PrebuiltVoiceConfig(
            voice_name=voice_name,
        )
    ),
    language_code="en-US",
  ),
)

Suara yang didukung

Gemini Live API mendukung 30 opsi suara berikut di kolom voice_name:

Zephyr -- Bright
Kore -- Firm
Orus -- Firm
Autonoe -- Bright
Umbriel -- Easy-going
Erinome -- Clear
Laomedeia -- Upbeat
Schedar -- Even
Achird -- Friendly
Sadachbia -- Lively

Puck -- Upbeat
Fenrir -- Excitable
Aoede -- Breezy
Enceladus -- Breathy
Algieba -- Smooth
Algenib -- Gravelly
Achernar -- Soft
Gacrux -- Mature
Zubenelgenubi -- Casual
Sadaltager -- Knowledgeable

Charon -- Informatif (Informative)
Leda -- Muda (Youthful)
Callirrhoe -- Santai (Easy-going)
Iapetus -- Jelas (Clear)
Despina -- Lancar (Smooth)
Rasalgethi -- Informatif (Informative)
Alnilam -- Tegas (Firm)
Pulcherrima -- Maju (Forward)
Vindemiatrix -- Lembut (Gentle)
Sulafat -- Hangat (Warm)

Bahasa yang didukung

Gemini Live API mendukung bahasa berikut:

Bahasa	Kode BCP-47
Arab (Mesir)	ar-EG
Bengali (Bangladesh)	bn-BD
Belanda (Belanda)	nl-NL
Inggris (India)	Paket en-IN & hi-IN
Inggris (AS)	en-US
Prancis (Prancis)	fr-FR
Jerman (Jerman)	de-DE
Hindi (India)	hi-IN
Indonesia (Indonesia)	id-ID
Italia (Italia)	it-IT
Jepang (Jepang)	ja-JP
Korea (Korea)	ko-KR
Marathi (India)	mr-IN
Polandia (Polandia)	pl-PL
Portugis (Brasil)	pt-BR
Rumania (Rumania)	ro-RO
Rusia (Rusia)	ru-RU
Spanyol (AS)	es-US
Tamil (India)	ta-IN
Telugu (India)	te-IN
Thai (Thailand)	th-TH
Turkiye (Turkiye)	tr-TR
Ukraina (Ukraina)	uk-UA
Vietnam (Vietnam)	vi-VN

Mengonfigurasi deteksi aktivitas suara

Deteksi aktivitas suara (VAD) memungkinkan model mengenali saat seseorang sedang berbicara. Hal ini penting untuk menciptakan percakapan yang natural, karena memungkinkan pengguna menginterupsi model kapan saja.

Saat VAD mendeteksi gangguan, pembuatan yang sedang berlangsung akan dibatalkan dan dihapus. Hanya informasi yang sudah dikirim ke klien yang dipertahankan dalam histori sesi. Server kemudian mengirimkan pesan BidiGenerateContentServerContent untuk melaporkan gangguan. Kemudian, server akan membatalkan panggilan fungsi yang tertunda dan mengirim pesan BidiGenerateContentServerContent dengan ID panggilan yang dibatalkan.

Python

config = {
    "response_modalities": ["audio"],
    "realtime_input_config": {
        "automatic_activity_detection": {
            "disabled": False, # default
            "start_of_speech_sensitivity": "low",
            "end_of_speech_sensitivity": "low",
            "prefix_padding_ms": 20,
            "silence_duration_ms": 100,
        }
    }
}