Mengonfigurasi bahasa dan suara

Dokumen ini menjelaskan cara mengonfigurasi respons ucapan yang disintesis dan deteksi aktivitas suara di Live API. Anda dapat mengonfigurasi respons dalam berbagai suara dan bahasa HD, serta mengonfigurasi setelan deteksi aktivitas suara untuk memungkinkan pengguna menginterupsi model.

Menyetel bahasa dan suara

Untuk menyetel bahasa dan suara respons, konfigurasikan sebagai berikut:

Konsol

  1. Buka Vertex AI Studio > Stream realtime.
  2. Di peluas Output, pilih suara dari drop-down Suara.
  3. Di perluasan yang sama, pilih bahasa dari drop-down Bahasa.
  4. Klik Mulai sesi untuk memulai sesi.

Python

from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig

config = LiveConnectConfig(
    response_modalities=["AUDIO"],
    speech_config=SpeechConfig(
        voice_config=VoiceConfig(
            prebuilt_voice_config=PrebuiltVoiceConfig(
                voice_name=voice_name,
            )
        ),
        language_code="en-US",
    ),
)
      

Suara yang didukung

Live API mendukung 30 opsi suara berikut di kolom voice_name:

Zephyr -- Bright
Kore -- Firm
Orus -- Firm
Autonoe -- Bright
Umbriel -- Easy-going
Erinome -- Clear
Laomedeia -- Upbeat
Schedar -- Even
Achird -- Friendly
Sadachbia -- Lively
Puck -- Upbeat
Fenrir -- Excitable
Aoede -- Breezy
Enceladus -- Breathy
Algieba -- Smooth
Algenib -- Gravelly
Achernar -- Soft
Gacrux -- Mature
Zubenelgenubi -- Casual
Sadaltager -- Knowledgeable
Charon -- Informatif (Informative)
Leda -- Muda (Youthful)
Callirrhoe -- Santai (Easy-going)
Iapetus -- Jelas (Clear)
Despina -- Lancar (Smooth)
Rasalgethi -- Informatif (Informative)
Alnilam -- Tegas (Firm)
Pulcherrima -- Maju (Forward)
Vindemiatrix -- Lembut (Gentle)
Sulafat -- Hangat (Warm)

Bahasa yang didukung

Live API mendukung 24 bahasa berikut:

Bahasa Kode BCP-47 Bahasa Kode BCP-47
Arab (Mesir) ar-EG Jerman (Jerman) de-DE
Inggris (AS) en-US Spanyol (AS) es-US
Prancis (Prancis) fr-FR Hindi (India) hi-IN
Indonesia (Indonesia) id-ID Italia (Italia) it-IT
Jepang (Jepang) ja-JP Korea (Korea) ko-KR
Portugis (Brasil) pt-BR Rusia (Rusia) ru-RU
Belanda (Belanda) nl-NL Polandia (Polandia) pl-PL
Thai (Thailand) th-TH Turkiye (Turkiye) tr-TR
Vietnam (Vietnam) vi-VN Rumania (Rumania) ro-RO
Ukraina (Ukraina) uk-UA Bengali (Bangladesh) bn-BD
Inggris (India) Paket en-IN & hi-IN Marathi (India) mr-IN
Tamil (India) ta-IN Telugu (India) te-IN

Mengonfigurasi deteksi aktivitas suara

Deteksi aktivitas suara (VAD) memungkinkan model mengenali saat seseorang sedang berbicara. Hal ini penting untuk menciptakan percakapan yang natural, karena memungkinkan pengguna menginterupsi model kapan saja.

Saat VAD mendeteksi gangguan, pembuatan yang sedang berlangsung akan dibatalkan dan dihapus. Hanya informasi yang sudah dikirim ke klien yang dipertahankan dalam histori sesi. Server kemudian mengirimkan pesan BidiGenerateContentServerContent untuk melaporkan gangguan. Kemudian, server akan membatalkan panggilan fungsi yang tertunda dan mengirim pesan BidiGenerateContentServerContent dengan ID panggilan yang dibatalkan.

Python

config = {
    "response_modalities": ["audio"],
    "realtime_input_config": {
        "automatic_activity_detection": {
            "disabled": False, # default
            "start_of_speech_sensitivity": "low",
            "end_of_speech_sensitivity": "low",
            "prefix_padding_ms": 20,
            "silence_duration_ms": 100,
        }
    }
}
      

Langkah berikutnya