Configurar idioma e voz

Este documento descreve como configurar respostas de fala sintetizada e detecção de atividade de voz na API Gemini Live. É possível configurar respostas em uma variedade de vozes e idiomas em HD, além de configurar as opções de detecção de atividade de voz para permitir que os usuários interrompam o modelo.

Definir o idioma e a voz

Os modelos de áudio nativos, como o gemini-live-2.5-flash-native-audio, podem mudar de idioma naturalmente durante a conversa. Você também pode restringir os idiomas que ele fala especificando isso nas instruções do sistema.

Para modelos não nativos de áudio, como gemini-live-2.5-flash, é possível configurar o idioma em speech_config.language_code.

A voz é configurada no campo voice_name para todos os modelos.

O exemplo de código a seguir mostra como configurar o idioma e a voz.

from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig

config = LiveConnectConfig(
  response_modalities=["AUDIO"],
  speech_config=SpeechConfig(
    voice_config=VoiceConfig(
        prebuilt_voice_config=PrebuiltVoiceConfig(
            voice_name=voice_name,
        )
    ),
    language_code="en-US",
  ),
)

Vozes compatíveis

A API Gemini Live é compatível com as seguintes 30 opções de voz no campo voice_name:

Zephyr: Brilhante
Kore: Firme
Orus: Firme
Autonoe: Brilhante
Umbriel: Tranquilo
Erinome: Claro
Laomedeia: Animado
Schedar: Equilibrado
Achird: Amigável
Sadachbia: Animado
Puck -- Animado
Fenrir -- Entusiasmado
Aoede -- Leve
Enceladus -- Suave
Algieba -- Calmo
Algenib -- Grave
Achernar -- Delicado
Gacrux -- Maduro
Zubenelgenubi -- Informal
Sadaltager -- Conhecedor
Caronte: Informativo
Leda: Jovem
Calírroe: Tranquilo
Jápeto: Claro
Despina: Suave
Rasalgethi: Informativo
Alnilam: Firme
Pulcherrima: Direto
Vindemiatrix: Delicado
Sulafat: Acolhedor

Linguagens compatíveis

A API Gemini Live é compatível com os seguintes 24 idiomas:

Idioma Código BCP-47 Idioma Código BCP-47
Árabe (egípcio) ar-EG Alemão (Alemanha) de-DE
English (US) en-US Espanhol (EUA) es-US
Francês (França) fr-FR Híndi (Índia) hi-IN
Indonésio (Indonésia) id-ID Italiano (Itália) it-IT
Japonês (Japão) ja-JP Coreano (Coreia) ko-KR
Português (Brasil) pt-BR Russo (Rússia) ru-RU
Holandês (Holanda) nl-NL Polonês (Polônia) pl-PL
Tailandês (Tailândia) th-TH Turco (Turquia) tr-TR
Vietnamita (Vietnã) vi-VN Romeno (Romênia) ro-RO
Ucraniano (Ucrânia) uk-UA Bengali (Bangladesh) bn-BD
Inglês (Índia) Pacote en-IN e hi-IN Marati (Índia) mr-IN
Tâmil (Índia) ta-IN Telugu (Índia) te-IN

Configurar a detecção de atividade de voz

A detecção de atividade de voz (VAD, na sigla em inglês) permite que o modelo reconheça quando uma pessoa está falando. Isso é essencial para criar conversas naturais, porque permite que um usuário interrompa o modelo a qualquer momento.

Quando a VAD detecta uma interrupção, a geração em andamento é cancelada e descartada. Apenas as informações já enviadas ao cliente são mantidas no histórico da sessão. Em seguida, o servidor envia uma mensagem BidiGenerateContentServerContent para informar sobre a interrupção. Em seguida, o servidor descarta todas as chamadas de função pendentes e envia uma mensagem BidiGenerateContentServerContent com os IDs das chamadas canceladas.

Python

config = {
    "response_modalities": ["audio"],
    "realtime_input_config": {
        "automatic_activity_detection": {
            "disabled": False, # default
            "start_of_speech_sensitivity": "low",
            "end_of_speech_sensitivity": "low",
            "prefix_padding_ms": 20,
            "silence_duration_ms": 100,
        }
    }
}
      

A seguir