Configure o idioma e a voz

Este documento descreve como configurar as respostas de voz sintetizada e a deteção de atividade de voz na API Gemini Live. Pode configurar respostas numa variedade de vozes e idiomas em HD, bem como configurar as definições de deteção de atividade de voz para permitir que os utilizadores interrompam o modelo.

Defina o idioma e a voz

Os modelos de áudio nativos, como gemini-live-2.5-flash-native-audio, podem alternar entre idiomas naturalmente durante a conversa. Também pode restringir os idiomas em que o modelo fala especificando-os nas instruções do sistema.

Para modelos de áudio não nativos, como o gemini-live-2.5-flash, pode configurar o idioma em speech_config.language_code.

O Voice está configurado no campo voice_name para todos os modelos.

O seguinte exemplo de código mostra como configurar o idioma e a voz.

from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig

config = LiveConnectConfig(
  response_modalities=["AUDIO"],
  speech_config=SpeechConfig(
    voice_config=VoiceConfig(
        prebuilt_voice_config=PrebuiltVoiceConfig(
            voice_name=voice_name,
        )
    ),
    language_code="en-US",
  ),
)

Vozes suportadas

A API Gemini Live suporta as seguintes 30 opções de voz no campo voice_name:

Zephyr – Brilhante
Kore – Firme
Orus – Firme
Autonoe – Brilhante
Umbriel – Descontraído
Erinome – Claro
Laomedeia – Animado
Schedar – Equilibrado
Achird – Amigável
Sadachbia – Vivaz
Puck: animado
Fenrir: entusiasmado
Aoede: descontraído
Enceladus: suave
Algieba: calmo
Algenib: rouco
Achernar: delicado
Gacrux: maduro
Zubenelgenubi: informal
Sadaltager: experiente
Charon: informativo
Leda: jovial
Callirrhoe: descontraído
Iapetus: claro
Despina: suave
Rasalgethi: informativo
Alnilam: firme
Pulcherrima: direto
Vindemiatrix: gentil
Sulafat: afetuoso

Idiomas compatíveis

A API Gemini Live suporta os seguintes 24 idiomas:

Idioma Código BCP-47 Idioma Código BCP-47
Árabe (egípcio) ar-EG Alemão (Alemanha) de-DE
Inglês (EUA) en-US Espanhol (EUA) es-US
Francês (França) fr-FR Hindi (Índia) hi-IN
Indonésio (Indonesia) id-ID Italiano (Itália) it-IT
Japonês (Japão) ja-JP Coreano (Coreia) ko-KR
Português (Brasil) pt-BR Russo (Rússia) ru-RU
Neerlandês (Países Baixos) nl-NL Polaco (Polónia) pl-PL
Tailandês (Tailândia) th-TH Turco (Turquia) tr-TR
Vietnamita (Vietname) vi-VN Romeno (Roménia) ro-RO
Ucraniano (Ucrânia) uk-UA Bengali (Bangladexe) bn-BD
Inglês (Índia) Pacote en-IN e hi-IN Marati (Índia) mr-IN
Tâmil (Índia) ta-IN Telugu (Índia) te-IN

Configure a deteção de atividade de voz

A deteção de atividade de voz (DAV) permite que o modelo reconheça quando uma pessoa está a falar. Isto é essencial para criar conversas naturais, porque permite que um utilizador interrompa o modelo em qualquer altura.

Quando a DVA deteta uma interrupção, a geração em curso é cancelada e rejeitada. Apenas as informações já enviadas ao cliente são retidas no histórico de sessões. Em seguida, o servidor envia uma mensagem a comunicar a interrupção.BidiGenerateContentServerContent Em seguida, o servidor rejeita todas as chamadas de funções pendentes e envia uma mensagem BidiGenerateContentServerContent com os IDs das chamadas canceladas.

Python

config = {
    "response_modalities": ["audio"],
    "realtime_input_config": {
        "automatic_activity_detection": {
            "disabled": False, # default
            "start_of_speech_sensitivity": "low",
            "end_of_speech_sensitivity": "low",
            "prefix_padding_ms": 20,
            "silence_duration_ms": 100,
        }
    }
}
      

O que se segue?