Configure o idioma e a voz

Este documento descreve como configurar as respostas de voz sintetizada e a deteção de atividade de voz na API Gemini Live. Pode configurar respostas numa variedade de vozes e idiomas em HD, bem como configurar as definições de deteção de atividade de voz para permitir que os utilizadores interrompam o modelo.

Defina o idioma e a voz

Os modelos de áudio nativos, como gemini-live-2.5-flash-native-audio, podem mudar de idioma naturalmente durante a conversa. Também pode restringir os idiomas em que o modelo fala especificando-os nas instruções do sistema.

Para modelos de áudio não nativos, como o gemini-live-2.5-flash, pode configurar o idioma em speech_config.language_code.

O Voice está configurado no campo voice_name para todos os modelos.

O seguinte exemplo de código mostra como configurar o idioma e a voz.

from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig

config = LiveConnectConfig(
  response_modalities=["AUDIO"],
  speech_config=SpeechConfig(
    voice_config=VoiceConfig(
        prebuilt_voice_config=PrebuiltVoiceConfig(
            voice_name=voice_name,
        )
    ),
    language_code="en-US",
  ),
)

Vozes suportadas

A API Gemini Live suporta as seguintes 30 opções de voz no campo voice_name:

Zephyr – Brilhante
Kore – Firme
Orus – Firme
Autonoe – Brilhante
Umbriel – Descontraído
Erinome – Claro
Laomedeia – Animado
Schedar – Equilibrado
Achird – Amigável
Sadachbia – Vivaz

Puck: Animado
Fenrir: Entusiasmado
Aoede: Descontraído
Enceladus: Suave
Algieba: Calmo
Algenib: Rouco
Achernar: Delicado
Gacrux: Maduro
Zubenelgenubi: Informal
Sadaltager: Conhecedor

Carão: informativo
Leda: jovem
Calírroe: descontraído
Jápeto: claro
Despina: suave
Ras Algethi: informativo
Alnilam: firme
Pulcherrima: direto
Vindemiatrix: gentil
Sulafat: caloroso

Idiomas compatíveis

A API Gemini Live suporta os seguintes idiomas:

Idioma	Código BCP-47
Árabe (egípcio)	ar-EG
Bengali (Bangladexe)	bn-BD
Neerlandês (Países Baixos)	nl-NL
Inglês (Índia)	Pacote en-IN e hi-IN
Inglês (EUA)	en-US
Francês (França)	fr-FR
Alemão (Alemanha)	de-DE
Hindi (Índia)	hi-IN
Indonésio (Indonesia)	id-ID
Italiano (Itália)	it-IT
Japonês (Japão)	ja-JP
Coreano (Coreia)	ko-KR
Marati (Índia)	mr-IN
Polaco (Polónia)	pl-PL
Português (Brasil)	pt-BR
Romeno (Roménia)	ro-RO
Russo (Rússia)	ru-RU
Espanhol (EUA)	es-US
Tâmil (Índia)	ta-IN
Telugu (Índia)	te-IN
Tailandês (Tailândia)	th-TH
Turco (Turquia)	tr-TR
Ucraniano (Ucrânia)	uk-UA
Vietnamita (Vietname)	vi-VN

Configure a deteção de atividade de voz

A deteção de atividade de voz (DAV) permite que o modelo reconheça quando uma pessoa está a falar. Isto é essencial para criar conversas naturais, porque permite que um utilizador interrompa o modelo em qualquer altura.

Quando a DVA deteta uma interrupção, a geração em curso é cancelada e rejeitada. Apenas as informações já enviadas ao cliente são retidas no histórico de sessões. Em seguida, o servidor envia uma mensagem a comunicar a interrupção.BidiGenerateContentServerContent Em seguida, o servidor rejeita todas as chamadas de funções pendentes e envia uma mensagem BidiGenerateContentServerContent com os IDs das chamadas canceladas.

Python

config = {
    "response_modalities": ["audio"],
    "realtime_input_config": {
        "automatic_activity_detection": {
            "disabled": False, # default
            "start_of_speech_sensitivity": "low",
            "end_of_speech_sensitivity": "low",
            "prefix_padding_ms": 20,
            "silence_duration_ms": 100,
        }
    }
}