Configure o idioma e a voz

Este documento descreve como configurar as respostas de voz sintetizada e a deteção de atividade de voz na API Gemini Live. Pode configurar respostas numa variedade de vozes e idiomas em HD, bem como configurar as definições de deteção de atividade de voz para permitir que os utilizadores interrompam o modelo.

Defina o idioma e a voz

Os modelos de áudio nativos, como gemini-live-2.5-flash-native-audio, podem mudar de idioma naturalmente durante a conversa. Também pode restringir os idiomas em que o modelo fala especificando-os nas instruções do sistema.

Para modelos de áudio não nativos, como o gemini-live-2.5-flash, pode configurar o idioma em speech_config.language_code.

O Voice está configurado no campo voice_name para todos os modelos.

O seguinte exemplo de código mostra como configurar o idioma e a voz.

from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig

config = LiveConnectConfig(
  response_modalities=["AUDIO"],
  speech_config=SpeechConfig(
    voice_config=VoiceConfig(
        prebuilt_voice_config=PrebuiltVoiceConfig(
            voice_name=voice_name,
        )
    ),
    language_code="en-US",
  ),
)

Vozes suportadas

A API Gemini Live suporta as seguintes 30 opções de voz no campo voice_name:

Zephyr – Brilhante
Kore – Firme
Orus – Firme
Autonoe – Brilhante
Umbriel – Descontraído
Erinome – Claro
Laomedeia – Animado
Schedar – Equilibrado
Achird – Amigável
Sadachbia – Vivaz
Puck: Animado
Fenrir: Entusiasmado
Aoede: Descontraído
Enceladus: Suave
Algieba: Calmo
Algenib: Rouco
Achernar: Delicado
Gacrux: Maduro
Zubenelgenubi: Informal
Sadaltager: Conhecedor
Carão: informativo
Leda: jovem
Calírroe: descontraído
Jápeto: claro
Despina: suave
Ras Algethi: informativo
Alnilam: firme
Pulcherrima: direto
Vindemiatrix: gentil
Sulafat: caloroso

Idiomas compatíveis

A API Gemini Live suporta os seguintes idiomas:

Idioma Código BCP-47
Árabe (egípcio) ar-EG
Bengali (Bangladexe) bn-BD
Neerlandês (Países Baixos) nl-NL
Inglês (Índia) Pacote en-IN e hi-IN
Inglês (EUA) en-US
Francês (França) fr-FR
Alemão (Alemanha) de-DE
Hindi (Índia) hi-IN
Indonésio (Indonesia) id-ID
Italiano (Itália) it-IT
Japonês (Japão) ja-JP
Coreano (Coreia) ko-KR
Marati (Índia) mr-IN
Polaco (Polónia) pl-PL
Português (Brasil) pt-BR
Romeno (Roménia) ro-RO
Russo (Rússia) ru-RU
Espanhol (EUA) es-US
Tâmil (Índia) ta-IN
Telugu (Índia) te-IN
Tailandês (Tailândia) th-TH
Turco (Turquia) tr-TR
Ucraniano (Ucrânia) uk-UA
Vietnamita (Vietname) vi-VN

Configure a deteção de atividade de voz

A deteção de atividade de voz (DAV) permite que o modelo reconheça quando uma pessoa está a falar. Isto é essencial para criar conversas naturais, porque permite que um utilizador interrompa o modelo em qualquer altura.

Quando a DVA deteta uma interrupção, a geração em curso é cancelada e rejeitada. Apenas as informações já enviadas ao cliente são retidas no histórico de sessões. Em seguida, o servidor envia uma mensagem a comunicar a interrupção.BidiGenerateContentServerContent Em seguida, o servidor rejeita todas as chamadas de funções pendentes e envia uma mensagem BidiGenerateContentServerContent com os IDs das chamadas canceladas.

Python

config = {
    "response_modalities": ["audio"],
    "realtime_input_config": {
        "automatic_activity_detection": {
            "disabled": False, # default
            "start_of_speech_sensitivity": "low",
            "end_of_speech_sensitivity": "low",
            "prefix_padding_ms": 20,
            "silence_duration_ms": 100,
        }
    }
}
      

O que se segue?