Este documento descreve como configurar as respostas de voz sintetizada e a deteção de atividade de voz na API Gemini Live. Pode configurar respostas numa variedade de vozes e idiomas em HD, bem como configurar as definições de deteção de atividade de voz para permitir que os utilizadores interrompam o modelo.
Defina o idioma e a voz
Os modelos de áudio nativos, como gemini-live-2.5-flash-native-audio, podem alternar entre idiomas naturalmente durante a conversa. Também pode restringir os idiomas em que o modelo fala especificando-os nas instruções do sistema.
Para modelos de áudio não nativos, como o gemini-live-2.5-flash, pode configurar o idioma em speech_config.language_code.
O Voice está configurado no campo voice_name para todos os modelos.
O seguinte exemplo de código mostra como configurar o idioma e a voz.
from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig config = LiveConnectConfig( response_modalities=["AUDIO"], speech_config=SpeechConfig( voice_config=VoiceConfig( prebuilt_voice_config=PrebuiltVoiceConfig( voice_name=voice_name, ) ), language_code="en-US", ), )
Vozes suportadas
A API Gemini Live suporta as seguintes 30 opções de voz no campo voice_name:
|
Zephyr – Brilhante Kore – Firme Orus – Firme Autonoe – Brilhante Umbriel – Descontraído Erinome – Claro Laomedeia – Animado Schedar – Equilibrado Achird – Amigável Sadachbia – Vivaz |
Puck: animado Fenrir: entusiasmado Aoede: descontraído Enceladus: suave Algieba: calmo Algenib: rouco Achernar: delicado Gacrux: maduro Zubenelgenubi: informal Sadaltager: experiente |
Charon: informativo Leda: jovial Callirrhoe: descontraído Iapetus: claro Despina: suave Rasalgethi: informativo Alnilam: firme Pulcherrima: direto Vindemiatrix: gentil Sulafat: afetuoso |
Idiomas compatíveis
A API Gemini Live suporta os seguintes 24 idiomas:
| Idioma | Código BCP-47 | Idioma | Código BCP-47 |
|---|---|---|---|
| Árabe (egípcio) | ar-EG | Alemão (Alemanha) | de-DE |
| Inglês (EUA) | en-US | Espanhol (EUA) | es-US |
| Francês (França) | fr-FR | Hindi (Índia) | hi-IN |
| Indonésio (Indonesia) | id-ID | Italiano (Itália) | it-IT |
| Japonês (Japão) | ja-JP | Coreano (Coreia) | ko-KR |
| Português (Brasil) | pt-BR | Russo (Rússia) | ru-RU |
| Neerlandês (Países Baixos) | nl-NL | Polaco (Polónia) | pl-PL |
| Tailandês (Tailândia) | th-TH | Turco (Turquia) | tr-TR |
| Vietnamita (Vietname) | vi-VN | Romeno (Roménia) | ro-RO |
| Ucraniano (Ucrânia) | uk-UA | Bengali (Bangladexe) | bn-BD |
| Inglês (Índia) | Pacote en-IN e hi-IN | Marati (Índia) | mr-IN |
| Tâmil (Índia) | ta-IN | Telugu (Índia) | te-IN |
Configure a deteção de atividade de voz
A deteção de atividade de voz (DAV) permite que o modelo reconheça quando uma pessoa está a falar. Isto é essencial para criar conversas naturais, porque permite que um utilizador interrompa o modelo em qualquer altura.
Quando a DVA deteta uma interrupção, a geração em curso é cancelada e
rejeitada. Apenas as informações já enviadas ao cliente são retidas no histórico de sessões. Em seguida, o servidor envia uma mensagem a comunicar a interrupção.BidiGenerateContentServerContent Em seguida, o servidor rejeita todas as chamadas de funções pendentes e envia uma mensagem BidiGenerateContentServerContent com os IDs das chamadas canceladas.
Python
config = { "response_modalities": ["audio"], "realtime_input_config": { "automatic_activity_detection": { "disabled": False, # default "start_of_speech_sensitivity": "low", "end_of_speech_sensitivity": "low", "prefix_padding_ms": 20, "silence_duration_ms": 100, } } }
O que se segue?
- Inicie e faça a gestão de sessões em direto
- Envie streams de áudio e vídeo
- Usar a tradução de voz para voz
- Práticas recomendadas com a API Gemini Live