Este documento descreve como configurar respostas de fala sintetizada e detecção de atividade de voz na API Live. É possível configurar respostas em uma variedade de vozes e idiomas em HD, além de configurar as opções de detecção de atividade de voz para permitir que os usuários interrompam o modelo.
Definir o idioma e a voz
Para definir o idioma e a voz da resposta, faça o seguinte:
Console
- Abra Vertex AI Studio > Transmitir em tempo real.
- No expansor Saídas, selecione uma voz no menu suspenso Voz.
- No mesmo item, selecione um idioma no menu suspenso Idioma.
- Clique em Iniciar sessão.
Python
from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig config = LiveConnectConfig( response_modalities=["AUDIO"], speech_config=SpeechConfig( voice_config=VoiceConfig( prebuilt_voice_config=PrebuiltVoiceConfig( voice_name=voice_name, ) ), language_code="en-US", ), )
Vozes compatíveis
A API Live é compatível com as seguintes 30 opções de voz no campo
voice_name:
|
Zephyr: Brilhante Kore: Firme Orus: Firme Autonoe: Brilhante Umbriel: Tranquilo Erinome: Claro Laomedeia: Animado Schedar: Equilibrado Achird: Amigável Sadachbia: Animado |
Puck -- Animado Fenrir -- Entusiasmado Aoede -- Leve Enceladus -- Suave Algieba -- Calmo Algenib -- Grave Achernar -- Delicado Gacrux -- Maduro Zubenelgenubi -- Informal Sadaltager -- Conhecedor |
Charon -- Informativo Leda -- Jovem Callirrhoe -- Tranquilo Iapetus -- Claro Despina -- Suave Rasalgethi -- Informativo Alnilam -- Firme Pulcherrima -- Direto Vindemiatrix -- Delicado Sulafat -- Acolhedor |
Linguagens compatíveis
A API Live é compatível com os seguintes 24 idiomas:
| Idioma | Código BCP-47 | Idioma | Código BCP-47 |
|---|---|---|---|
| Árabe (egípcio) | ar-EG | Alemão (Alemanha) | de-DE |
| English (US) | en-US | Espanhol (EUA) | es-US |
| Francês (França) | fr-FR | Híndi (Índia) | hi-IN |
| Indonésio (Indonésia) | id-ID | Italiano (Itália) | it-IT |
| Japonês (Japão) | ja-JP | Coreano (Coreia) | ko-KR |
| Português (Brasil) | pt-BR | Russo (Rússia) | ru-RU |
| Holandês (Holanda) | nl-NL | Polonês (Polônia) | pl-PL |
| Tailandês (Tailândia) | th-TH | Turco (Turquia) | tr-TR |
| Vietnamita (Vietnã) | vi-VN | Romeno (Romênia) | ro-RO |
| Ucraniano (Ucrânia) | uk-UA | Bengali (Bangladesh) | bn-BD |
| Inglês (Índia) | Pacote en-IN e hi-IN | Marati (Índia) | mr-IN |
| Tâmil (Índia) | ta-IN | Telugu (Índia) | te-IN |
Configurar a detecção de atividade de voz
A detecção de atividade de voz (VAD, na sigla em inglês) permite que o modelo reconheça quando uma pessoa está falando. Isso é essencial para criar conversas naturais, porque permite que um usuário interrompa o modelo a qualquer momento.
Quando a VAD detecta uma interrupção, a geração em andamento é cancelada e descartada. Apenas as informações já enviadas ao cliente são mantidas no histórico da sessão. Em seguida, o servidor envia uma mensagem BidiGenerateContentServerContent
para informar sobre a interrupção. Em seguida, o servidor descarta todas as chamadas de função pendentes e envia uma mensagem BidiGenerateContentServerContent com os IDs das chamadas canceladas.
Python
config = { "response_modalities": ["audio"], "realtime_input_config": { "automatic_activity_detection": { "disabled": False, # default "start_of_speech_sensitivity": "low", "end_of_speech_sensitivity": "low", "prefix_padding_ms": 20, "silence_duration_ms": 100, } } }
A seguir
- Iniciar e gerenciar sessões ao vivo
- Enviar streams de áudio e vídeo
- Como usar a tradução de voz para voz
- Práticas recomendadas com a API Live