Este documento descreve como configurar respostas de voz sintetizada e a deteção de atividade de voz na API Live. Pode configurar respostas numa variedade de vozes e idiomas em HD, bem como configurar as definições de deteção de atividade de voz para permitir que os utilizadores interrompam o modelo.
Defina o idioma e a voz
Para definir o idioma e a voz de resposta, configure da seguinte forma:
Consola
- Abra o Vertex AI Studio > Transmitir em tempo real.
- No expansor Saídas, selecione uma voz no menu pendente Voz.
- No mesmo expansor, selecione um idioma no menu pendente Idioma.
- Clique em Iniciar sessão para iniciar a sessão.
Python
from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig config = LiveConnectConfig( response_modalities=["AUDIO"], speech_config=SpeechConfig( voice_config=VoiceConfig( prebuilt_voice_config=PrebuiltVoiceConfig( voice_name=voice_name, ) ), language_code="en-US", ), )
Vozes suportadas
A API Live suporta as seguintes 30 opções de voz no campo voice_name:
|
Zephyr – Brilhante Kore – Firme Orus – Firme Autonoe – Brilhante Umbriel – Descontraído Erinome – Claro Laomedeia – Animado Schedar – Equilibrado Achird – Amigável Sadachbia – Vivaz |
Puck: Animado Fenrir: Entusiasmado Aoede: Descontraído Enceladus: Suave Algieba: Calmo Algenib: Rouco Achernar: Delicado Gacrux: Maduro Zubenelgenubi: Informal Sadaltager: Conhecedor |
Charon: informativo Leda: jovial Callirrhoe: descontraído Iapetus: claro Despina: suave Rasalgethi: informativo Alnilam: firme Pulcherrima: direto Vindemiatrix: gentil Sulafat: afetuoso |
Idiomas compatíveis
A API Live suporta os seguintes 24 idiomas:
| Idioma | Código BCP-47 | Idioma | Código BCP-47 |
|---|---|---|---|
| Árabe (egípcio) | ar-EG | Alemão (Alemanha) | de-DE |
| Inglês (EUA) | en-US | Espanhol (EUA) | es-US |
| Francês (França) | fr-FR | Hindi (Índia) | hi-IN |
| Indonésio (Indonesia) | id-ID | Italiano (Itália) | it-IT |
| Japonês (Japão) | ja-JP | Coreano (Coreia) | ko-KR |
| Português (Brasil) | pt-BR | Russo (Rússia) | ru-RU |
| Neerlandês (Países Baixos) | nl-NL | Polaco (Polónia) | pl-PL |
| Tailandês (Tailândia) | th-TH | Turco (Turquia) | tr-TR |
| Vietnamita (Vietname) | vi-VN | Romeno (Roménia) | ro-RO |
| Ucraniano (Ucrânia) | uk-UA | Bengali (Bangladexe) | bn-BD |
| Inglês (Índia) | Pacote en-IN e hi-IN | Marati (Índia) | mr-IN |
| Tâmil (Índia) | ta-IN | Telugu (Índia) | te-IN |
Configure a deteção de atividade de voz
A deteção de atividade de voz (DAV) permite que o modelo reconheça quando uma pessoa está a falar. Isto é essencial para criar conversas naturais, porque permite que um utilizador interrompa o modelo em qualquer altura.
Quando a DVA deteta uma interrupção, a geração em curso é cancelada e
rejeitada. Apenas as informações já enviadas ao cliente são retidas no histórico de sessões. Em seguida, o servidor envia uma mensagem a comunicar a interrupção.BidiGenerateContentServerContent Em seguida, o servidor rejeita todas as chamadas de funções pendentes e envia uma mensagem BidiGenerateContentServerContent com os IDs das chamadas canceladas.
Python
config = { "response_modalities": ["audio"], "realtime_input_config": { "automatic_activity_detection": { "disabled": False, # default "start_of_speech_sensitivity": "low", "end_of_speech_sensitivity": "low", "prefix_padding_ms": 20, "silence_duration_ms": 100, } } }
O que se segue?
- Inicie e faça a gestão de sessões em direto
- Envie streams de áudio e vídeo
- Usar a tradução de voz para voz
- Práticas recomendadas com a API Live