Configurar idioma e voz

Este documento descreve como configurar respostas de fala sintetizada e detecção de atividade de voz na API Live. É possível configurar respostas em uma variedade de vozes e idiomas em HD, além de configurar as opções de detecção de atividade de voz para permitir que os usuários interrompam o modelo.

Definir o idioma e a voz

Para definir o idioma e a voz da resposta, faça o seguinte:

Console

  1. Abra Vertex AI Studio > Transmitir em tempo real.
  2. No expansor Saídas, selecione uma voz no menu suspenso Voz.
  3. No mesmo item, selecione um idioma no menu suspenso Idioma.
  4. Clique em Iniciar sessão.

Python

from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig

config = LiveConnectConfig(
    response_modalities=["AUDIO"],
    speech_config=SpeechConfig(
        voice_config=VoiceConfig(
            prebuilt_voice_config=PrebuiltVoiceConfig(
                voice_name=voice_name,
            )
        ),
        language_code="en-US",
    ),
)
      

Vozes compatíveis

A API Live é compatível com as seguintes 30 opções de voz no campo voice_name:

Zephyr: Brilhante
Kore: Firme
Orus: Firme
Autonoe: Brilhante
Umbriel: Tranquilo
Erinome: Claro
Laomedeia: Animado
Schedar: Equilibrado
Achird: Amigável
Sadachbia: Animado
Puck -- Animado
Fenrir -- Entusiasmado
Aoede -- Leve
Enceladus -- Suave
Algieba -- Calmo
Algenib -- Grave
Achernar -- Delicado
Gacrux -- Maduro
Zubenelgenubi -- Informal
Sadaltager -- Conhecedor
Charon -- Informativo
Leda -- Jovem
Callirrhoe -- Tranquilo
Iapetus -- Claro
Despina -- Suave
Rasalgethi -- Informativo
Alnilam -- Firme
Pulcherrima -- Direto
Vindemiatrix -- Delicado
Sulafat -- Acolhedor

Linguagens compatíveis

A API Live é compatível com os seguintes 24 idiomas:

Idioma Código BCP-47 Idioma Código BCP-47
Árabe (egípcio) ar-EG Alemão (Alemanha) de-DE
English (US) en-US Espanhol (EUA) es-US
Francês (França) fr-FR Híndi (Índia) hi-IN
Indonésio (Indonésia) id-ID Italiano (Itália) it-IT
Japonês (Japão) ja-JP Coreano (Coreia) ko-KR
Português (Brasil) pt-BR Russo (Rússia) ru-RU
Holandês (Holanda) nl-NL Polonês (Polônia) pl-PL
Tailandês (Tailândia) th-TH Turco (Turquia) tr-TR
Vietnamita (Vietnã) vi-VN Romeno (Romênia) ro-RO
Ucraniano (Ucrânia) uk-UA Bengali (Bangladesh) bn-BD
Inglês (Índia) Pacote en-IN e hi-IN Marati (Índia) mr-IN
Tâmil (Índia) ta-IN Telugu (Índia) te-IN

Configurar a detecção de atividade de voz

A detecção de atividade de voz (VAD, na sigla em inglês) permite que o modelo reconheça quando uma pessoa está falando. Isso é essencial para criar conversas naturais, porque permite que um usuário interrompa o modelo a qualquer momento.

Quando a VAD detecta uma interrupção, a geração em andamento é cancelada e descartada. Apenas as informações já enviadas ao cliente são mantidas no histórico da sessão. Em seguida, o servidor envia uma mensagem BidiGenerateContentServerContent para informar sobre a interrupção. Em seguida, o servidor descarta todas as chamadas de função pendentes e envia uma mensagem BidiGenerateContentServerContent com os IDs das chamadas canceladas.

Python

config = {
    "response_modalities": ["audio"],
    "realtime_input_config": {
        "automatic_activity_detection": {
            "disabled": False, # default
            "start_of_speech_sensitivity": "low",
            "end_of_speech_sensitivity": "low",
            "prefix_padding_ms": 20,
            "silence_duration_ms": 100,
        }
    }
}
      

A seguir