Configure o idioma e a voz

Este documento descreve como configurar respostas de voz sintetizada e a deteção de atividade de voz na API Live. Pode configurar respostas numa variedade de vozes e idiomas em HD, bem como configurar as definições de deteção de atividade de voz para permitir que os utilizadores interrompam o modelo.

Defina o idioma e a voz

Para definir o idioma e a voz de resposta, configure da seguinte forma:

Consola

  1. Abra o Vertex AI Studio > Transmitir em tempo real.
  2. No expansor Saídas, selecione uma voz no menu pendente Voz.
  3. No mesmo expansor, selecione um idioma no menu pendente Idioma.
  4. Clique em Iniciar sessão para iniciar a sessão.

Python

from google.genai.types import LiveConnectConfig, SpeechConfig, VoiceConfig, PrebuiltVoiceConfig

config = LiveConnectConfig(
    response_modalities=["AUDIO"],
    speech_config=SpeechConfig(
        voice_config=VoiceConfig(
            prebuilt_voice_config=PrebuiltVoiceConfig(
                voice_name=voice_name,
            )
        ),
        language_code="en-US",
    ),
)
      

Vozes suportadas

A API Live suporta as seguintes 30 opções de voz no campo voice_name:

Zephyr – Brilhante
Kore – Firme
Orus – Firme
Autonoe – Brilhante
Umbriel – Descontraído
Erinome – Claro
Laomedeia – Animado
Schedar – Equilibrado
Achird – Amigável
Sadachbia – Vivaz
Puck: Animado
Fenrir: Entusiasmado
Aoede: Descontraído
Enceladus: Suave
Algieba: Calmo
Algenib: Rouco
Achernar: Delicado
Gacrux: Maduro
Zubenelgenubi: Informal
Sadaltager: Conhecedor
Charon: informativo
Leda: jovial
Callirrhoe: descontraído
Iapetus: claro
Despina: suave
Rasalgethi: informativo
Alnilam: firme
Pulcherrima: direto
Vindemiatrix: gentil
Sulafat: afetuoso

Idiomas compatíveis

A API Live suporta os seguintes 24 idiomas:

Idioma Código BCP-47 Idioma Código BCP-47
Árabe (egípcio) ar-EG Alemão (Alemanha) de-DE
Inglês (EUA) en-US Espanhol (EUA) es-US
Francês (França) fr-FR Hindi (Índia) hi-IN
Indonésio (Indonesia) id-ID Italiano (Itália) it-IT
Japonês (Japão) ja-JP Coreano (Coreia) ko-KR
Português (Brasil) pt-BR Russo (Rússia) ru-RU
Neerlandês (Países Baixos) nl-NL Polaco (Polónia) pl-PL
Tailandês (Tailândia) th-TH Turco (Turquia) tr-TR
Vietnamita (Vietname) vi-VN Romeno (Roménia) ro-RO
Ucraniano (Ucrânia) uk-UA Bengali (Bangladexe) bn-BD
Inglês (Índia) Pacote en-IN e hi-IN Marati (Índia) mr-IN
Tâmil (Índia) ta-IN Telugu (Índia) te-IN

Configure a deteção de atividade de voz

A deteção de atividade de voz (DAV) permite que o modelo reconheça quando uma pessoa está a falar. Isto é essencial para criar conversas naturais, porque permite que um utilizador interrompa o modelo em qualquer altura.

Quando a DVA deteta uma interrupção, a geração em curso é cancelada e rejeitada. Apenas as informações já enviadas ao cliente são retidas no histórico de sessões. Em seguida, o servidor envia uma mensagem a comunicar a interrupção.BidiGenerateContentServerContent Em seguida, o servidor rejeita todas as chamadas de funções pendentes e envia uma mensagem BidiGenerateContentServerContent com os IDs das chamadas canceladas.

Python

config = {
    "response_modalities": ["audio"],
    "realtime_input_config": {
        "automatic_activity_detection": {
            "disabled": False, # default
            "start_of_speech_sensitivity": "low",
            "end_of_speech_sensitivity": "low",
            "prefix_padding_ms": 20,
            "silence_duration_ms": 100,
        }
    }
}
      

O que se segue?