Gemini-TTS

Experimente um bloco de notas do Colab Ver bloco de notas no GitHub

O Gemini-TTS é a mais recente evolução da nossa tecnologia de conversão de texto em voz que vai além da naturalidade para oferecer um controlo detalhado sobre o áudio gerado através de comandos baseados em texto. Com o Gemini-TTS, pode sintetizar a fala de um ou vários oradores, desde pequenos fragmentos a narrativas longas, ditando com precisão o estilo, o sotaque, o ritmo, o tom e até a expressão emocional, tudo controlável através de comandos de linguagem natural.

Para explorar este modelo na consola, consulte o cartão do modelo Gemini-TTS no Model Garden (acessível através do separador Media Studio).

Experimente o Gemini-TTS na Vertex AI (Vertex AI Studio)

As capacidades do Gemini-TTS são suportadas pelo seguinte:

  • gemini-2.5-flash-tts: o Gemini 2.5 Flash TTS é adequado para aplicações de TTS diárias económicas.

  • gemini-2.5-pro-tts: o TTS do Gemini 2.5 Pro é adequado para a geração de voz controlável (TTS) e para a qualidade de ponta de comandos complexos.

Modelo Otimizado para Modalidade de entrada Modalidade de saída Orador único Vários altifalantes
Gemini 2.5 Flash TTS Geração de áudio de conversão de texto em voz de baixa latência, controlável, com um ou vários altifalantes para aplicações diárias económicas Texto Áudio ✔️ ✔️
Gemini 2.5 Pro TTS Controlo elevado para fluxos de trabalho estruturados, como geração de podcasts, livros áudio, apoio ao cliente e muito mais Texto Áudio ✔️ ✔️

Os controlos e as capacidades adicionais incluem o seguinte:

  1. Conversa natural: as interações de voz de qualidade notável, expressividade mais adequada e prosódia (padrões de ritmo) são fornecidas com uma latência muito baixa para que possa conversar de forma fluida.

  2. Controlo de estilo: através de comandos de linguagem natural, pode adaptar a transmissão na conversa, direcionando-a para adotar sotaques específicos e produzir uma variedade de tons e expressões, incluindo um sussurro.

  3. Desempenho dinâmico: estes modelos podem dar vida ao texto para leituras expressivas de poesia, noticiários e histórias cativantes. Também podem atuar com emoções específicas e produzir sotaques quando solicitado.

  4. Controlo melhorado do ritmo e da pronúncia: o controlo da velocidade de entrega ajuda a garantir uma maior precisão na pronúncia, incluindo palavras específicas.

Exemplos

model: "gemini-2.5-pro-tts"
prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way."
text: "hahah I did NOT expect that. Can you believe it!."
speaker: "Callirhoe"

model: "gemini-2.5-flash-tts"
prompt: "Say the following in a curious way"
text: "OK, so... tell me about this [uhm] AI thing.",
speaker: "Orus"

model: "gemini-2.5-flash-tts"
prompt: "Say the following"
text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions."
speaker: "Kore"

Para obter informações sobre como usar estas vozes de forma programática, consulte a secção Use Gemini-TTS.

Opções de voz

O Gemini-TTS oferece uma vasta gama de opções de voz semelhantes às nossas vozes HD do Chirp 3 existentes, cada uma com características distintas:

Nome Género Demonstrações
Achernar Feminino
Achird Masculino
Algenib Masculino
Algieba Masculino
Alnilam Masculino
Aoede Feminino
Autonoe Feminino
Callirrhoe Feminino
Caronte Masculino
Despina Feminino
Encélado Masculino
Erinome Feminino
Fenrir Masculino
Gacrux Feminino
Jápeto Masculino
Kore Feminino
Laomedeia Feminino
Leda Feminino
Orus Masculino
Pulcherrima Feminino
Disco Masculino
Rasalgethi Masculino
Sadachbia Masculino
Sadaltager Masculino
Schedar Masculino
Sulafat Feminino
Umbriel Masculino
Vindemiatrix Feminino
Zephyr Feminino
Zubenelgenubi Masculino

Idiomas disponíveis

O Gemini-TTS suporta os seguintes idiomas:

Idioma Código BCP-47 Disposição para o lançamento
Árabe (Egito) ar-EG DG
Neerlandês (Países Baixos) nl-NL DG
Inglês (Índia) en-IN DG
Inglês (Estados Unidos) en-US DG
Francês (França) fr-FR DG
Alemão (Alemanha) de-DE DG
Hindi (Índia) hi-IN DG
Indonésio (Indonesia) id-ID DG
Italiano (Itália) it-IT DG
Japonês (Japão) ja-JP DG
Coreano (Coreia do Sul) ko-KR DG
Marati (Índia) mr-IN DG
Polaco (Polónia) pl-PL DG
Português (Brasil) pt-BR DG
Romeno (Roménia) ro-RO DG
Russo (Rússia) ru-RU DG
Espanhol (Espanha) es-ES DG
Tâmil (Índia) ta-IN DG
Telugu (Índia) te-IN DG
Tailandês (Tailândia) th-TH DG
Turco (Turquia) tr-TR DG
Ucraniano (Ucrânia) uk-UA DG
Vietnamita (Vietname) vi-VN DG
Africânder (África do Sul) af-ZA Pré-visualização
Albanês (Albânia) sq-AL Pré-visualização
Amárico (Etiópia) am-ET Pré-visualização
Árabe (mundial) ar-001 Pré-visualização
Arménio (Arménia) hy-AM Pré-visualização
Azerbaijano (Azerbaijão) az-AZ Pré-visualização
Bengali (Bangladexe) bn-bd Pré-visualização
Basco (Espanha) eu-ES Pré-visualização
Bielorrusso (Bielorrússia) be-BY Pré-visualização
Búlgaro (Bulgária) bg-BG Pré-visualização
Birmanês (Mianmar) my-MM Pré-visualização
Catalão (Espanha) ca-ES Pré-visualização
Cebuano (Filipinas) ceb-PH Pré-visualização
Chinês, mandarim (China) cmn-cn Pré-visualização
Chinês, mandarim (Taiwan) cmn-tw Pré-visualização
Croata (Croácia) hr-HR Pré-visualização
Checo (Chéquia) cs-CZ Pré-visualização
Dinamarquês (Dinamarca) da-DK Pré-visualização
Inglês (Austrália) en-AU Pré-visualização
Inglês (Reino Unido) en-GB Pré-visualização
Estónio (Estónia) et-EE Pré-visualização
Filipino (Filipinas) fil-PH Pré-visualização
Finlandês (Finlândia) fi-FI Pré-visualização
Francês (Canadá) fr-CA Pré-visualização
Galego (Espanha) gl-ES Pré-visualização
Georgiano (Geórgia) ka-GE Pré-visualização
Grego (Grécia) el-GR Pré-visualização
Guzerate (Índia) gu-IN Pré-visualização
Crioulo haitiano (Haiti) ht-HT Pré-visualização
Hebraico (Israel) he-IL Pré-visualização
Húngaro (Hungria) hu-HU Pré-visualização
Islandês (Islândia) is-IS Pré-visualização
Javanês (Java) jv-JV Pré-visualização
Canarim (Índia) kn-IN Pré-visualização
Concani (Índia) kok-in Pré-visualização
Laosiano (Laos) lo-LA Pré-visualização
Latim (Cidade do Vaticano) la-VA Pré-visualização
Letão (Letónia) lv-LV Pré-visualização
Lituano (Lituânia) lt-IT Pré-visualização
Luxemburguês (Luxemburgo) lb-LU Pré-visualização
Macedónio (Macedónia do Norte) mk-MK Pré-visualização
Maithili (Índia) mai-IN Pré-visualização
Malgaxe (Madagáscar) mg-MG Pré-visualização
Malaio (Malásia) ms-MY Pré-visualização
Malaiala (Índia) ml-IN Pré-visualização
Mongol (Mongólia) mn-MN Pré-visualização
Nepalês (Nepal) ne-NP Pré-visualização
Norueguês, bokmål (Noruega) nb-NO Pré-visualização
Norueguês (Nynorsk) (Noruega) nn-NO Pré-visualização
Oriá (Índia) or-IN Pré-visualização
Pastó (Afeganistão) ps-AF Pré-visualização
Persa (Irão) fa-IR Pré-visualização
Português (Portugal) pt-PT Pré-visualização
Punjabi (Índia) pa-IN Pré-visualização
Sérvio (Sérvia) sr-RS Pré-visualização
Sindi (Índia) sd-IN Pré-visualização
Cingalês (Sri Lanca) si-LK Pré-visualização
Eslovaco (Eslováquia) sk-SK Pré-visualização
Esloveno (Eslovénia) sl-SI Pré-visualização
Espanhol (América Latina) es-419 Pré-visualização
Espanhol (México) es-MX Pré-visualização
Suaíli (Quénia) sw-KE Pré-visualização
Sueco (Suécia) sv-SE Pré-visualização
Urdu (Paquistão) ur-PK Pré-visualização

Disponibilidade regional

Os modelos Gemini-TTS estão disponíveis nas seguintes Google Cloud regiões, respetivamente:

Google Cloud zona Prontidão para o lançamento
global DG

Formatos de saída suportados

O formato de resposta predefinido é LINEAR16. Outros formatos suportados incluem o seguinte:

Método da API Formato
batch ALAW, MULAW, MP3, OGG_OPUS e PCM
streaming Não suportado

Use o Gemini-TTS

Descubra como usar os modelos Gemini-TTS para sintetizar a voz de um único orador e de vários oradores.

Antes de começar

Antes de poder começar a usar a API Text-to-Speech, tem de a ativar na Google Cloud consola seguindo estes passos:

  1. Ative a conversão de texto em voz num projeto.
  2. Certifique-se de que a faturação está ativada para a conversão de texto em voz.
  3. Configure a autenticação para o seu ambiente de desenvolvimento.

Configure o seu Google Cloud projeto

  1. Inicie sessão na Google Cloud consola

  2. Aceda à página do seletor de projetos

    Pode escolher um projeto existente ou criar um novo. Para mais detalhes sobre como criar um projeto, consulte a Google Cloud documentação.

  3. Se criar um novo projeto, é apresentada uma mensagem a informar que tem de associar uma conta de faturação. Se estiver a usar um projeto pré-existente, certifique-se de que ativa a faturação

    Saiba como confirmar que a faturação está ativada para o seu projeto

  4. Depois de selecionar um projeto e associá-lo a uma conta de faturação, pode ativar a API Text-to-Speech. Aceda à barra Pesquisar produtos e recursos na parte superior da página e escreva "voz". Selecione a Cloud Text-to-Speech API na lista de resultados.

  5. Para experimentar a conversão de texto em voz sem a associar ao seu projeto, escolha a opção Experimentar esta API. Para ativar a API Text-to-Speech para utilização com o seu projeto, clique em Ativar.

  6. Configure a autenticação para o seu ambiente de desenvolvimento. Para ver instruções, consulte o artigo Configure a autenticação para a conversão de texto em voz.

Realize a síntese síncrona de uma única pessoa

Python

# google-cloud-texttospeech minimum version 2.29.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize(prompt: str, text: str, output_filepath: str = "output.mp3"):
    """Synthesizes speech from the input text and saves it to an MP3 file.

    Args:
        prompt: Styling instructions on how to synthesize the content in
          the text field.
        text: The text to synthesize.
        output_filepath: The path to save the generated audio file.
          Defaults to "output.mp3".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    # Select the voice you want to use.
    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        name="Charon",  # Example voice, adjust as needed
        model_name="gemini-2.5-pro-tts"
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.MP3
    )

    # Perform the text-to-speech request on the text input with the selected
    # voice parameters and audio file type.
    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    # The response's audio_content is binary.
    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following in a curious way",
    "text": "OK, so... tell me about this [uhm] AI thing."
  },
  "voice": {
    "languageCode": "en-us",
    "name": "Kore",
    "model_name": "gemini-2.5-flash-tts"
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16"
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Realize a síntese síncrona de vários oradores com entrada de texto de forma livre

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_freeform(
    prompt: str,
    text: str,
    output_filepath: str = "output_non_turn_based.wav",
):
    """Synthesizes speech from non-turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        text: The text to synthesize, containing speaker aliases to indicate
          different speakers. Example: "Sam: Hi Bob!\nBob: Hi Sam!"
        output_filepath: The path to save the generated audio file. Defaults to
          "output_non_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "text": "Sam: Hi Bob, how are you?\\nBob: I am doing well, and you?"
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Realize a síntese síncrona de vários oradores com entrada de texto estruturado

A funcionalidade de vários oradores com entrada de texto estruturado permite a verbalização inteligente de texto de uma forma semelhante à humana. Por exemplo, este tipo de entrada é útil para moradas e datas. A entrada de texto de forma livre pronuncia o texto exatamente como foi escrito.

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_structured(
    prompt: str,
    turns: list[texttospeech.MultiSpeakerMarkup.Turn],
    output_filepath: str = "output_turn_based.wav",
):
    """Synthesizes speech from turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        turns: A list of texttospeech.MultiSpeakerMarkup.Turn objects representing
          the dialogue turns.
        output_filepath: The path to save the generated audio file. Defaults to
          "output_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(
        multi_speaker_markup=texttospeech.MultiSpeakerMarkup(turns=turns),
        prompt=prompt,
    )

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "multiSpeakerMarkup": {
      "turns": [
        {
          "speaker": "Sam",
          "text": "Hi Bob, how are you?"
        },
        {
          "speaker": "Bob",
          "text": "I am doing well, and you?"
        }
      ]
    }
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Realize a síntese de voz no Media Studio

Pode usar o Media Studio na consola Google Cloud Google para experimentar modelos de conversão de texto em voz. Isto fornece uma interface do utilizador para gerar rapidamente, ouvir áudio sintetizado e fazer experiências com diferentes instruções de estilo e parâmetros.

  1. Na consola Google Google Cloud , aceda à página Vertex AI Studio > Media Studio.

    Media Studio

  2. Selecione Voz no menu pendente de multimédia.

  3. No campo de texto, introduza o texto que quer sintetizar em voz.

  4. No painel Definições, configure as seguintes definições:

    1. Modelo: selecione o modelo de conversão de texto em voz (TTS) que quer usar, como Gemini 2.5 Pro TTS. Para mais informações sobre os modelos disponíveis, consulte o artigo Modelos de conversão de texto em voz.
    2. Instruções de estilo: opcional: introduza um comando de texto que descreva o estilo de fala, o tom e a expressão emocional selecionados. Isto permite-lhe orientar o desempenho do modelo além da narração predefinida. Por exemplo: "Narração com um tom calmo e profissional para um documentário.".
    3. Idioma: selecione o idioma e a região do texto introduzido. O modelo gera voz no idioma e sotaque selecionados. Por exemplo, inglês (Estados Unidos).
    4. Voz: escolha uma voz predefinida para a narração. A lista contém as vozes disponíveis para o modelo e o idioma selecionados, como Acherner (feminino).
  5. Opcional: expanda a secção Opções avançadas para configurar as definições técnicas de áudio:

    1. Codificação de áudio: selecione a codificação para o ficheiro de áudio de saída. O formato LINEAR16 é um formato sem perda de dados e não comprimido adequado para o processamento de áudio de alta qualidade. O MULAW também está disponível para a saída de áudio comprimido.
    2. Taxa de amostragem de áudio: selecione a taxa de amostragem em Hertz (Hz). Isto determina a qualidade do áudio. Os valores mais elevados, como 44 100 Hz, representam áudio de maior fidelidade, equivalente à qualidade de CD.
    3. Velocidade: ajuste a velocidade de voz movendo o controlo de deslize ou introduzindo um valor. Os valores inferiores a 1 diminuem a velocidade da fala e os valores superiores a 1 aumentam a velocidade da fala. A predefinição é 1.
    4. Ganho de volume (dB): ajuste o volume do áudio de saída em decibéis (dB). Os valores positivos aumentam o volume e os valores negativos diminuem-no. O valor predefinido é 0.
  6. Clique no ícone enviar à direita da caixa de texto para gerar o áudio.

  7. O áudio gerado aparece no leitor de multimédia. Clique no botão de reprodução para ouvir o resultado. Pode continuar a ajustar as definições e gerar novas versões conforme necessário.

Sugestões de interação

A criação de áudio envolvente e com um som natural a partir de texto requer a compreensão das nuances da linguagem falada e a respetiva tradução para um formato de guião. As seguintes dicas ajudam a criar guiões com um som autêntico e que captam o tom escolhido.

Os três pilares do controlo por voz

Para obter os resultados mais previsíveis e detalhados, certifique-se de que os três componentes seguintes são consistentes com o resultado pretendido.

Comando de estilo O principal fator da tonalidade emocional geral e da apresentação. O comando define o contexto para todo o segmento de voz.

  • Exemplo: You are an AI assistant speaking in a friendly and helpful tone.

  • Exemplo: Narrate this in the calm, authoritative tone of a nature documentary narrator.

Conteúdo de texto O significado semântico das palavras que está a sintetizar. Uma expressão evocativa que seja emocionalmente consistente com o comando de estilo produz resultados muito mais fiáveis do que texto neutro.

  • Bom: um comando para um tom assustado funciona melhor com texto como I think someone is in the house.

  • Menos eficaz: um comando para um tom assustado com texto como The meeting is at 4 PM. produz resultados ambíguos.

Etiquetas de marcação As etiquetas entre parênteses, como [sigh], são mais adequadas para injetar uma ação específica e localizada ou uma modificação de estilo, e não para definir o tom geral. Funcionam em conjunto com o comando de estilo e o conteúdo de texto.

Guia de etiquetas de marcação

A nossa pesquisa mostra que as etiquetas de marcação com parênteses funcionam num de três modos distintos. Compreender o modo de uma etiqueta é fundamental para a usar eficazmente.

Modo 1: sons que não são discurso

A marcação é substituída por uma vocalização audível que não é discurso (por exemplo, um suspiro ou uma gargalhada). A etiqueta em si não é falada. São excelentes para adicionar hesitações e reações realistas, semelhantes às humanas.

Etiqueta Comportamento Fiabilidade Orientação
[sigh] Insere um som de suspiro. Alto A qualidade emocional do suspiro é influenciada pelo comando.
[laughing] Insere um riso. Alto Para ter os melhores resultados, use um comando específico. Por exemplo, um comando genérico pode gerar uma gargalhada de choque, enquanto "reage com uma gargalhada divertida" cria uma gargalhada de diversão.
[uhm] Insere um som de hesitação. Alto Útil para criar uma sensação mais natural e conversacional.

Modo 2: modificadores de estilo

A marcação não é falada, mas modifica a transmissão da fala subsequente. O âmbito e a duração da modificação podem variar.

Etiqueta Comportamento Fiabilidade Orientação
[sarcasm] Transmite um tom sarcástico à expressão seguinte. Alto Esta etiqueta é um modificador poderoso. Demonstra que os conceitos abstratos podem orientar com êxito a publicação do modelo.
[robotic] Faz com que a voz subsequente soe robótica. Alto O efeito pode abranger toda uma expressão. Um comando de estilo de apoio (por exemplo, "Diz isto de forma robótica") continua a ser recomendado para obter os melhores resultados.
[shouting] Aumenta o volume da fala seguinte. Alto Mais eficaz quando usado com um comando de estilo correspondente (por exemplo, "Shout this next part") e texto que implica gritar.
[whispering] Diminui o volume da voz seguinte. Alto Os melhores resultados são alcançados quando o comando de estilo também é explícito (por exemplo, "agora, sussurra esta parte o mais silenciosamente possível").
[extremely fast] Aumenta a velocidade da voz seguinte. Alto Ideal para exclusões de responsabilidade ou diálogos rápidos. Apoio técnico de comandos mínimo necessário.

Modo 3: marcação vocalizada (adjetivos)

A etiqueta de marcação em si é falada como uma palavra, ao mesmo tempo que influencia o tom de toda a frase. Este comportamento aplica-se normalmente a adjetivos emocionais.

Aviso: uma vez que a etiqueta em si é falada, é provável que este modo seja um efeito secundário indesejável para a maioria dos exemplos de utilização. Em alternativa, prefira usar o comando de estilo para definir estes tons emocionais.

Etiqueta Comportamento Fiabilidade Orientação
[scared] A palavra "assustado" é dita e a frase adota um tom assustado. Alto O desempenho depende muito do conteúdo de texto. A expressão "Acabei de ouvir um vidro a partir-se" produz um resultado genuinamente assustado. Uma expressão neutra produz um resultado "assustador", mas menos autêntico.
[curious] A palavra "curioso" é falada e a frase adota um tom curioso. Alto Use uma expressão inquisitiva para apoiar a intenção da etiqueta.
[bored] A palavra "entediado" é dita e a frase adota uma entoação monótona e aborrecida. Alto Use com texto banal ou repetitivo para obter o melhor efeito.

Modo 4: ritmo e pausas

Estas etiquetas inserem silêncio no áudio gerado, o que lhe dá um controlo detalhado sobre o ritmo, o tempo e o andamento. A pontuação padrão (vírgulas, pontos, pontos e vírgulas) também cria pausas naturais, mas estas etiquetas oferecem um controlo mais explícito.

Etiqueta Comportamento Fiabilidade Orientação
[short pause] Insere uma breve pausa, semelhante a uma vírgula (~250 ms). Alto Use para separar cláusulas ou itens de listas para maior clareza.
[medium pause] Insere uma pausa padrão, semelhante a uma pausa entre frases (~500 ms). Alto Eficaz para separar frases ou pensamentos distintos.
[long pause] Insere uma pausa significativa para efeito dramático (~1000 ms ou mais). Alto Use para criar efeitos dramáticos. Por exemplo: "A resposta é… [long pause] …não." Evite a utilização excessiva, uma vez que pode soar artificial.

Estratégias importantes para resultados fiáveis

  • Alinhe os três elementos Para uma previsibilidade máxima, certifique-se de que o comando de estilo, o conteúdo de texto e todas as etiquetas de marcação são semanticamente consistentes e trabalham em função do mesmo objetivo.

  • Use texto emocionalmente rico Não confie apenas em comandos e etiquetas. Forneça ao modelo texto descritivo e detalhado para trabalhar. Isto é especialmente importante para emoções complexas, como sarcasmo, medo ou entusiasmo.

  • Escreva comandos específicos e detalhados Quanto mais específico for o comando de estilo, mais fiável é o resultado. "Reage com uma risada divertida" é melhor do que apenas [laughing]. "Fala como um locutor de notícias de rádio dos anos 40" é melhor do que "Fala à moda antiga".

  • Teste e valide novas etiquetas O comportamento de uma etiqueta nova ou não testada nem sempre é previsível. Uma etiqueta que considera um modificador de estilo pode ser vocalizada. Teste sempre uma nova combinação de etiqueta ou comando para confirmar o respetivo comportamento antes da implementação em produção.