![]() |
![]() |
O Gemini-TTS é a mais recente evolução da nossa tecnologia de conversão da Text-to-Speech, que vai além da naturalidade e oferece controle granular sobre o áudio gerado usando comandos baseados em texto. Com o Gemini-TTS, você pode sintetizar falas de um ou vários locutores, de pequenos trechos a narrativas completas, ditando com precisão o estilo, o sotaque, o ritmo, o tom e até a expressão emocional, tudo isso com comandos em linguagem natural.
Para conferir esse modelo no console, consulte o card do modelo Gemini-TTS no Model Garden, acessível usando a guia Media Studio.
Teste o Gemini-TTS na Vertex AI (Vertex AI Studio)
Os recursos do Gemini TTS são compatíveis com o seguinte:
gemini-2.5-flash-tts
: o TTS do Gemini 2.5 Flash é ideal para aplicativos de TTS econômicos do dia a dia.gemini-2.5-pro-tts
: o Gemini 2.5 Pro TTS é bom para geração de fala controlável (TTS) e para qualidade de ponta em comandos complexos.
Modelo | Otimizado para | Modalidade de entrada | Modalidade de saída | Apenas um locutor | Vários locutores |
---|---|---|---|---|---|
TTS do Gemini 2.5 Flash | Geração de áudio de conversão Text-to-Speech em voz de baixa latência, controlável, com um ou vários falantes para aplicativos diários econômicos | Texto | Áudio | ✔️ | ✔️ |
TTS do Gemini 2.5 Pro | Alto controle para fluxos de trabalho estruturados, como geração de podcasts, audiolivros, suporte ao cliente e muito mais | Texto | Áudio | ✔️ | ✔️ |
Outros controles e recursos incluem:
Conversa natural: as interações por voz de qualidade notável, expressividade e prosódia (padrões de ritmo) mais adequadas são entregues com latência muito baixa para que você possa conversar com fluidez.
Controle de estilo: usando comandos de linguagem natural, você pode adaptar a entrega na conversa, direcionando-a para adotar sotaques específicos e produzir uma variedade de tons e expressões, incluindo um sussurro.
Performance dinâmica: esses modelos podem dar vida ao texto para leituras expressivas de poesia, noticiários e narrativas envolventes. Eles também podem fazer isso com emoções específicas e produzir sotaques quando solicitados.
Controle aprimorado de ritmo e pronúncia: controlar a velocidade de entrega ajuda a garantir mais precisão na pronúncia, incluindo palavras específicas.
Exemplos
model: "gemini-2.5-pro-tts" prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way." text: "hahah I did NOT expect that. Can you believe it!." speaker: "Callirhoe"
model: "gemini-2.5-flash-tts" prompt: "Say the following in a curious way" text: "OK, so... tell me about this [uhm] AI thing.", speaker: "Orus"
model: "gemini-2.5-flash-tts" prompt: "Say the following" text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions." speaker: "Kore"
Para informações sobre como usar essas vozes de forma programática, consulte a seção Usar o Gemini-TTS.
Opções de voz
O Gemini-TTS oferece uma ampla variedade de opções de voz semelhantes ao Chirp 3: vozes em alta definição, cada uma com características distintas:
Nome | Gênero | Demonstração |
---|---|---|
Achernar | Feminino | |
Achird | Masculino | |
Algenib | Masculino | |
Algieba | Masculino | |
Alnilam | Masculino | |
Aoede | Feminino | |
Autonoe | Feminino | |
Callirrhoe | Feminino | |
Caronte | Masculino | |
Despina | Feminino | |
Encélado | Masculino | |
Erinome | Feminino | |
Fenrir | Masculino | |
Gacrux | Feminino | |
Jápeto | Masculino | |
Kore | Feminino | |
Laomedeia | Feminino | |
Leda | Feminino | |
Orus | Masculino | |
Pulcherrima | Feminino | |
Puck | Masculino | |
Rasalgethi | Masculino | |
Sadachbia | Masculino | |
Sadaltager | Masculino | |
Schedar | Masculino | |
Sulat | Feminino | |
Umbriel | Masculino | |
Vindemiatrix | Feminino | |
Zephyr | Feminino | |
Zubenelgenubi | Masculino |
Disponibilidade de idiomas
A Gemini-TTS é compatível com os seguintes idiomas:
Idioma | Código BCP-47 | Prontidão para o lançamento |
---|---|---|
Árabe (Egito) | ar-EG | GA |
Holandês (Holanda) | nl-NL | GA |
Inglês (Índia) | en-IN | GA |
Inglês (Estados Unidos) | en-US | GA |
Francês (França) | fr-FR | GA |
Alemão (Alemanha) | de-DE | GA |
Híndi (Índia) | hi-IN | GA |
Indonésio (Indonésia) | id-ID | GA |
Italiano (Itália) | it-IT | GA |
Japonês (Japão) | ja-JP | GA |
Coreano (Coreia do Sul) | ko-KR | GA |
Marati (Índia) | mr-IN | GA |
Polonês (Polônia) | pl-PL | GA |
Português (Brasil) | pt-BR | GA |
Romeno (Romênia) | ro-RO | GA |
Russo (Rússia) | ru-RU | GA |
Espanhol (Espanha) | es-ES | GA |
Tâmil (Índia) | ta-IN | GA |
Telugu (Índia) | te-IN | GA |
Tailandês (Tailândia) | th-TH | GA |
Turco (Turquia) | tr-TR | GA |
Ucraniano (Ucrânia) | uk-UA | GA |
Vietnamita (Vietnã) | vi-VN | GA |
Afrikaans (África do Sul) | af-ZA | Visualizar |
Albanês (Albânia) | sq-AL | Visualizar |
Amárico (Etiópia) | am-ET | Visualizar |
Árabe (mundo) | ar-001 | Visualizar |
Armênio (Armênia) | hy-AM | Visualizar |
Azerbaijano (Azerbaijão) | az-AZ | Visualizar |
Bengali (Bangladesh) | bn-bd | Visualizar |
Basco (Espanha) | eu-ES | Visualizar |
Bielorrusso (Bielorrússia) | be-BY | Visualizar |
Búlgaro (Bulgária) | bg-BG | Visualizar |
Birmanês (Mianmar) | my-MM | Visualizar |
Catalão (Espanha) | ca-ES | Visualizar |
Cebuano (Filipinas) | ceb-PH | Visualizar |
Chinês, mandarim (China) | cmn-cn | Visualizar |
Chinês, mandarim (Taiwan) | cmn-tw | Visualizar |
Croata (Croácia) | hr-HR | Visualizar |
Checo (República Tcheca) | cs-CZ | Visualizar |
Dinamarquês (Dinamarca) | da-DK | Visualizar |
Inglês (Austrália) | en-AU | Visualizar |
Inglês (Reino Unido) | en-GB | Visualizar |
Estoniano (Estônia) | et-EE | Visualizar |
Filipino (Filipinas) | fil-PH | Visualizar |
Finlandês (Finlândia) | fi-FI | Visualizar |
Francês (Canadá) | fr-CA | Visualizar |
Galego (Espanha) | gl-ES | Visualizar |
Georgiano (Geórgia) | ka-GE | Visualizar |
Grego (grego) | el-GR | Visualizar |
Gujarati (Índia) | gu-IN | Visualizar |
Crioulo haitiano (Haiti) | ht-HT | Visualizar |
Hebraico (Israel) | he-IL | Visualizar |
Húngaro (Hungria) | hu-HU | Visualizar |
Islandês (Islândia) | is-IS | Visualizar |
Javanês (Java) | jv-JV | Visualizar |
Canarês (Índia) | kn-IN | Visualizar |
Concani (Índia) | kok-in | Visualizar |
Lao (Laos) | lo-LA | Visualizar |
Latim (Cidade do Vaticano) | la-VA | Visualizar |
Letão (Letônia) | lv-LV | Visualizar |
Lituano (Lituânia) | lt-IT | Visualizar |
Luxemburguês (Luxemburgo) | lb-LU | Visualizar |
Macedônio (Macedônia do Norte) | mk-MK | Visualizar |
Maithili (Índia) | mai-IN | Visualizar |
Malgaxe (Madagascar) | mg-MG | Visualizar |
Malaio (Malásia) | ms-MY | Visualizar |
Malaiala (Índia) | ml-IN | Visualizar |
Mongol (Mongólia) | mn-MN | Visualizar |
Nepalês (Nepal) | ne-NP | Visualizar |
Norueguês, Bokmål (Noruega) | nb-NO | Visualizar |
Norueguês, Nynorsk (Noruega) | nn-NO | Visualizar |
Oriá (Índia) | or-IN | Visualizar |
Pashto (Afeganistão) | ps-AF | Visualizar |
Persa (Irã) | fa-IR | Visualizar |
Português (Portugal) | pt-PT | Visualizar |
Punjabi (Índia) | pa-IN | Visualizar |
Sérvio (Sérvia) | sr-RS | Visualizar |
Sindi (Índia) | sd-IN | Visualizar |
Cingalês (Sri Lanka) | si-LK | Visualizar |
Eslovaco (Eslováquia) | sk-SK | Visualizar |
Esloveno (Eslovênia) | sl-SI | Visualizar |
Espanhol (América Latina) | es-419 | Visualizar |
Espanhol (México) | es-MX | Visualizar |
Swahili (Kenya) | sw-KE | Visualizar |
Sueco (Suécia) | sv-SE | Visualizar |
Urdu (Paquistão) | ur-PK | Visualizar |
Disponibilidade regional
Os modelos Gemini-TTS estão disponíveis nas seguintes regiões Google Cloud , respectivamente:
Google Cloud zona | Preparação para o lançamento |
---|---|
global |
GA |
Formatos de saída aceitos
O formato de resposta padrão é LINEAR16
. Outros formatos compatíveis incluem:
Método de API | Formato |
---|---|
batch |
ALAW, MULAW, MP3, OGG_OPUS e PCM |
streaming |
Sem suporte |
Usar o Gemini-TTS
Saiba como usar os modelos do Gemini-TTS para sintetizar falas de uma ou várias pessoas.
Antes de começar
Antes de começar a usar o Text-to-Speech, ative a API no consoleGoogle Cloud seguindo estas etapas:
- Ativar o Text-to-Speech em um projeto.
- Verificar se o faturamento está ativado para o Text-to-Speech.
- Configure a autenticação para seu ambiente de desenvolvimento.
Configurar o projeto do Google Cloud
Acessar a página do seletor de projetos
É possível escolher um projeto existente ou criar um novo. Para mais detalhes sobre a criação de um projeto, consulte a documentação doGoogle Cloud .
Se você criar um novo projeto, uma mensagem vai aparecer informando que é necessário vincular uma conta de faturamento. Se você estiver usando um projeto atual, ative o faturamento.
Aprenda a confirmar se o faturamento está ativado para o projeto.
Depois de selecionar um projeto e vinculá-lo a uma conta de faturamento, é possível ativar a API Text-to-Speech. Acesse a barra Pesquisar produtos e recursos na parte de cima da página e digite "speech". Selecione a API Cloud Text-to-Speech na lista de resultados.
Para testar o Text-to-Speech sem vinculá-lo ao projeto, escolha a opção Testar esta API. Para ativar a API Text-to-Speech para uso com o projeto, clique em Ativar.
Configure a autenticação para seu ambiente de desenvolvimento. Para instruções, consulte Configurar a autenticação da Text-to-Speech.
Realizar a síntese síncrona de um único falante
Python
# google-cloud-texttospeech minimum version 2.29.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize(prompt: str, text: str, output_filepath: str = "output.mp3"):
"""Synthesizes speech from the input text and saves it to an MP3 file.
Args:
prompt: Styling instructions on how to synthesize the content in
the text field.
text: The text to synthesize.
output_filepath: The path to save the generated audio file.
Defaults to "output.mp3".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
# Select the voice you want to use.
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
name="Charon", # Example voice, adjust as needed
model_name="gemini-2.5-pro-tts"
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)
# Perform the text-to-speech request on the text input with the selected
# voice parameters and audio file type.
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
# The response's audio_content is binary.
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following in a curious way",
"text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
"languageCode": "en-us",
"name": "Kore",
"model_name": "gemini-2.5-flash-tts"
},
"audioConfig": {
"audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Realizar a síntese síncrona de vários falantes com entrada de texto livre
Python
# google-cloud-texttospeech minimum version 2.31.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize_multispeaker_freeform(
prompt: str,
text: str,
output_filepath: str = "output_non_turn_based.wav",
):
"""Synthesizes speech from non-turn-based input and saves it to a WAV file.
Args:
prompt: Styling instructions on how to synthesize the content in the
text field.
text: The text to synthesize, containing speaker aliases to indicate
different speakers. Example: "Sam: Hi Bob!\nBob: Hi Sam!"
output_filepath: The path to save the generated audio file. Defaults to
"output_non_turn_based.wav".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker1",
speaker_id="Kore",
),
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker2",
speaker_id="Charon",
),
]
)
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
model_name="gemini-2.5-pro-tts",
multi_speaker_voice_config=multi_speaker_voice_config,
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.LINEAR16,
sample_rate_hertz=24000,
)
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following as a conversation between friends.",
"text": "Sam: Hi Bob, how are you?\\nBob: I am doing well, and you?"
},
"voice": {
"languageCode": "en-us",
"modelName": "gemini-2.5-flash-tts",
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [
{
"speakerAlias": "Sam",
"speakerId": "Kore"
},
{
"speakerAlias": "Bob",
"speakerId": "Charon"
}
]
}
},
"audioConfig": {
"audioEncoding": "LINEAR16",
"sampleRateHertz": 24000
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Realizar síntese síncrona de vários falantes com entrada de texto estruturado
A entrada de texto estruturado com vários falantes permite a verbalização inteligente de texto de maneira semelhante à humana. Por exemplo, esse tipo de entrada é útil para endereços e datas. A entrada de texto livre fala o texto exatamente como foi escrito.
Python
# google-cloud-texttospeech minimum version 2.31.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize_multispeaker_structured(
prompt: str,
turns: list[texttospeech.MultiSpeakerMarkup.Turn],
output_filepath: str = "output_turn_based.wav",
):
"""Synthesizes speech from turn-based input and saves it to a WAV file.
Args:
prompt: Styling instructions on how to synthesize the content in the
text field.
turns: A list of texttospeech.MultiSpeakerMarkup.Turn objects representing
the dialogue turns.
output_filepath: The path to save the generated audio file. Defaults to
"output_turn_based.wav".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(
multi_speaker_markup=texttospeech.MultiSpeakerMarkup(turns=turns),
prompt=prompt,
)
multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker1",
speaker_id="Kore",
),
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker2",
speaker_id="Charon",
),
]
)
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
model_name="gemini-2.5-pro-tts",
multi_speaker_voice_config=multi_speaker_voice_config,
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.LINEAR16,
sample_rate_hertz=24000,
)
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following as a conversation between friends.",
"multiSpeakerMarkup": {
"turns": [
{
"speaker": "Sam",
"text": "Hi Bob, how are you?"
},
{
"speaker": "Bob",
"text": "I am doing well, and you?"
}
]
}
},
"voice": {
"languageCode": "en-us",
"modelName": "gemini-2.5-flash-tts",
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [
{
"speakerAlias": "Sam",
"speakerId": "Kore"
},
{
"speakerAlias": "Bob",
"speakerId": "Charon"
}
]
}
},
"audioConfig": {
"audioEncoding": "LINEAR16",
"sampleRateHertz": 24000
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Fazer síntese de voz no Media Studio
Use o Media Studio no console do Google Google Cloud para testar modelos de conversão de texto em voz. Isso fornece uma interface do usuário para gerar, ouvir áudio sintetizado e testar diferentes instruções e parâmetros de estilo com rapidez.
No console do Google Google Cloud , acesse a página Vertex AI Studio > Media Studio.
Selecione Fala no menu suspenso de mídia.
No campo de texto, digite o texto que você quer sintetizar em fala.
No painel Configurações, defina o seguinte:
- Modelo: selecione o modelo de conversão da Text-to-Speech (TTS) que você quer usar, como
Gemini 2.5 Pro TTS
. Para mais informações sobre os modelos disponíveis, consulte Modelos de Text-to-Speech. - Instruções de estilo: opcional: insira um comando de texto que descreva o estilo de fala, o tom e a emoção selecionados. Isso permite orientar a performance do modelo além da narração padrão. Por exemplo: "Narração em um tom calmo e profissional para um documentário".
- Idioma: selecione o idioma e a região do texto de entrada. O modelo gera fala no idioma e no sotaque selecionados. Por exemplo, Inglês (Estados Unidos).
- Voz: escolha uma voz predefinida para a narração. A lista contém as vozes disponíveis para o modelo e o idioma selecionados, como Acherner (feminina).
- Modelo: selecione o modelo de conversão da Text-to-Speech (TTS) que você quer usar, como
Opcional: expanda a seção "Opções avançadas" para configurar as opções técnicas de áudio:
- Codificação de áudio: selecione a codificação do arquivo de áudio de saída.
LINEAR16
é um formato sem perdas e sem compressão adequado para processamento de áudio de alta qualidade. OMULAW
também está disponível para saída de áudio compactado. - Taxa de amostragem de áudio: selecione a taxa de amostragem em hertz (Hz). Isso determina a qualidade do áudio. Valores mais altos, como 44.100 Hz, representam áudio de maior fidelidade, equivalente à qualidade de CD.
- Velocidade: ajuste a taxa de fala movendo o controle deslizante ou inserindo um valor. Valores menores que 1 diminuem a velocidade da fala, e valores maiores que 1 aumentam. O padrão é 1.
- Ganho de volume (dB): ajuste o volume do áudio de saída em decibéis (dB). Valores positivos aumentam o volume, e valores negativos diminuem. O padrão é 0.
- Codificação de áudio: selecione a codificação do arquivo de áudio de saída.
Clique no ícone enviar à direita da caixa de texto para gerar o áudio.
O áudio gerado aparece no player de mídia. Clique no botão de reprodução para ouvir a saída. Você pode continuar ajustando as configurações e gerando novas versões conforme necessário.
Dicas de comandos
Para criar áudio envolvente e com som natural de texto, é necessário entender as nuances da linguagem falada e traduzi-las para um formato de script. As dicas a seguir vão ajudar você a criar scripts que pareçam autênticos e capturem o tom escolhido.
As três alavancas do controle de fala
Para ter resultados mais previsíveis e detalhados, verifique se os três componentes a seguir são consistentes com a saída desejada.
Comando de estilo O principal fator do tom emocional geral e da entrega. O comando define o contexto para todo o segmento de fala.
Exemplo:
You are an AI assistant speaking in a friendly and helpful tone.
Exemplo:
Narrate this in the calm, authoritative tone of a nature documentary narrator.
Conteúdo de texto O significado semântico das palavras que você está sintetizando. Uma frase evocativa que seja emocionalmente consistente com o comando de estilo vai produzir resultados muito mais confiáveis do que um texto neutro.
Bom: um comando para um tom assustado funciona melhor com texto como
I think someone is in the house.
Menos eficaz: um comando para um tom assustado com texto como
The meeting is at 4 PM.
vai gerar resultados ambíguos.
Tags de marcação
Tags entre colchetes, como [sigh]
, são mais adequadas para inserir uma ação específica e localizada ou uma modificação de estilo, não para definir o tom geral. Eles funcionam em conjunto com o comando de estilo e o conteúdo de texto.
Guia de tags de marcação
Nossa pesquisa mostra que as tags de marcação entre colchetes operam em um de três modos distintos. Entender o modo de uma tag é fundamental para usá-la de forma eficaz.
Modo 1: sons não verbais
A marcação é substituída por uma vocalização audível e não verbal (por exemplo, um suspiro, uma risada). A tag em si não é falada. Elas são excelentes para adicionar hesitações e reações realistas e semelhantes às humanas.
Tag | Comportamento | Confiabilidade | Orientação |
---|---|---|---|
[sigh] |
Insere um som de suspiro. | Alta | A qualidade emocional do suspiro é influenciada pelo comando. |
[laughing] |
Insere uma risada. | Alta | Para ter os melhores resultados, use um comando específico. Por exemplo, um comando genérico pode gerar uma risada de choque, enquanto "reaja com uma risada divertida" cria uma risada de diversão. |
[uhm] |
Insere um som de hesitação. | Alta | Útil para criar uma sensação mais natural e de conversa. |
Modo 2: modificadores de estilo
A marcação não é falada, mas modifica a entrega da fala subsequente. O escopo e a duração da modificação podem variar.
Tag | Comportamento | Confiabilidade | Orientação |
---|---|---|---|
[sarcasm] |
Dá um tom sarcástico à frase seguinte. | Alta | Essa tag é um modificador eficiente. Isso demonstra que conceitos abstratos podem direcionar a entrega do modelo. |
[robotic] |
Faz com que a fala subsequente soe robótica. | Alta | O efeito pode se estender por toda uma frase. Um comando de estilo de suporte (por exemplo, "Diga isso de forma robótica") ainda é recomendada para ter os melhores resultados. |
[shouting] |
Aumenta o volume da fala seguinte. | Alta | Mais eficaz quando combinado com um comando de estilo correspondente (por exemplo, "Grite esta próxima parte") e texto que implica gritos. |
[whispering] |
Diminui o volume da fala subsequente. | Alta | Os melhores resultados são alcançados quando o comando de estilo também é explícito (por exemplo, "agora sussurre esta parte o mais silenciosamente possível"). |
[extremely fast] |
Aumenta a velocidade da fala subsequente. | Alta | Ideal para avisos legais ou diálogos rápidos. Pouco suporte necessário para comandos. |
Modo 3: marcação vocalizada (adjetivos)
A tag de marcação é falada como uma palavra, além de influenciar o tom de toda a frase. Esse comportamento geralmente se aplica a adjetivos emocionais.
Aviso: como a tag é falada, esse modo provavelmente é um efeito colateral indesejado para a maioria dos casos de uso. Prefira usar o comando de estilo para definir esses tons emocionais.
Tag | Comportamento | Confiabilidade | Orientação |
---|---|---|---|
[scared] |
A palavra "assustado" é falada, e a frase adota um tom assustado. | Alta | O desempenho depende muito do conteúdo de texto. A frase "Acabei de ouvir uma janela quebrar" produz um resultado genuinamente assustado. Uma frase neutra produz um resultado "assustador", mas menos autêntico. |
[curious] |
A palavra "curioso" é falada, e a frase adota um tom curioso. | Alta | Use uma frase inquisitiva para apoiar a intenção da tag. |
[bored] |
A palavra "entediado" é falada, e a frase adota uma entonação monótona e entediada. | Alta | Use com texto comum ou repetitivo para ter o melhor efeito. |
Modo 4: ritmo e pausas
Essas tags inserem silêncio no áudio gerado, oferecendo controle granular sobre ritmo, tempo e andamento. A pontuação padrão (vírgulas, pontos, ponto e vírgulas) também cria pausas naturais, mas essas tags oferecem um controle mais explícito.
Tag | Comportamento | Confiabilidade | Orientação |
---|---|---|---|
[short pause] |
Insere uma breve pausa, semelhante a uma vírgula (~250 ms). | Alta | Use para separar cláusulas ou itens de lista para melhorar a clareza. |
[medium pause] |
Insere uma pausa padrão, semelhante a uma quebra de frase (~500 ms). | Alta | Eficaz para separar frases ou ideias distintas. |
[long pause] |
Insere uma pausa significativa para efeito dramático (~1000 ms ou mais). | Alta | Use para um efeito dramático. Por exemplo: "A resposta é... [long pause] ...não." Evite o uso excessivo, porque pode soar artificial. |
Principais estratégias para resultados confiáveis
Alinhe todas as três alavancas Para ter a máxima previsibilidade, garanta que o comando de estilo, o conteúdo de texto e as tags de marcação sejam semanticamente consistentes e trabalhem para atingir a mesma meta.
Use texto emocionalmente rico Não confie apenas em comandos e tags. Forneça ao modelo um texto descritivo e rico para trabalhar. Isso é especialmente importante para emoções sutis, como sarcasmo, medo ou empolgação.
Escreva comandos específicos e detalhados Quanto mais específico for o comando de estilo, mais confiável será o resultado. "Reaja com uma risada divertida" é melhor do que apenas
[laughing]
. "Fale como um locutor de rádio dos anos 1940" é melhor do que "Fale de um jeito antigo".Teste e verifique novas tags O comportamento de uma tag nova ou não testada nem sempre é previsível. Uma tag que você considera um modificador de estilo pode ser vocalizada. Sempre teste uma nova combinação de tag ou comando para confirmar o comportamento dela antes de implantar na produção.