Gemini-TTS es la evolución más reciente de nuestra tecnología de texto a voz, que va más allá de la voz con sonido natural y proporciona un control detallado sobre el audio generado con instrucciones basadas en texto. Con Gemini-TTS, puedes sintetizar la voz de uno o varios oradores, desde fragmentos cortos hasta narrativas completas sin perder el contexto. Además, puedes determinar con precisión el estilo, el acento, el ritmo, el tono y hasta la expresión emocional y controlarlos por medio de instrucciones en lenguaje natural.
Modelos disponibles
Gemini-TTS incluye los siguientes modelos disponibles:
TTS de Gemini 2.5 Flash
| ID de modelo | gemini-2.5-flash-tts |
|---|---|
| Optimizado para | Generación de audio de Text-to-Speech de baja latencia, controlable y con uno o varios oradores para aplicaciones cotidianas y rentables |
| Modalidades de entrada y salida |
|
| Compatibilidad con varios oradores | Un solo orador o varios |
| Formatos de audio de salida compatibles* | LINEAR16 (predeterminado), ALAW, MULAW, MP3, OGG_OPUS, PCM |
| Compatibilidad con regiones | global |
| Opciones de voz | Ver Opciones de voz |
| Idiomas disponibles | Consulta los idiomas disponibles |
| Ejemplo |
model: "gemini-2.5-flash-tts"
prompt: "Say the following"
text: "[extremely fast] Availability and terms may vary.
Check our website or your local store for complete
details and restrictions."
speaker: "Kore"
|
Gemini 2.5 Pro TTS
| ID de modelo | gemini-2.5-pro-tts |
|---|---|
| Optimizado para | Más control en flujos de trabajo estructurados, como la generación de podcasts, audiolibros, asistencia al cliente y mucho más |
| Modalidades de entrada y salida |
|
| Compatibilidad con varios oradores | Un solo orador o varios |
| Formatos de audio de salida compatibles* | LINEAR16 (predeterminado), ALAW, MULAW, MP3, OGG_OPUS, PCM |
| Compatibilidad con regiones | global |
| Opciones de voz | Ver Opciones de voz |
| Idiomas disponibles | Consulta los idiomas disponibles |
| Ejemplo |
model: "gemini-2.5-pro-tts"
prompt: "You are having a casual conversation with a friend.
Say the following in a friendly and amused way."
text: "hahah I did NOT expect that. Can you believe it!."
speaker: "Callirrhoe"
|
* solo batch. streaming no es compatible.
Controles adicionales
Los controles y las capacidades adicionales incluyen lo siguiente:
Conversación natural: Las interacciones por voz de calidad notable, la expresividad y los patrones de ritmo más adecuados se ofrecen con una latencia muy baja para que puedas conversar con fluidez.
Control de estilo: Por medio de instrucciones en lenguaje natural, puedes adaptar la entrega dentro de la conversación guiándola para que adopte acentos específicos y produzca una variedad de tonos y expresiones, incluido el susurro.
Rendimiento dinámico: Estos modelos pueden dar vida al texto para lecturas expresivas de poesía, coberturas de noticias y narraciones atractivas. También expresan emociones específicas y producen acentos cuando se solicita.
Control mejorado del ritmo y la pronunciación: Controlar la velocidad de entrega ayuda a garantizar una mayor precisión en la pronunciación, incluidas las palabras específicas.
Para obtener información sobre cómo usar estas voces en tu aplicación, consulta Usa Gemini-TTS.
Opciones de voz
Gemini-TTS ofrece una amplia variedad de opciones de voz similares a nuestras Chirp 3: Voces en HD existentes, cada una con características distintivas:
| Nombre | Género | Demostración |
|---|---|---|
| Achernar | Femenino | |
| Achird | Masculino | |
| Algenib | Masculino | |
| Algieba | Masculino | |
| Alnilam | Masculino | |
| Aoede | Femenino | |
| Autonoe | Femenino | |
| Callirrhoe | Femenino | |
| Charon | Masculino | |
| Despina | Femenino | |
| Enceladus | Masculino | |
| Erinome | Femenino | |
| Fenrir | Masculino | |
| Gacrux | Femenino | |
| Iapetus | Masculino | |
| Kore | Femenino | |
| Laomedeia | Femenino | |
| Leda | Femenino | |
| Orus | Masculino | |
| Pulcherrima | Femenino | |
| Puck | Masculino | |
| Rasalgethi | Masculino | |
| Sadachbia | Masculino | |
| Sadaltager | Masculino | |
| Schedar | Masculino | |
| Sulafat | Femenino | |
| Umbriel | Masculino | |
| Vindemiatrix | Femenino | |
| Zephyr | Femenino | |
| Zubenelgenubi | Masculino |
Idiomas disponibles
Gemini-TTS admite los siguientes idiomas:
| Idioma | Código BCP-47 | Preparación para el lanzamiento |
|---|---|---|
| Árabe (Egipto) | ar-EG | DG |
| Holandés (Países Bajos) | nl-NL | DG |
| Inglés (India) | en-IN | DG |
| Inglés (Estados Unidos) | en-US | DG |
| Francés (Francia) | fr-FR | DG |
| Alemán (Alemania) | de-DE | DG |
| Hindi (India) | hi-IN | DG |
| Indonesio (Indonesia) | id-ID | DG |
| Italiano (Italia) | it-IT | DG |
| Japonés (Japón) | ja-JP | DG |
| Coreano (Corea del Sur) | ko-KR | DG |
| Maratí (India) | mr-IN | DG |
| Polaco (Polonia) | pl-PL | DG |
| Portugués (Brasil) | pt-BR | DG |
| Rumano (Rumania) | ro-RO | DG |
| Ruso (Rusia) | ru-RU | DG |
| Español (España) | es-ES | DG |
| Tamil (India) | ta-IN | DG |
| Telugu (India) | te-IN | DG |
| Tailandés (Tailandia) | th-TH | DG |
| Turco (Türkiye) | tr-TR | DG |
| Ucraniano (Ucrania) | uk-UA | DG |
| Vietnamita (Vietnam) | vi-VN | DG |
| Afrikáans (Sudáfrica) | af-ZA | Vista previa |
| Albanés (Albania) | sq-AL | Vista previa |
| Amárico (Etiopía) | am-ET | Vista previa |
| Árabe (a nivel mundial) | ar-001 | Vista previa |
| Armenio (Armenia) | hy-AM | Vista previa |
| Azerí (Azerbaiyán) | az-AZ | Vista previa |
| Bengalí (Bangladés) | bn-BD | Vista previa |
| Vasco (España) | eu-ES | Vista previa |
| Bielorruso (Bielorrusia) | be-BY | Vista previa |
| Búlgaro (Bulgaria) | bg-BG | Vista previa |
| Birmano (Birmania) | my-MM | Vista previa |
| Catalán (España) | ca-ES | Vista previa |
| Cebuano (Filipinas) | ceb-PH | Vista previa |
| Chino, mandarín (China) | cmn-CN | Vista previa |
| Chino mandarín (Taiwán) | cmn-tw | Vista previa |
| Croata (Croacia) | hr-HR | Vista previa |
| Checo (República Checa) | cs-CZ | Vista previa |
| Danés (Dinamarca) | da-DK | Vista previa |
| Inglés (Australia) | en-AU | Vista previa |
| Inglés (Reino Unido) | en-GB | Vista previa |
| Estonio (Estonia) | et-EE | Vista previa |
| Filipino (Filipinas) | fil-PH | Vista previa |
| Finés (Finlandia) | fi-FI | Vista previa |
| Francés (Canadá) | fr-CA | Vista previa |
| Gallego (España) | gl-ES | Vista previa |
| Georgiano (Georgia) | ka-GE | Vista previa |
| Griego (Grecia) | el-GR | Vista previa |
| Guyaratí (India) | gu-IN | Vista previa |
| Criollo haitiano (Haití) | ht-HT | Vista previa |
| Hebreo (Israel) | he-IL | Vista previa |
| Húngaro (Hungría) | hu-HU | Vista previa |
| Islandés (Islandia) | is-IS | Vista previa |
| Javanés (Java) | jv-JV | Vista previa |
| Canarés (India) | kn-IN | Vista previa |
| Konkani (India) | kok-IN | Vista previa |
| Lao (Laos) | lo-LA | Vista previa |
| Latín (Ciudad del Vaticano) | la-VA | Vista previa |
| Letón (Letonia) | lv-LV | Vista previa |
| Lituano (Lituania) | lt-LT | Vista previa |
| Luxemburgués (Luxemburgo) | lb-LU | Vista previa |
| Macedonio (Macedonia del Norte) | mk-MK | Vista previa |
| Maithili (India) | mai-IN | Vista previa |
| Malgache (Madagascar) | mg-MG | Vista previa |
| Malayo (Malasia) | ms-MY | Vista previa |
| Malabar (India) | ml-IN | Vista previa |
| Mongol (Mongolia) | mn-MN | Vista previa |
| Nepalí (Nepal) | ne-NP | Vista previa |
| Noruego, Bokmål (Noruega) | nb-NO | Vista previa |
| Noruego, Nynorsk (Noruega) | nn-NO | Vista previa |
| Odia (India) | or-IN | Vista previa |
| Pastún (Afganistán) | ps-AF | Vista previa |
| Persa (Irán) | fa-IR | Vista previa |
| Portugués (Portugal) | pt-PT | Vista previa |
| Punyabí (India) | pa-IN | Vista previa |
| Serbio (Serbia) | sr-RS | Vista previa |
| Sindhi (India) | sd-IN | Vista previa |
| Cingalés (Sri Lanka) | si-LK | Vista previa |
| Eslovaco (Eslovaquia) | sk-SK | Vista previa |
| Esloveno (Eslovenia) | sl-SI | Vista previa |
| Español (América Latina) | es-419 | Vista previa |
| Español (México) | es-MX | Vista previa |
| Suajili (Kenia) | sw-KE | Vista previa |
| Sueco (Suecia) | sv-SE | Vista previa |
| Urdu (Pakistán) | ur-PK | Vista previa |
Usa Gemini-TTS
Descubre cómo usar los modelos de Gemini-TTS para sintetizar el habla de un solo orador y de varios oradores.
Antes de comenzar
Antes de poder comenzar a usar Text-to-Speech, debes habilitar la API en la consola deGoogle Cloud siguiendo estos pasos:
- Habilita Text-to-Speech en un proyecto.
- Garantiza que la facturación esté habilitada para Text-to-Speech.
- Configura la autenticación para tu entorno de desarrollo.
Configura tu proyecto de Google Cloud
Ir a la página Selector de proyectos
Puedes elegir un proyecto existente o crear uno nuevo. Para obtener más información sobre cómo crear un proyecto, consulta la documentación deGoogle Cloud .
Si creas un proyecto nuevo, aparecerá un mensaje que te informará que debes vincular una cuenta de facturación. Si usas un proyecto existente, asegúrate de habilitar la facturación.
Descubre cómo confirmar que tienes habilitada la facturación en un proyecto.
Después de seleccionar un proyecto y vincularlo a una cuenta de facturación, podrás habilitar la API de Text-to-Speech. Ve a la barra Buscar productos y recursos en la parte superior de la página y escribe "speech". Selecciona la API de Cloud Text-to-Speech en la lista de resultados.
Para probar Text-to-Speech sin vincularlo a tu proyecto, elige la opción Probar esta API. Si deseas habilitar la API de Text-to-Speech para usarla en tu proyecto, haz clic en Habilitar.
Configura la autenticación para tu entorno de desarrollo. Para obtener instrucciones, consulta Configura la autenticación para Text-to-Speech.
Realiza la síntesis síncrona de un solo orador
Python
# google-cloud-texttospeech minimum version 2.29.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize(prompt: str, text: str, output_filepath: str = "output.mp3"):
"""Synthesizes speech from the input text and saves it to an MP3 file.
Args:
prompt: Styling instructions on how to synthesize the content in
the text field.
text: The text to synthesize.
output_filepath: The path to save the generated audio file.
Defaults to "output.mp3".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
# Select the voice you want to use.
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
name="Charon", # Example voice, adjust as needed
model_name="gemini-2.5-pro-tts"
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)
# Perform the text-to-speech request on the text input with the selected
# voice parameters and audio file type.
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
# The response's audio_content is binary.
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following in a curious way",
"text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
"languageCode": "en-us",
"name": "Kore",
"model_name": "gemini-2.5-flash-tts"
},
"audioConfig": {
"audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Realiza la síntesis síncrona de varios oradores con entrada de texto de formato libre
Python
# google-cloud-texttospeech minimum version 2.31.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize_multispeaker_freeform(
prompt: str,
text: str,
output_filepath: str = "output_non_turn_based.wav",
):
"""Synthesizes speech from non-turn-based input and saves it to a WAV file.
Args:
prompt: Styling instructions on how to synthesize the content in the
text field.
text: The text to synthesize, containing speaker aliases to indicate
different speakers. Example: "Sam: Hi Bob!\nBob: Hi Sam!"
output_filepath: The path to save the generated audio file. Defaults to
"output_non_turn_based.wav".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker1",
speaker_id="Kore",
),
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker2",
speaker_id="Charon",
),
]
)
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
model_name="gemini-2.5-pro-tts",
multi_speaker_voice_config=multi_speaker_voice_config,
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.LINEAR16,
sample_rate_hertz=24000,
)
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following as a conversation between friends.",
"text": "Sam: Hi Bob, how are you?\\nBob: I am doing well, and you?"
},
"voice": {
"languageCode": "en-us",
"modelName": "gemini-2.5-flash-tts",
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [
{
"speakerAlias": "Sam",
"speakerId": "Kore"
},
{
"speakerAlias": "Bob",
"speakerId": "Charon"
}
]
}
},
"audioConfig": {
"audioEncoding": "LINEAR16",
"sampleRateHertz": 24000
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Realiza la síntesis síncrona de varios oradores con entrada de texto estructurado
La función de varios oradores con entrada de texto estructurado permite la verbalización inteligente de texto de una manera similar a la humana. Por ejemplo, este tipo de entrada es útil para direcciones y fechas. La entrada de texto libre pronuncia el texto exactamente como se escribe.
Python
# google-cloud-texttospeech minimum version 2.31.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize_multispeaker_structured(
prompt: str,
turns: list[texttospeech.MultiSpeakerMarkup.Turn],
output_filepath: str = "output_turn_based.wav",
):
"""Synthesizes speech from turn-based input and saves it to a WAV file.
Args:
prompt: Styling instructions on how to synthesize the content in the
text field.
turns: A list of texttospeech.MultiSpeakerMarkup.Turn objects representing
the dialogue turns.
output_filepath: The path to save the generated audio file. Defaults to
"output_turn_based.wav".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(
multi_speaker_markup=texttospeech.MultiSpeakerMarkup(turns=turns),
prompt=prompt,
)
multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker1",
speaker_id="Kore",
),
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker2",
speaker_id="Charon",
),
]
)
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
model_name="gemini-2.5-pro-tts",
multi_speaker_voice_config=multi_speaker_voice_config,
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.LINEAR16,
sample_rate_hertz=24000,
)
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following as a conversation between friends.",
"multiSpeakerMarkup": {
"turns": [
{
"speaker": "Sam",
"text": "Hi Bob, how are you?"
},
{
"speaker": "Bob",
"text": "I am doing well, and you?"
}
]
}
},
"voice": {
"languageCode": "en-us",
"modelName": "gemini-2.5-flash-tts",
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [
{
"speakerAlias": "Sam",
"speakerId": "Kore"
},
{
"speakerAlias": "Bob",
"speakerId": "Charon"
}
]
}
},
"audioConfig": {
"audioEncoding": "LINEAR16",
"sampleRateHertz": 24000
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Realiza la síntesis de voz en Media Studio
Puedes usar Media Studio en la consola de Google Google Cloud para experimentar con modelos de texto a voz. Esto proporciona una interfaz de usuario para generar y escuchar rápido audio sintetizado. Además, te permite experimentar con diferentes instrucciones y parámetros de estilo.
En la consola de Google Google Cloud , ve a la página Vertex AI Studio > Media Studio.
Selecciona Voz en el menú desplegable de medios.
En el campo de texto correspondiente, escribe el texto que deseas sintetizar en voz.
En el panel Configuración, establece los siguientes parámetros:
- Modelo: Selecciona el modelo de texto a voz (TTS) que deseas usar, como
Gemini 2.5 Pro TTS. Para obtener más información sobre los modelos disponibles, consulta Modelos de Text-to-Speech. - Instrucciones de estilo: Escribe una instrucción de texto que describa el estilo de habla, el tono y la expresión emocional seleccionados (opcional). Esto te permite guiar el rendimiento del modelo más allá de la narración predeterminada. Por ejemplo: "Narra con un tono tranquilo y profesional para un documental".
- Idioma: Selecciona el idioma y la región del texto de entrada. El modelo genera voz en el idioma y el acento seleccionados. Por ejemplo, Inglés (Estados Unidos).
- Voz: Elige una voz predefinida para la narración. La lista contiene las voces disponibles para el modelo y el idioma seleccionados, como Acherner (femenino).
- Modelo: Selecciona el modelo de texto a voz (TTS) que deseas usar, como
Expande la sección Opciones avanzadas para configurar los parámetros de configuración de audio técnico (opcional):
- Codificación de audio: Selecciona la codificación para el archivo de audio de salida.
LINEAR16es un formato sin pérdidas y sin comprimir adecuado para el procesamiento de audio de alta calidad.MULAWtambién está disponible para la salida de audio comprimido. - Tasa de muestreo de audio: Selecciona la tasa de muestreo en hercios (Hz). Esto determina la calidad del audio. Los valores más altos, como 44,100 Hz, representan un audio de mayor fidelidad, equivalente a la calidad de un CD.
- Velocidad: Mueve el control deslizante o ingresa un valor para ajustar la velocidad de habla. Los valores inferiores a 1 ralentizan el habla, y los valores superiores a 1 la aceleran. El valor predeterminado es 1.
- Aumento de volumen (dB): Ajusta el volumen del audio de salida en decibeles (dB). Los valores positivos aumentan el volumen, y los negativos lo disminuyen. El valor predeterminado es 0.
- Codificación de audio: Selecciona la codificación para el archivo de audio de salida.
Haz clic en el ícono de enviar a la derecha del cuadro de texto para generar el audio.
El audio generado aparecerá en el reproductor multimedia. Haz clic en el botón de reproducción para escuchar el resultado. Puedes seguir ajustando la configuración y generar versiones nuevas según sea necesario.
Sugerencias para escribir instrucciones
Para crear un audio atractivo y natural a partir de texto, es necesario comprender los matices del lenguaje hablado y traducirlos a formato de guion. Las siguientes sugerencias te ayudarán a crear guiones que suenen auténticos y capten el tono elegido.
Las tres palancas del control del habla
Para obtener los resultados más predecibles y matizados, asegúrate de que los tres componentes siguientes sean coherentes con el resultado deseado.
Instrucción de estilo: Es el principal factor determinante del tono emocional general y la presentación. La instrucción establece el contexto para todo el segmento de voz.
Ejemplo:
You are an AI assistant speaking in a friendly and helpful tone.Ejemplo:
Narrate this in the calm, authoritative tone of a nature documentary narrator.
Contenido de texto: Es el significado semántico de las palabras que sintetizas. Una frase evocadora que sea coherente desde el punto de vista emocional con la instrucción de estilo producirá resultados mucho más confiables que un texto neutro.
Eficaz: Una instrucción para un tono asustado funciona mejor con un texto como
I think someone is in the house.Menos eficaz: Se producirán resultados ambiguos si se proporciona una instrucción para un tono asustado con un texto como
The meeting is at 4 PM..
Etiquetas de lenguaje de marcado:
Las etiquetas entre corchetes, como [sigh], se usan mejor para insertar una acción o una modificación de estilo específicas y localizadas, pero no para establecer el tono general. Funcionan en conjunto con la instrucción de estilo y el contenido de texto.
Guía de etiquetas de lenguaje de marcado
Nuestra investigación demuestra que las etiquetas de marcado entre corchetes operan en uno de tres modos distintos. Comprender el modo de una etiqueta es clave para usarla con eficacia.
Modo 1: Sonidos no verbales
El marcado se reemplaza por una vocalización audible no hablada (p. ej., un suspiro o una risa). La etiqueta en sí no se pronuncia. Son excelentes para agregar dudas y reacciones realistas y similares a las humanas.
| Etiqueta | Comportamiento | Confiabilidad | Orientación |
|---|---|---|---|
[sigh] |
Inserta un sonido de suspiro. | Alta | La instrucción influye en la calidad emocional del suspiro. |
[laughing] |
Inserta una risa. | Alta | Para obtener mejores resultados, usa una instrucción específica. P. ej., una instrucción genérica puede generar una risa de sorpresa, mientras que "reacciona con una risa divertida" genera una risa de diversión. |
[uhm] |
Inserta un sonido de duda. | Alta | Es útil para crear un ambiente más natural y conversacional. |
Modo 2: Modificadores de estilo
El marcado no se pronuncia, pero modifica la entrega del discurso posterior. El alcance y la duración de la modificación pueden variar.
| Etiqueta | Comportamiento | Confiabilidad | Orientación |
|---|---|---|---|
[sarcasm] |
Le da un tono sarcástico a la siguiente frase. | Alta | Esta etiqueta es un modificador potente. Demuestra que los conceptos abstractos pueden guiar con éxito la entrega del modelo. |
[robotic] |
Hace que el habla posterior suene robótica. | Alta | El efecto puede extenderse a toda una frase. Una instrucción de estilo que brinde asistencia (p. ej., "Dilo de forma robótica") sigue siendo la recomendación para obtener mejores resultados. |
[shouting] |
Aumenta el volumen del discurso posterior. | Alta | Es más eficaz cuando se combina con una instrucción de estilo coincidente (p. ej., "Grita esta próxima parte") y texto que implica gritos. |
[whispering] |
Disminuye el volumen del discurso posterior. | Alta | Los mejores resultados se obtienen cuando el mensaje de estilo también es explícito (p. ej., "Ahora susurra esta parte lo más silenciosamente posible"). |
[extremely fast] |
Aumenta la velocidad del habla posterior. | Alta | Es ideal para avisos importantes o diálogos rápidos. Se necesita asistencia mínima con las instrucciones. |
Modo 3: Marcas vocalizadas (adjetivos)
La etiqueta de marcado se pronuncia como una palabra y, al mismo tiempo, influye en el tono de toda la oración. Por lo general, este comportamiento se aplica a los adjetivos emocionales.
Advertencia: Debido a que la etiqueta se pronuncia, es probable que este modo sea un efecto secundario no deseado para la mayoría de los casos de uso. En su lugar, te recomendamos que uses la instrucción de estilo para establecer estos tonos emocionales.
| Etiqueta | Comportamiento | Confiabilidad | Orientación |
|---|---|---|---|
[scared] |
Se pronuncia la palabra "asustado", y la oración adopta un tono de temor. | Alta | El rendimiento depende en gran medida del contenido de texto. La frase "Acabo de oír que se rompió una ventana" produce un resultado con un tono temeroso real. Una frase neutra produce un resultado "espeluznante" pero menos auténtico. |
[curious] |
Se pronuncia la palabra "curioso" y la oración adopta este tono. | Alta | Usa una frase inquisitiva para respaldar la intención de la etiqueta. |
[bored] |
Se pronuncia la palabra "aburrido", y la oración adopta un tono monótono y aburrido. | Alta | Úsala con texto repetitivo o común para obtener el mejor efecto. |
Modo 4: Ritmo y pausas
Estas etiquetas insertan silencio en el audio generado, lo que te brinda un control detallado sobre el ritmo, la sincronización y la velocidad. La puntuación estándar (comas, puntos, puntos y comas) también creará pausas naturales, pero estas etiquetas ofrecen un control más explícito.
| Etiqueta | Comportamiento | Confiabilidad | Orientación |
|---|---|---|---|
[short pause] |
Inserta una breve pausa, similar a una coma (aproximadamente 250 ms). | Alta | Se usa para separar cláusulas o elementos de una lista y mejorar la claridad. |
[medium pause] |
Inserta una pausa estándar, similar a una pausa entre oraciones (aproximadamente 500 ms). | Alta | Es eficaz para separar oraciones o ideas distintas. |
[long pause] |
Inserta una pausa significativa para generar un efecto dramático (más de unos 1,000 ms). | Alta | Úsalo para crear un efecto dramático. Por ejemplo: "La respuesta es… [long pause]… no". Evita el uso excesivo, ya que puede sonar poco natural. |
Estrategias clave para obtener resultados confiables
Alinea los tres factores para lograr la máxima previsibilidad, asegúrate de que tu instrucción de estilo, el contenido de texto y las etiquetas de marcado sean coherentes semánticamente y contribuyan al mismo objetivo.
Usa texto enriquecido con emociones. No te bases solo en instrucciones y etiquetas. Proporciona al modelo texto descriptivo y enriquecido para que trabaje con él. Esto es muy importante para las emociones sutiles, como el sarcasmo, el miedo o el entusiasmo.
Escribe instrucciones específicas y detalladas. Cuanto más específica sea tu instrucción de estilo, más confiable será el resultado. "Reacciona con una risa divertida" es mejor que solo
[laughing]. "Habla como un locutor de noticias de radio de la década de 1940" es mejor que "Habla de una manera anticuada".Prueba y verifica las etiquetas nuevas. El comportamiento de una etiqueta nueva o no probada no siempre es predecible. Es posible que se vocalice una etiqueta que crees que es un modificador de estilo. Siempre prueba una nueva combinación de etiquetas o instrucciones para confirmar su comportamiento antes de implementarla en la producción.