![]() |
![]() |
Gemini-TTS es la última evolución de nuestra tecnología de conversión de texto a voz, que va más allá de la naturalidad para ofrecer un control granular sobre el audio generado mediante peticiones basadas en texto. Con Gemini-TTS, puedes sintetizar la voz de uno o varios hablantes a partir de fragmentos cortos o narraciones completas, dictando con precisión el estilo, el acento, el ritmo, el tono e incluso la expresión emocional, todo ello mediante peticiones en lenguaje natural.
Para explorar este modelo en la consola, consulta la tarjeta del modelo Gemini-TTS en Model Garden (a la que se puede acceder mediante la pestaña Media Studio).
Probar Gemini TTS en Vertex AI (Vertex AI Studio)
Las funciones de Gemini TTS son compatibles con lo siguiente:
gemini-2.5-flash-tts
: Gemini 2.5 Flash TTS es una buena opción para aplicaciones de TTS cotidianas y rentables.gemini-2.5-pro-tts
: Gemini 2.5 Pro TTS es un modelo adecuado para generar voz de forma controlada (TTS) y para obtener una calidad de vanguardia en peticiones complejas.
Modelo | Optimizado para | Modalidad de entrada | Modalidad de salida | Un interlocutor | Varios interlocutores |
---|---|---|---|---|---|
Gemini 2.5 Flash TTS | Generación de audio de conversión de texto a voz con baja latencia, controlable y para uno o varios interlocutores para aplicaciones cotidianas rentables | Texto | Audio | ✔️ | ✔️ |
Gemini 2.5 Pro TTS | Alto control para flujos de trabajo estructurados, como la generación de pódcasts, audiolibros o asistencia al cliente, entre otros | Texto | Audio | ✔️ | ✔️ |
Entre los controles y las funciones adicionales se incluyen los siguientes:
Conversación natural: las interacciones de voz de una calidad extraordinaria, una expresividad más adecuada y una prosodia (patrones de ritmo) se ofrecen con una latencia muy baja para que puedas conversar con fluidez.
Control del estilo: mediante peticiones de lenguaje natural, puedes adaptar la conversación para que adopte acentos específicos y produzca una variedad de tonos y expresiones, incluido un susurro.
Rendimiento dinámico: estos modelos pueden dar vida al texto para ofrecer lecturas expresivas de poesía, noticias y narraciones atractivas. También pueden actuar con emociones concretas y producir acentos cuando se les pide.
Control mejorado del ritmo y la pronunciación: controlar la velocidad de la lectura ayuda a mejorar la precisión de la pronunciación, incluidas palabras concretas.
Ejemplos
model: "gemini-2.5-pro-tts" prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way." text: "hahah I did NOT expect that. Can you believe it!." speaker: "Callirhoe"
model: "gemini-2.5-flash-tts" prompt: "Say the following in a curious way" text: "OK, so... tell me about this [uhm] AI thing.", speaker: "Orus"
model: "gemini-2.5-flash-tts" prompt: "Say the following" text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions." speaker: "Kore"
Para obtener información sobre cómo usar estas voces mediante programación, consulta la sección Gemini-TTS.
Opciones de voz
Gemini TTS ofrece una amplia gama de opciones de voz similares a las voces en HD de Chirp 3, cada una con características distintas:
Nombre | Sexo | Demostración |
---|---|---|
Achernar | Mujeres | |
Achird | Hombres | |
Algenib | Hombres | |
Algieba | Hombres | |
Alnilam | Hombres | |
Aoede | Mujeres | |
Autónoe | Mujeres | |
Callirrhoe | Mujeres | |
Charon | Hombres | |
Despina | Mujeres | |
Encélado | Hombres | |
Erinome | Mujeres | |
Fenrir | Hombres | |
Gacrux | Mujeres | |
Jápeto | Hombres | |
Kore | Mujeres | |
Laomedeia | Mujeres | |
Leda | Mujeres | |
Orus | Hombres | |
Pulcherrima | Mujeres | |
Puck | Hombres | |
Rasalgethi | Hombres | |
Sadachbia | Hombres | |
Sadaltager | Hombres | |
Schedar | Hombres | |
Sulafat | Mujeres | |
Umbriel | Hombres | |
Vindemiatrix | Mujeres | |
Zephyr | Mujeres | |
Zubenelgenubi | Hombres |
Idiomas disponibles
Gemini TTS admite los siguientes idiomas:
Idioma | Código BCP-47 | Preparación para el lanzamiento |
---|---|---|
Árabe (Egipto) | ar-EG | GA |
Neerlandés (Países Bajos) | nl-NL | GA |
Inglés (India) | en-IN | GA |
Inglés (EE. UU.) | en-US | GA |
Francés (Francia) | fr-FR | GA |
Alemán (Alemania) | de-DE | GA |
Hindi (India) | hi-IN | GA |
Indonesio (Indonesia) | id-ID | GA |
Italiano (Italia) | it-IT | GA |
Japonés (Japón) | ja-JP | GA |
Coreano (Corea del Sur) | ko-KR | GA |
Maratí (India) | mr-IN | GA |
Polaco (Polonia) | pl-PL | GA |
Portugués (Brasil) | pt-BR | GA |
Rumano (Rumanía) | ro-RO | GA |
Ruso (Rusia) | ru-RU | GA |
Español (España) | es-ES | GA |
Tamil (India) | ta-IN | GA |
Telugu (India) | te-IN | GA |
Tailandés (Tailandia) | th-TH | GA |
Turco (Turquía) | tr-TR | GA |
Ucraniano (Ucrania) | uk-UA | GA |
Vietnamita (Vietnam) | vi-VN | GA |
Afrikáans (Sudáfrica) | af-ZA | Vista previa |
Albanés (Albania) | sq-AL | Vista previa |
Amárico (Etiopía) | am-ET | Vista previa |
Árabe (Mundo) | ar-001 | Vista previa |
Armenio (Armenia) | hy-AM | Vista previa |
Azerbaiyano (Azerbaiyán) | az-AZ | Vista previa |
Bengalí (Bangladesh) | bn-bd | Vista previa |
Euskera (España) | eu-ES | Vista previa |
Bielorruso (Bielorrusia) | be-BY | Vista previa |
Búlgaro (Bulgaria) | bg-BG | Vista previa |
Birmano (Myanmar) | my-MM | Vista previa |
Catalán (España) | ca-ES | Vista previa |
Cebuano (Filipinas) | ceb-PH | Vista previa |
Chino mandarín (China) | cmn-cn | Vista previa |
Chino mandarín (Taiwán) | cmn-tw | Vista previa |
Croata (Croacia) | hr-HR | Vista previa |
Checo (República Checa) | cs-CZ | Vista previa |
Danés (Dinamarca) | da-DK | Vista previa |
Inglés (Australia) | en-AU | Vista previa |
Inglés (Reino Unido) | en-GB | Vista previa |
Estonio (Estonia) | et-EE | Vista previa |
Filipino (Filipinas) | fil-PH | Vista previa |
Finés (Finlandia) | fi-FI | Vista previa |
Francés (Canadá) | fr-CA | Vista previa |
Gallego (España) | gl-ES | Vista previa |
Georgiano (Georgia) | ka-GE | Vista previa |
Griego (Grecia) | el-GR | Vista previa |
Guyaratí (India) | gu-IN | Vista previa |
Criollo haitiano (Haití) | ht-HT | Vista previa |
Hebreo (Israel) | he-IL | Vista previa |
Húngaro (Hungría) | hu-HU | Vista previa |
Islandés (Islandia) | is-IS | Vista previa |
Javanés (Java) | jv-JV | Vista previa |
Canarés (India) | kn-IN | Vista previa |
Konkani (India) | kok-in | Vista previa |
Lao (Laos) | lo-LA | Vista previa |
Latín (Ciudad del Vaticano) | la-VA | Vista previa |
Letón (Letonia) | lv-LV | Vista previa |
Lituano (Lituania) | lt-IT | Vista previa |
Luxemburgués (Luxemburgo) | lb-LU | Vista previa |
Macedonio (Macedonia del Norte) | mk-MK | Vista previa |
Maithili (India) | mai-IN | Vista previa |
Malgache (Madagascar) | mg-MG | Vista previa |
Malayo (Malasia) | ms-MY | Vista previa |
Malayalam (India) | ml-IN | Vista previa |
Mongol (Mongolia) | mn-MN | Vista previa |
Nepalí (Nepal) | ne-NP | Vista previa |
Noruego (bokmål) (Noruega) | nb-NO | Vista previa |
Noruego (Nynorsk) (Noruega) | nn-NO | Vista previa |
Oriya (India) | or-IN | Vista previa |
Pastún (Afganistán) | ps-AF | Vista previa |
Persa (Irán) | fa-IR | Vista previa |
Portugués (Portugal) | pt-PT | Vista previa |
Panyabí (India) | pa-IN | Vista previa |
Serbio (Serbia) | sr-RS | Vista previa |
Sindhi (India) | sd-IN | Vista previa |
Cingalés (Sri Lanka) | si-LK | Vista previa |
Eslovaco (Eslovaquia) | sk-SK | Vista previa |
Esloveno (Eslovenia) | sl-SI | Vista previa |
Español (Latinoamérica) | es-419 | Vista previa |
Español (México) | es-MX | Vista previa |
Suajili (Kenia) | sw-KE | Vista previa |
Sueco (Suecia) | sv-SE | Vista previa |
Urdu (Pakistán) | ur-PK | Vista previa |
Disponibilidad regional
Los modelos de Gemini TTS están disponibles en las siguientes Google Cloud regiones:
Google Cloud zona | Preparación para el lanzamiento |
---|---|
global |
GA |
Formatos de salida admitidos
El formato de respuesta predeterminado es LINEAR16
. Otros formatos admitidos son los siguientes:
Método de la API | Formato |
---|---|
batch |
ALAW, MULAW, MP3, OGG_OPUS y PCM |
streaming |
No compatible |
Usar Gemini-TTS
Descubre cómo usar los modelos de Gemini-TTS para sintetizar la voz de un solo interlocutor y de varios.
Antes de empezar
Para empezar a usar Text-to-Speech, debes habilitar la API en la consolaGoogle Cloud siguiendo estos pasos:
- Habilita Text-to-Speech en un proyecto.
- Asegúrate de que la facturación esté habilitada en Text-to-Speech.
- Configura la autenticación para tu entorno de desarrollo.
Configurar un Google Cloud proyecto
Ir a la página del selector de proyectos
Puedes elegir un proyecto que ya tengas o crear uno. Para obtener más información sobre cómo crear un proyecto, consulta la Google Cloud documentación.
Si creas un proyecto, aparecerá un mensaje en el que se te informará de que debes vincular una cuenta de facturación. Si usas un proyecto que ya tenías, asegúrate de habilitar la facturación
Consulta cómo confirmar que la facturación está habilitada en tu proyecto.
Una vez que hayas seleccionado un proyecto y lo hayas vinculado a una cuenta de facturación, puedes habilitar la API Text-to-Speech. Vaya a la barra Buscar productos y recursos, situada en la parte superior de la página, y escriba "voz". Selecciona la API Text-to-Speech de Cloud en la lista de resultados.
Para probar Text-to-Speech sin vincularla a tu proyecto, elige la opción Probar esta API. Para habilitar la API Text-to-Speech en tu proyecto, haz clic en Habilitar.
Configura la autenticación para tu entorno de desarrollo. Para obtener instrucciones, consulta el artículo Configurar la autenticación para la conversión de texto a voz.
Realizar una síntesis síncrona de un solo interlocutor
Python
# google-cloud-texttospeech minimum version 2.29.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize(prompt: str, text: str, output_filepath: str = "output.mp3"):
"""Synthesizes speech from the input text and saves it to an MP3 file.
Args:
prompt: Styling instructions on how to synthesize the content in
the text field.
text: The text to synthesize.
output_filepath: The path to save the generated audio file.
Defaults to "output.mp3".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
# Select the voice you want to use.
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
name="Charon", # Example voice, adjust as needed
model_name="gemini-2.5-pro-tts"
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)
# Perform the text-to-speech request on the text input with the selected
# voice parameters and audio file type.
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
# The response's audio_content is binary.
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following in a curious way",
"text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
"languageCode": "en-us",
"name": "Kore",
"model_name": "gemini-2.5-flash-tts"
},
"audioConfig": {
"audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Realizar una síntesis síncrona de varios interlocutores con entrada de texto libre
Python
# google-cloud-texttospeech minimum version 2.31.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize_multispeaker_freeform(
prompt: str,
text: str,
output_filepath: str = "output_non_turn_based.wav",
):
"""Synthesizes speech from non-turn-based input and saves it to a WAV file.
Args:
prompt: Styling instructions on how to synthesize the content in the
text field.
text: The text to synthesize, containing speaker aliases to indicate
different speakers. Example: "Sam: Hi Bob!\nBob: Hi Sam!"
output_filepath: The path to save the generated audio file. Defaults to
"output_non_turn_based.wav".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker1",
speaker_id="Kore",
),
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker2",
speaker_id="Charon",
),
]
)
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
model_name="gemini-2.5-pro-tts",
multi_speaker_voice_config=multi_speaker_voice_config,
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.LINEAR16,
sample_rate_hertz=24000,
)
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following as a conversation between friends.",
"text": "Sam: Hi Bob, how are you?\\nBob: I am doing well, and you?"
},
"voice": {
"languageCode": "en-us",
"modelName": "gemini-2.5-flash-tts",
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [
{
"speakerAlias": "Sam",
"speakerId": "Kore"
},
{
"speakerAlias": "Bob",
"speakerId": "Charon"
}
]
}
},
"audioConfig": {
"audioEncoding": "LINEAR16",
"sampleRateHertz": 24000
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Realizar una síntesis multilocutor síncrona con una entrada de texto estructurada
La función de varios interlocutores con entrada de texto estructurado permite verbalizar de forma inteligente el texto de una forma similar a la humana. Por ejemplo, este tipo de entrada es útil para direcciones y fechas. La entrada de texto libre pronuncia el texto exactamente como se escribe.
Python
# google-cloud-texttospeech minimum version 2.31.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize_multispeaker_structured(
prompt: str,
turns: list[texttospeech.MultiSpeakerMarkup.Turn],
output_filepath: str = "output_turn_based.wav",
):
"""Synthesizes speech from turn-based input and saves it to a WAV file.
Args:
prompt: Styling instructions on how to synthesize the content in the
text field.
turns: A list of texttospeech.MultiSpeakerMarkup.Turn objects representing
the dialogue turns.
output_filepath: The path to save the generated audio file. Defaults to
"output_turn_based.wav".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(
multi_speaker_markup=texttospeech.MultiSpeakerMarkup(turns=turns),
prompt=prompt,
)
multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker1",
speaker_id="Kore",
),
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker2",
speaker_id="Charon",
),
]
)
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
model_name="gemini-2.5-pro-tts",
multi_speaker_voice_config=multi_speaker_voice_config,
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.LINEAR16,
sample_rate_hertz=24000,
)
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following as a conversation between friends.",
"multiSpeakerMarkup": {
"turns": [
{
"speaker": "Sam",
"text": "Hi Bob, how are you?"
},
{
"speaker": "Bob",
"text": "I am doing well, and you?"
}
]
}
},
"voice": {
"languageCode": "en-us",
"modelName": "gemini-2.5-flash-tts",
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [
{
"speakerAlias": "Sam",
"speakerId": "Kore"
},
{
"speakerAlias": "Bob",
"speakerId": "Charon"
}
]
}
},
"audioConfig": {
"audioEncoding": "LINEAR16",
"sampleRateHertz": 24000
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Usar la síntesis de voz en Media Studio
Puedes usar Media Studio en la consola de Google Google Cloud para experimentar con modelos de conversión de texto a voz. De esta forma, se proporciona una interfaz de usuario para generar rápidamente audio sintetizado, escucharlo y experimentar con diferentes instrucciones y parámetros de estilo.
En la consola de Google Google Cloud , ve a la página Vertex AI Studio > Media Studio.
Selecciona Voz en el menú desplegable de contenido multimedia.
En el campo de texto, escribe el texto que quieras convertir en voz.
En el panel Configuración, configure los siguientes ajustes:
- Modelo: selecciona el modelo de conversión de texto a voz que quieras usar, como
Gemini 2.5 Pro TTS
. Para obtener más información sobre los modelos disponibles, consulta Modelos de conversión de texto a voz. - Instrucciones de estilo: opcional. Introduce una petición de texto que describa el estilo, el tono y la forma de transmitir las emociones que hayas seleccionado. De esta forma, puedes guiar el rendimiento del modelo más allá de la narración predeterminada. Por ejemplo: "Narra con un tono tranquilo y profesional para un documental".
- Idioma: selecciona el idioma y la región del texto de entrada. El modelo genera la voz en el idioma y el acento seleccionados. Por ejemplo, Inglés (Estados Unidos).
- Voz: elige una voz predefinida para la narración. La lista contiene las voces disponibles para el modelo y el idioma seleccionados, como Acherner (mujer).
- Modelo: selecciona el modelo de conversión de texto a voz que quieras usar, como
Opcional: Despliega la sección Opciones avanzadas para configurar los ajustes técnicos de audio:
- Codificación de audio: selecciona la codificación del archivo de audio de salida.
LINEAR16
es un formato sin comprimir y sin pérdidas adecuado para el procesamiento de audio de alta calidad.MULAW
también está disponible para la salida de audio comprimido. - Frecuencia de muestreo de audio: selecciona la frecuencia de muestreo en hercios (Hz). Esto determina la calidad del audio. Los valores más altos, como 44.100 Hz, representan un audio de mayor fidelidad, equivalente a la calidad de un CD.
- Velocidad: ajusta la velocidad de elocución moviendo el control deslizante o introduciendo un valor. Los valores inferiores a 1 ralentizan el habla, mientras que los superiores a 1 la aceleran. El valor predeterminado es 1.
- Ganancia de volumen (dB): ajusta el volumen del audio de salida en decibelios (dB). Los valores positivos aumentan el volumen y los negativos lo reducen. El valor predeterminado es 0.
- Codificación de audio: selecciona la codificación del archivo de audio de salida.
Haz clic en el icono Enviar situado a la derecha del cuadro de texto para generar el audio.
El audio generado aparece en el reproductor multimedia. Haz clic en el botón de reproducción para escuchar el resultado. Puedes seguir ajustando la configuración y generar nuevas versiones según sea necesario.
Consejos para hacer peticiones
Para crear audio atractivo y natural a partir de texto, es necesario comprender los matices del lenguaje hablado y traducirlos a formato de guion. Los siguientes consejos te ayudarán a escribir guiones que suenen auténticos y reflejen el tono elegido.
Los tres pilares del control del habla
Para obtener resultados más predecibles y matizados, asegúrate de que los tres componentes siguientes se ajusten al resultado que quieres obtener.
Petición de estilo Es el factor principal que determina el tono emocional y la forma de expresarse en general. La petición define el contexto de todo el segmento de voz.
Ejemplo:
You are an AI assistant speaking in a friendly and helpful tone.
Ejemplo:
Narrate this in the calm, authoritative tone of a nature documentary narrator.
Contenido de texto: el significado semántico de las palabras que estás sintetizando. Una frase evocadora que sea coherente a nivel emocional con la petición de estilo dará resultados mucho más fiables que un texto neutro.
Bien: una petición para un tono asustado funciona mejor con un texto como
I think someone is in the house.
Menos eficaz: una petición para que se use un tono de miedo con texto como
The meeting is at 4 PM.
dará resultados ambiguos.
Etiquetas de marcado
Las etiquetas entre corchetes, como [sigh]
, son las más adecuadas para insertar una acción o una modificación de estilo específicas y localizadas, no para definir el tono general. Funcionan conjuntamente con la petición de estilo y el contenido de texto.
Guía de etiquetas de marcado
Nuestros estudios demuestran que las etiquetas de marcas entre corchetes funcionan en uno de los tres modos distintos. Para usar una etiqueta de forma eficaz, es fundamental entender su modo.
Modo 1: Sonidos no verbales
El marcado se sustituye por una vocalización audible que no es verbal (por ejemplo, un suspiro o una risa). La etiqueta en sí no se pronuncia. Son excelentes para añadir dudas y reacciones realistas y similares a las humanas.
Etiqueta | Comportamiento | Fiabilidad | Asesoramiento |
---|---|---|---|
[sigh] |
Inserta un sonido de suspiro. | Alta | La calidad emocional del suspiro se ve influida por la petición. |
[laughing] |
Inserta una risa. | Alta | Para obtener los mejores resultados, usa una petición específica. Por ejemplo, una petición genérica puede generar una risa de sorpresa, mientras que "reacciona con una risa divertida" crea una risa de diversión. |
[uhm] |
Inserta un sonido de duda. | Alta | Útil para crear un ambiente más natural y conversacional. |
Modo 2: Modificadores de estilo
El marcado no se pronuncia, pero modifica la pronunciación del texto posterior. El alcance y la duración de la modificación pueden variar.
Etiqueta | Comportamiento | Fiabilidad | Asesoramiento |
---|---|---|---|
[sarcasm] |
Añade un tono sarcástico a la frase siguiente. | Alta | Esta etiqueta es un modificador potente. Demuestra que los conceptos abstractos pueden dirigir con éxito la entrega del modelo. |
[robotic] |
Hace que la voz posterior suene robótica. | Alta | El efecto puede abarcar toda una frase. Una petición de estilo de apoyo (por ejemplo, "Dilo con voz robótica") sigue siendo la opción recomendada para obtener los mejores resultados. |
[shouting] |
Aumenta el volumen de la voz posterior. | Alta | Es más eficaz cuando se combina con una petición de estilo coincidente (por ejemplo, Grita esta parte") y texto que implique gritos. |
[whispering] |
Reduce el volumen de la voz posterior. | Alta | Para obtener los mejores resultados, la petición de estilo también debe ser explícita (por ejemplo, Ahora susurra esta parte lo más suavemente posible"). |
[extremely fast] |
Aumenta la velocidad de la voz posterior. | Alta | Ideal para avisos o diálogos rápidos. Necesita una asistencia mínima para las peticiones. |
Modo 3: Marcado vocalizado (adjetivos)
La propia etiqueta de marcado se pronuncia como una palabra, al tiempo que influye en el tono de toda la frase. Este comportamiento suele aplicarse a los adjetivos que expresan emociones.
Advertencia: Como la etiqueta se pronuncia, es probable que este modo sea un efecto secundario no deseado en la mayoría de los casos prácticos. Te recomendamos que uses la petición de estilo para definir estos tonos emocionales.
Etiqueta | Comportamiento | Fiabilidad | Asesoramiento |
---|---|---|---|
[scared] |
Se pronuncia la palabra "asustado" y la frase adopta un tono de miedo. | Alta | El rendimiento depende en gran medida del contenido de texto. La frase "I just heard a window break" (Acabo de oír cómo se rompe una ventana) produce un resultado que da miedo de verdad. Una frase neutra produce un resultado "espeluznante", pero menos auténtico. |
[curious] |
Se pronuncia la palabra "curioso" y la frase adopta un tono curioso. | Alta | Usa una frase inquisitiva para apoyar la intención de la etiqueta. |
[bored] |
Se pronuncia la palabra "aburrido" y la frase se dice con un tono aburrido y monótono. | Alta | Úsalo con texto monótono o repetitivo para obtener el mejor efecto. |
Modo 4: Ritmo y pausas
Estas etiquetas insertan silencio en el audio generado, lo que te permite controlar el ritmo, los tiempos y el compás de forma granular. La puntuación estándar (comas, puntos, puntos y comas) también creará pausas naturales, pero estas etiquetas ofrecen un control más explícito.
Etiqueta | Comportamiento | Fiabilidad | Asesoramiento |
---|---|---|---|
[short pause] |
Inserta una breve pausa, similar a una coma (unos 250 ms). | Alta | Se usa para separar cláusulas o elementos de una lista para que se entiendan mejor. |
[medium pause] |
Inserta una pausa estándar, similar a la que se hace entre frases (unos 500 ms). | Alta | Es eficaz para separar frases o ideas distintas. |
[long pause] |
Inserta una pausa significativa para crear un efecto dramático (más de 1000 ms). | Alta | Usar para crear un efecto dramático. Por ejemplo: "La respuesta es... [long pause] ...no". No abuses de ellas, ya que pueden sonar poco naturales. |
Estrategias clave para obtener resultados fiables
Alinea las tres palancas Para que los resultados sean lo más predecibles posible, asegúrate de que el prompt de estilo, el contenido de texto y las etiquetas de marcado sean coherentes desde el punto de vista semántico y estén orientados al mismo objetivo.
Usa texto con carga emocional No te limites a usar peticiones y etiquetas. Proporciona al modelo un texto enriquecido y descriptivo con el que trabajar. Esto es especialmente importante en el caso de las emociones sutiles, como el sarcasmo, el miedo o la emoción.
Escribe peticiones específicas y detalladas Cuanto más específica sea tu petición de estilo, más fiable será el resultado. "Reacciona con una risa divertida" es mejor que solo
[laughing]
. "Habla como un locutor de noticias de radio de los años 40" es mejor que "Habla de forma antigua".Probar y verificar etiquetas nuevas El comportamiento de una etiqueta nueva o no probada no siempre es predecible. Es posible que se vocalice una etiqueta que crees que es un modificador de estilo. Prueba siempre una nueva combinación de etiqueta o petición para confirmar su comportamiento antes de implementarla en producción.