Gemini-TTS

Probar Gemini-TTS en Vertex AI Studio Probar en Colab Ver notebook en GitHub

Gemini-TTS es la evolución más reciente de nuestra tecnología de texto a voz, que va más allá de la voz con sonido natural y proporciona un control detallado sobre el audio generado con instrucciones basadas en texto. Con Gemini-TTS, puedes sintetizar la voz de uno o varios oradores, desde fragmentos cortos hasta narrativas completas sin perder el contexto. Además, puedes determinar con precisión el estilo, el acento, el ritmo, el tono y hasta la expresión emocional y controlarlos por medio de instrucciones en lenguaje natural.

Modelos disponibles

Gemini-TTS incluye los siguientes modelos disponibles:

TTS de Gemini 2.5 Flash

ID de modelo	`gemini-2.5-flash-tts`
Optimizado para	Generación de audio de Text-to-Speech de baja latencia, controlable y con uno o varios oradores para aplicaciones cotidianas y rentables
Modalidades de entrada y salida	Entrada: Texto Salida: Audio
Compatibilidad con varios oradores	Un solo orador o varios
Formatos de audio de salida compatibles^*	`LINEAR16` (predeterminado), `ALAW`, `MULAW`, `MP3`, `OGG_OPUS`, `PCM`
Compatibilidad con regiones	`global`
Opciones de voz	Ver Opciones de voz
Idiomas disponibles	Consulta los idiomas disponibles
Ejemplo	model: "gemini-2.5-flash-tts" prompt: "Say the following" text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions." speaker: "Kore"

Gemini 2.5 Pro TTS

ID de modelo	`gemini-2.5-pro-tts`
Optimizado para	Más control en flujos de trabajo estructurados, como la generación de podcasts, audiolibros, asistencia al cliente y mucho más
Modalidades de entrada y salida	Entrada: Texto Salida: Audio
Compatibilidad con varios oradores	Un solo orador o varios
Formatos de audio de salida compatibles^*	`LINEAR16` (predeterminado), `ALAW`, `MULAW`, `MP3`, `OGG_OPUS`, `PCM`
Compatibilidad con regiones	`global`
Opciones de voz	Ver Opciones de voz
Idiomas disponibles	Consulta los idiomas disponibles
Ejemplo	model: "gemini-2.5-pro-tts" prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way." text: "hahah I did NOT expect that. Can you believe it!." speaker: "Callirrhoe"

^* solo batch. streaming no es compatible.

Controles adicionales

Los controles y las capacidades adicionales incluyen lo siguiente:

Conversación natural: Las interacciones por voz de calidad notable, la expresividad y los patrones de ritmo más adecuados se ofrecen con una latencia muy baja para que puedas conversar con fluidez.
Control de estilo: Por medio de instrucciones en lenguaje natural, puedes adaptar la entrega dentro de la conversación guiándola para que adopte acentos específicos y produzca una variedad de tonos y expresiones, incluido el susurro.
Rendimiento dinámico: Estos modelos pueden dar vida al texto para lecturas expresivas de poesía, coberturas de noticias y narraciones atractivas. También expresan emociones específicas y producen acentos cuando se solicita.
Control mejorado del ritmo y la pronunciación: Controlar la velocidad de entrega ayuda a garantizar una mayor precisión en la pronunciación, incluidas las palabras específicas.

Para obtener información sobre cómo usar estas voces en tu aplicación, consulta Usa Gemini-TTS.

Opciones de voz

Gemini-TTS ofrece una amplia variedad de opciones de voz similares a nuestras Chirp 3: Voces en HD existentes, cada una con características distintivas:

Nombre	Género	Demostración
Achernar	Femenino
Achird	Masculino
Algenib	Masculino
Algieba	Masculino
Alnilam	Masculino
Aoede	Femenino
Autonoe	Femenino
Callirrhoe	Femenino
Charon	Masculino
Despina	Femenino
Enceladus	Masculino
Erinome	Femenino
Fenrir	Masculino
Gacrux	Femenino
Iapetus	Masculino
Kore	Femenino
Laomedeia	Femenino
Leda	Femenino
Orus	Masculino
Pulcherrima	Femenino
Puck	Masculino
Rasalgethi	Masculino
Sadachbia	Masculino
Sadaltager	Masculino
Schedar	Masculino
Sulafat	Femenino
Umbriel	Masculino
Vindemiatrix	Femenino
Zephyr	Femenino
Zubenelgenubi	Masculino

Idiomas disponibles

Gemini-TTS admite los siguientes idiomas:

Idioma	Código BCP-47	Preparación para el lanzamiento
Árabe (Egipto)	ar-EG	DG
Holandés (Países Bajos)	nl-NL	DG
Inglés (India)	en-IN	DG
Inglés (Estados Unidos)	en-US	DG
Francés (Francia)	fr-FR	DG
Alemán (Alemania)	de-DE	DG
Hindi (India)	hi-IN	DG
Indonesio (Indonesia)	id-ID	DG
Italiano (Italia)	it-IT	DG
Japonés (Japón)	ja-JP	DG
Coreano (Corea del Sur)	ko-KR	DG
Maratí (India)	mr-IN	DG
Polaco (Polonia)	pl-PL	DG
Portugués (Brasil)	pt-BR	DG
Rumano (Rumania)	ro-RO	DG
Ruso (Rusia)	ru-RU	DG
Español (España)	es-ES	DG
Tamil (India)	ta-IN	DG
Telugu (India)	te-IN	DG
Tailandés (Tailandia)	th-TH	DG
Turco (Türkiye)	tr-TR	DG
Ucraniano (Ucrania)	uk-UA	DG
Vietnamita (Vietnam)	vi-VN	DG
Afrikáans (Sudáfrica)	af-ZA	Vista previa
Albanés (Albania)	sq-AL	Vista previa
Amárico (Etiopía)	am-ET	Vista previa
Árabe (a nivel mundial)	ar-001	Vista previa
Armenio (Armenia)	hy-AM	Vista previa
Azerí (Azerbaiyán)	az-AZ	Vista previa
Bengalí (Bangladés)	bn-BD	Vista previa
Vasco (España)	eu-ES	Vista previa
Bielorruso (Bielorrusia)	be-BY	Vista previa
Búlgaro (Bulgaria)	bg-BG	Vista previa
Birmano (Birmania)	my-MM	Vista previa
Catalán (España)	ca-ES	Vista previa
Cebuano (Filipinas)	ceb-PH	Vista previa
Chino, mandarín (China)	cmn-CN	Vista previa
Chino mandarín (Taiwán)	cmn-tw	Vista previa
Croata (Croacia)	hr-HR	Vista previa
Checo (República Checa)	cs-CZ	Vista previa
Danés (Dinamarca)	da-DK	Vista previa
Inglés (Australia)	en-AU	Vista previa
Inglés (Reino Unido)	en-GB	Vista previa
Estonio (Estonia)	et-EE	Vista previa
Filipino (Filipinas)	fil-PH	Vista previa
Finés (Finlandia)	fi-FI	Vista previa
Francés (Canadá)	fr-CA	Vista previa
Gallego (España)	gl-ES	Vista previa
Georgiano (Georgia)	ka-GE	Vista previa
Griego (Grecia)	el-GR	Vista previa
Guyaratí (India)	gu-IN	Vista previa
Criollo haitiano (Haití)	ht-HT	Vista previa
Hebreo (Israel)	he-IL	Vista previa
Húngaro (Hungría)	hu-HU	Vista previa
Islandés (Islandia)	is-IS	Vista previa
Javanés (Java)	jv-JV	Vista previa
Canarés (India)	kn-IN	Vista previa
Konkani (India)	kok-IN	Vista previa
Lao (Laos)	lo-LA	Vista previa
Latín (Ciudad del Vaticano)	la-VA	Vista previa
Letón (Letonia)	lv-LV	Vista previa
Lituano (Lituania)	lt-LT	Vista previa
Luxemburgués (Luxemburgo)	lb-LU	Vista previa
Macedonio (Macedonia del Norte)	mk-MK	Vista previa
Maithili (India)	mai-IN	Vista previa
Malgache (Madagascar)	mg-MG	Vista previa
Malayo (Malasia)	ms-MY	Vista previa
Malabar (India)	ml-IN	Vista previa
Mongol (Mongolia)	mn-MN	Vista previa
Nepalí (Nepal)	ne-NP	Vista previa
Noruego, Bokmål (Noruega)	nb-NO	Vista previa
Noruego, Nynorsk (Noruega)	nn-NO	Vista previa
Odia (India)	or-IN	Vista previa
Pastún (Afganistán)	ps-AF	Vista previa
Persa (Irán)	fa-IR	Vista previa
Portugués (Portugal)	pt-PT	Vista previa
Punyabí (India)	pa-IN	Vista previa
Serbio (Serbia)	sr-RS	Vista previa
Sindhi (India)	sd-IN	Vista previa
Cingalés (Sri Lanka)	si-LK	Vista previa
Eslovaco (Eslovaquia)	sk-SK	Vista previa
Esloveno (Eslovenia)	sl-SI	Vista previa
Español (América Latina)	es-419	Vista previa
Español (México)	es-MX	Vista previa
Suajili (Kenia)	sw-KE	Vista previa
Sueco (Suecia)	sv-SE	Vista previa
Urdu (Pakistán)	ur-PK	Vista previa

Usa Gemini-TTS

Descubre cómo usar los modelos de Gemini-TTS para sintetizar el habla de un solo orador y de varios oradores.

Antes de comenzar

Antes de poder comenzar a usar Text-to-Speech, debes habilitar la API en la consola deGoogle Cloud siguiendo estos pasos:

Habilita Text-to-Speech en un proyecto.
Garantiza que la facturación esté habilitada para Text-to-Speech.
Configura la autenticación para tu entorno de desarrollo.

Configura tu proyecto de Google Cloud

Accede a la consola de Google Cloud .
Ir a la página Selector de proyectos

Puedes elegir un proyecto existente o crear uno nuevo. Para obtener más información sobre cómo crear un proyecto, consulta la documentación deGoogle Cloud .
Si creas un proyecto nuevo, aparecerá un mensaje que te informará que debes vincular una cuenta de facturación. Si usas un proyecto existente, asegúrate de habilitar la facturación.

Descubre cómo confirmar que tienes habilitada la facturación en un proyecto.

Nota: Debes habilitar la facturación para usar la API de Text-to-Speech. Sin embargo, no se te cobrará a menos que excedas la cuota gratuita. Para obtener más información sobre los precios, consulta la página de precios.
Después de seleccionar un proyecto y vincularlo a una cuenta de facturación, podrás habilitar la API de Text-to-Speech. Ve a la barra Buscar productos y recursos en la parte superior de la página y escribe "speech". Selecciona la API de Cloud Text-to-Speech en la lista de resultados.
Para probar Text-to-Speech sin vincularlo a tu proyecto, elige la opción Probar esta API. Si deseas habilitar la API de Text-to-Speech para usarla en tu proyecto, haz clic en Habilitar.
Configura la autenticación para tu entorno de desarrollo. Para obtener instrucciones, consulta Configura la autenticación para Text-to-Speech.

Realiza la síntesis síncrona de un solo orador

Python

# google-cloud-texttospeech minimum version 2.29.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize(prompt: str, text: str, output_filepath: str = "output.mp3"):
    """Synthesizes speech from the input text and saves it to an MP3 file.

    Args:
        prompt: Styling instructions on how to synthesize the content in
          the text field.
        text: The text to synthesize.
        output_filepath: The path to save the generated audio file.
          Defaults to "output.mp3".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    # Select the voice you want to use.
    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        name="Charon",  # Example voice, adjust as needed
        model_name="gemini-2.5-pro-tts"
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.MP3
    )

    # Perform the text-to-speech request on the text input with the selected
    # voice parameters and audio file type.
    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    # The response's audio_content is binary.
    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following in a curious way",
    "text": "OK, so... tell me about this [uhm] AI thing."
  },
  "voice": {
    "languageCode": "en-us",
    "name": "Kore",
    "model_name": "gemini-2.5-flash-tts"
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16"
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Realiza la síntesis síncrona de varios oradores con entrada de texto de formato libre

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_freeform(
    prompt: str,
    text: str,
    output_filepath: str = "output_non_turn_based.wav",
):
    """Synthesizes speech from non-turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        text: The text to synthesize, containing speaker aliases to indicate
          different speakers. Example: "Sam: Hi Bob!\nBob: Hi Sam!"
        output_filepath: The path to save the generated audio file. Defaults to
          "output_non_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "text": "Sam: Hi Bob, how are you?\\nBob: I am doing well, and you?"
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Realiza la síntesis síncrona de varios oradores con entrada de texto estructurado

La función de varios oradores con entrada de texto estructurado permite la verbalización inteligente de texto de una manera similar a la humana. Por ejemplo, este tipo de entrada es útil para direcciones y fechas. La entrada de texto libre pronuncia el texto exactamente como se escribe.

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_structured(
    prompt: str,
    turns: list[texttospeech.MultiSpeakerMarkup.Turn],
    output_filepath: str = "output_turn_based.wav",
):
    """Synthesizes speech from turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        turns: A list of texttospeech.MultiSpeakerMarkup.Turn objects representing
          the dialogue turns.
        output_filepath: The path to save the generated audio file. Defaults to
          "output_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(
        multi_speaker_markup=texttospeech.MultiSpeakerMarkup(turns=turns),
        prompt=prompt,
    )

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "multiSpeakerMarkup": {
      "turns": [
        {
          "speaker": "Sam",
          "text": "Hi Bob, how are you?"
        },
        {
          "speaker": "Bob",
          "text": "I am doing well, and you?"
        }
      ]
    }
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Realiza la síntesis de voz en Media Studio

Puedes usar Media Studio en la consola de Google Google Cloud para experimentar con modelos de texto a voz. Esto proporciona una interfaz de usuario para generar y escuchar rápido audio sintetizado. Además, te permite experimentar con diferentes instrucciones y parámetros de estilo.

En la consola de Google Google Cloud , ve a la página Vertex AI Studio > Media Studio.

Media Studio
Selecciona Voz en el menú desplegable de medios.
En el campo de texto correspondiente, escribe el texto que deseas sintetizar en voz.
En el panel Configuración, establece los siguientes parámetros:
1. Modelo: Selecciona el modelo de texto a voz (TTS) que deseas usar, como Gemini 2.5 Pro TTS. Para obtener más información sobre los modelos disponibles, consulta Modelos de Text-to-Speech.
2. Instrucciones de estilo: Escribe una instrucción de texto que describa el estilo de habla, el tono y la expresión emocional seleccionados (opcional). Esto te permite guiar el rendimiento del modelo más allá de la narración predeterminada. Por ejemplo: "Narra con un tono tranquilo y profesional para un documental".
3. Idioma: Selecciona el idioma y la región del texto de entrada. El modelo genera voz en el idioma y el acento seleccionados. Por ejemplo, Inglés (Estados Unidos).
4. Voz: Elige una voz predefinida para la narración. La lista contiene las voces disponibles para el modelo y el idioma seleccionados, como Acherner (femenino).
Expande la sección Opciones avanzadas para configurar los parámetros de configuración de audio técnico (opcional):
1. Codificación de audio: Selecciona la codificación para el archivo de audio de salida. LINEAR16 es un formato sin pérdidas y sin comprimir adecuado para el procesamiento de audio de alta calidad. MULAW también está disponible para la salida de audio comprimido.
2. Tasa de muestreo de audio: Selecciona la tasa de muestreo en hercios (Hz). Esto determina la calidad del audio. Los valores más altos, como 44,100 Hz, representan un audio de mayor fidelidad, equivalente a la calidad de un CD.
3. Velocidad: Mueve el control deslizante o ingresa un valor para ajustar la velocidad de habla. Los valores inferiores a 1 ralentizan el habla, y los valores superiores a 1 la aceleran. El valor predeterminado es 1.
4. Aumento de volumen (dB): Ajusta el volumen del audio de salida en decibeles (dB). Los valores positivos aumentan el volumen, y los negativos lo disminuyen. El valor predeterminado es 0.
Haz clic en el ícono de enviar a la derecha del cuadro de texto para generar el audio.
El audio generado aparecerá en el reproductor multimedia. Haz clic en el botón de reproducción para escuchar el resultado. Puedes seguir ajustando la configuración y generar versiones nuevas según sea necesario.

Sugerencias para escribir instrucciones

Para crear un audio atractivo y natural a partir de texto, es necesario comprender los matices del lenguaje hablado y traducirlos a formato de guion. Las siguientes sugerencias te ayudarán a crear guiones que suenen auténticos y capten el tono elegido.

Las tres palancas del control del habla

Para obtener los resultados más predecibles y matizados, asegúrate de que los tres componentes siguientes sean coherentes con el resultado deseado.

Instrucción de estilo: Es el principal factor determinante del tono emocional general y la presentación. La instrucción establece el contexto para todo el segmento de voz.

Ejemplo: You are an AI assistant speaking in a friendly and helpful tone.
Ejemplo: Narrate this in the calm, authoritative tone of a nature documentary narrator.

Contenido de texto: Es el significado semántico de las palabras que sintetizas. Una frase evocadora que sea coherente desde el punto de vista emocional con la instrucción de estilo producirá resultados mucho más confiables que un texto neutro.

Eficaz: Una instrucción para un tono asustado funciona mejor con un texto como I think someone is in the house.
Menos eficaz: Se producirán resultados ambiguos si se proporciona una instrucción para un tono asustado con un texto como The meeting is at 4 PM..

Etiquetas de lenguaje de marcado: Las etiquetas entre corchetes, como [sigh], se usan mejor para insertar una acción o una modificación de estilo específicas y localizadas, pero no para establecer el tono general. Funcionan en conjunto con la instrucción de estilo y el contenido de texto.

Guía de etiquetas de lenguaje de marcado

Nuestra investigación demuestra que las etiquetas de marcado entre corchetes operan en uno de tres modos distintos. Comprender el modo de una etiqueta es clave para usarla con eficacia.

Modo 1: Sonidos no verbales

El marcado se reemplaza por una vocalización audible no hablada (p. ej., un suspiro o una risa). La etiqueta en sí no se pronuncia. Son excelentes para agregar dudas y reacciones realistas y similares a las humanas.

Etiqueta	Comportamiento	Confiabilidad	Orientación
`[sigh]`	Inserta un sonido de suspiro.	Alta	La instrucción influye en la calidad emocional del suspiro.
`[laughing]`	Inserta una risa.	Alta	Para obtener mejores resultados, usa una instrucción específica. P. ej., una instrucción genérica puede generar una risa de sorpresa, mientras que "reacciona con una risa divertida" genera una risa de diversión.
`[uhm]`	Inserta un sonido de duda.	Alta	Es útil para crear un ambiente más natural y conversacional.

Modo 2: Modificadores de estilo

El marcado no se pronuncia, pero modifica la entrega del discurso posterior. El alcance y la duración de la modificación pueden variar.

Etiqueta	Comportamiento	Confiabilidad	Orientación
`[sarcasm]`	Le da un tono sarcástico a la siguiente frase.	Alta	Esta etiqueta es un modificador potente. Demuestra que los conceptos abstractos pueden guiar con éxito la entrega del modelo.
`[robotic]`	Hace que el habla posterior suene robótica.	Alta	El efecto puede extenderse a toda una frase. Una instrucción de estilo que brinde asistencia (p. ej., "Dilo de forma robótica") sigue siendo la recomendación para obtener mejores resultados.
`[shouting]`	Aumenta el volumen del discurso posterior.	Alta	Es más eficaz cuando se combina con una instrucción de estilo coincidente (p. ej., "Grita esta próxima parte") y texto que implica gritos.
`[whispering]`	Disminuye el volumen del discurso posterior.	Alta	Los mejores resultados se obtienen cuando el mensaje de estilo también es explícito (p. ej., "Ahora susurra esta parte lo más silenciosamente posible").
`[extremely fast]`	Aumenta la velocidad del habla posterior.	Alta	Es ideal para avisos importantes o diálogos rápidos. Se necesita asistencia mínima con las instrucciones.

Modo 3: Marcas vocalizadas (adjetivos)

La etiqueta de marcado se pronuncia como una palabra y, al mismo tiempo, influye en el tono de toda la oración. Por lo general, este comportamiento se aplica a los adjetivos emocionales.

Advertencia: Debido a que la etiqueta se pronuncia, es probable que este modo sea un efecto secundario no deseado para la mayoría de los casos de uso. En su lugar, te recomendamos que uses la instrucción de estilo para establecer estos tonos emocionales.

Etiqueta	Comportamiento	Confiabilidad	Orientación
`[scared]`	Se pronuncia la palabra "asustado", y la oración adopta un tono de temor.	Alta	El rendimiento depende en gran medida del contenido de texto. La frase "Acabo de oír que se rompió una ventana" produce un resultado con un tono temeroso real. Una frase neutra produce un resultado "espeluznante" pero menos auténtico.
`[curious]`	Se pronuncia la palabra "curioso" y la oración adopta este tono.	Alta	Usa una frase inquisitiva para respaldar la intención de la etiqueta.
`[bored]`	Se pronuncia la palabra "aburrido", y la oración adopta un tono monótono y aburrido.	Alta	Úsala con texto repetitivo o común para obtener el mejor efecto.

Modo 4: Ritmo y pausas

Estas etiquetas insertan silencio en el audio generado, lo que te brinda un control detallado sobre el ritmo, la sincronización y la velocidad. La puntuación estándar (comas, puntos, puntos y comas) también creará pausas naturales, pero estas etiquetas ofrecen un control más explícito.

Etiqueta	Comportamiento	Confiabilidad	Orientación
`[short pause]`	Inserta una breve pausa, similar a una coma (aproximadamente 250 ms).	Alta	Se usa para separar cláusulas o elementos de una lista y mejorar la claridad.
`[medium pause]`	Inserta una pausa estándar, similar a una pausa entre oraciones (aproximadamente 500 ms).	Alta	Es eficaz para separar oraciones o ideas distintas.
`[long pause]`	Inserta una pausa significativa para generar un efecto dramático (más de unos 1,000 ms).	Alta	Úsalo para crear un efecto dramático. Por ejemplo: "La respuesta es… `[long pause]`… no". Evita el uso excesivo, ya que puede sonar poco natural.

Estrategias clave para obtener resultados confiables

Alinea los tres factores para lograr la máxima previsibilidad, asegúrate de que tu instrucción de estilo, el contenido de texto y las etiquetas de marcado sean coherentes semánticamente y contribuyan al mismo objetivo.
Usa texto enriquecido con emociones. No te bases solo en instrucciones y etiquetas. Proporciona al modelo texto descriptivo y enriquecido para que trabaje con él. Esto es muy importante para las emociones sutiles, como el sarcasmo, el miedo o el entusiasmo.
Escribe instrucciones específicas y detalladas. Cuanto más específica sea tu instrucción de estilo, más confiable será el resultado. "Reacciona con una risa divertida" es mejor que solo [laughing]. "Habla como un locutor de noticias de radio de la década de 1940" es mejor que "Habla de una manera anticuada".
Prueba y verifica las etiquetas nuevas. El comportamiento de una etiqueta nueva o no probada no siempre es predecible. Es posible que se vocalice una etiqueta que crees que es un modificador de estilo. Siempre prueba una nueva combinación de etiquetas o instrucciones para confirmar su comportamiento antes de implementarla en la producción.

Gemini-TTS Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Modelos disponibles

TTS de Gemini 2.5 Flash

Gemini 2.5 Pro TTS

Controles adicionales

Opciones de voz

Idiomas disponibles

Usa Gemini-TTS

Antes de comenzar

Configura tu proyecto de Google Cloud

Realiza la síntesis síncrona de un solo orador

Python

CURL

Realiza la síntesis síncrona de varios oradores con entrada de texto de formato libre

Python

CURL

Realiza la síntesis síncrona de varios oradores con entrada de texto estructurado

Python

CURL

Realiza la síntesis de voz en Media Studio

Sugerencias para escribir instrucciones

Las tres palancas del control del habla

Guía de etiquetas de lenguaje de marcado

Modo 1: Sonidos no verbales

Modo 2: Modificadores de estilo

Modo 3: Marcas vocalizadas (adjetivos)

Modo 4: Ritmo y pausas

Estrategias clave para obtener resultados confiables

Gemini-TTS