Google usa tecnología de IA para traducir contenido al idioma que prefieras. Las traducciones generadas por IA pueden contener errores.

Aspectos básicos de Cloud Text-to-Speech

Cloud Text-to-Speech es una API que te permite crear voces sintéticas y que suenen naturales como un audio reproducible. Puedes usar los archivos de datos de audio que crees con Cloud Text-to-Speech para potenciar tus aplicaciones o mejorar contenido multimedia, como vídeos o grabaciones de audio, siempre que te atengas a los Términos del Servicio de Google Cloud Platform y cumplas las leyes aplicables.

Cloud TTS convierte texto o lenguaje de marcas de síntesis de voz (SSML) en datos de audio, como MP3 o LINEAR16 (la codificación que se usa en los archivos WAV).

Este documento es una guía conceptual sobre el uso de Cloud Text-to-Speech. Para ver ejemplos de código prácticos, consulta nuestra sección de ejemplos y nuestra página de introducción para obtener información sobre cómo configurar tu proyecto de Google Cloud para usar la API Cloud Text-to-Speech.

Ejemplo básico

Cloud TTS es ideal para cualquier aplicación que reproduzca audio de voz humana para los usuarios. Con Cloud TTS, puedes convertir cadenas, palabras y frases arbitrarias en el sonido de una persona que habla las mismas cosas.

Imagina que tienes una aplicación de asistente de voz que proporciona a tus usuarios comentarios en lenguaje natural en forma de archivos de audio reproducibles. Puedes usar Cloud TTS para que tu aplicación realice una acción y, a continuación, proporcione una respuesta de voz humana al usuario. Puede que quieras que tu aplicación informe de que ha añadido correctamente un evento al calendario del usuario. Tu aplicación crearía una cadena de respuesta para informar al usuario de que se ha completado la acción, como "He añadido el evento a tu calendario".

Con Cloud TTS, puedes convertir esa cadena de respuesta en voz humana para reproducirla al usuario, como en el siguiente ejemplo:

Ejemplo 1. Archivo de audio generado a partir de Cloud TTS

Para crear un archivo de audio como el del ejemplo 1, envía una solicitud a Cloud TTS como el siguiente fragmento de código.

curl -H "Authorization: Bearer "$(gcloud auth print-access-token) -H "x-goog-user-project: PROJECT_ID" -H "Content-Type: application/json; charset=utf-8" --data "{
  'input':{
    'text':'With Cloud machine learning, your application interprets images, texts, and more.'
  },
  'voice':{
    'languageCode':'en-gb',
    'name':'en-GB-Chirp3-HD-Charon',
  },
  'audioConfig':{
    'audioEncoding':'LINEAR16'
  }
}" "https://texttospeech.googleapis.com/v1/text:synthesize"

Síntesis de voz

El proceso de traducir texto en datos de audio se denomina síntesis y el resultado de la síntesis se llama voz sintética. Cloud TTS acepta dos tipos de entrada: texto sin formato o datos en formato SSML (que se explican más abajo). Para crear un archivo de audio, llama al endpoint synthesize de la API.

El proceso de síntesis de voz genera datos de audio sin procesar como una cadena codificada en Base64. Debes decodificar la cadena codificada en Base64 en un archivo de audio para que una aplicación pueda reproducirlo. La mayoría de las plataformas y los sistemas operativos tienen herramientas para decodificar texto en base64 en archivos multimedia reproducibles.

Para obtener más información sobre la síntesis, consulta las guías de inicio rápido o la página Crear archivos de audio de voz.

Voces

Cloud TTS crea datos de audio sin procesar de voces humanas naturales. Es decir, crea audio que suena como si una persona estuviera hablando. Cuando envías una solicitud de síntesis a Cloud TTS, debes especificar una voz que "pronuncie" las palabras.

Cloud TTS ofrece una amplia selección de voces personalizadas que puedes usar. Las voces varían según el idioma, el género y el acento (en algunos idiomas). Por ejemplo, puedes crear un audio que imite el sonido de una mujer que habla inglés con acento británico, como en el ejemplo anterior. También puedes convertir el mismo texto en otra voz (por ejemplo, un hombre que hable inglés con acento australiano).

Ejemplo 2. Archivo de audio generado con la voz en-AU

Para ver la lista completa de las voces disponibles, consulta Voces admitidas.

Otros ajustes de salida de audio

Además de la voz, también puedes configurar otros aspectos de los datos de audio que genera la síntesis de voz. Cloud TTS permite configurar la velocidad de habla, el tono, el volumen y la frecuencia de muestreo (hercios).

Para obtener más información, consulta la referencia de AudioConfig.

Compatibilidad con el lenguaje de marcas de síntesis de voz (SSML)

Puedes mejorar la voz sintética que genera Cloud TTS marcando el texto con el lenguaje de marcas de síntesis de voz (SSML). SSML te permite insertar pausas, pronunciaciones de acrónimos u otros detalles adicionales en los datos de audio creados por Cloud TTS. Cloud TTS admite un subconjunto de los elementos SSML disponibles.

Por ejemplo, puede asegurarse de que la síntesis de voz pronuncie correctamente los números ordinales proporcionando a Cloud TTS una entrada SSML que marque los números ordinales como tales.

Ejemplo 5. Archivo de audio generado a partir de texto sin formato

Ejemplo 6. Archivo de audio generado a partir de una entrada SSML

Para obtener más información sobre cómo sintetizar voz a partir de SSML, consulta el artículo Crear archivos de audio de voz.

Siguientes pasos

Para empezar a usar Cloud Text-to-Speech, sigue nuestra guía de configuración.