Prepara los datos de entrenamiento

Aprende a preparar datos de audio y texto para ajustar un modelo personalizado de Speech-to-Text en la consola de Google Cloud Speech. La calidad de los datos de entrenamiento influye en la eficacia de los modelos que crees. Deberás componer un conjunto de datos diverso que contenga un contexto de audio y texto representativo que sea directamente pertinente para lo que responderá el modelo durante el tiempo de inferencia en producción, incluido el ruido y el vocabulario inusual.

Para entrenar con eficacia un modelo personalizado de Speech-to-Text, debes contar con lo que se indica a continuación:

Al menos 100 horas de audio de datos de entrenamiento, ya sea de solo audio o con la transcripción de texto correspondiente como verdad fundamental. Estos datos son fundamentales para la fase de entrenamiento inicial, dado que el modelo aprende los matices de los patrones de voz y el vocabulario. Para obtener más información, consulta Crea un conjunto de datos de verdad fundamental.
Un conjunto de datos independiente de, al menos, 10 horas de audio de datos de validación, con la transcripción de texto correspondiente como verdad fundamental.

Antes de empezar

Asegúrate de haberte registrado para obtener una cuenta de Google Cloud , de haber creado un proyecto de Google Cloudy de haber habilitado la API de Cloud Speech-to-Text:

Accede a Cloud Storage.
Si todavía no tienes uno, crea un bucket.

Crea un conjunto de datos

Para crear un conjunto de datos, deberás crear dos subdirectorios en el bucket de Cloud Storage que elijas. Sigue convenciones de nomenclatura sencillas:

Crea un subdirectorio training_dataset para almacenar todos los archivos de entrenamiento.
Crea un subdirectorio validation_dataset para almacenar todos los archivos de entrenamiento.
Sube los archivos de audio y texto a los directorios. Para eso, sigue los Lineamientos de anotaciones de verdad fundamental.

Lineamientos de los conjuntos de datos

Para el entrenamiento y la validación, los formatos de archivo compatibles son .wav para los archivos de audio con codificación LINEAR16 y .txt para los archivos de texto, si están disponibles. Evita los caracteres que no sean ASCII en los nombres de archivo.
Los archivos de audio que están en el mismo directorio deben proporcionarse en un archivo TXT independiente, cada uno con el mismo nombre que el archivo WAV correspondiente, por ejemplo, my_file_1.wav, my_file_1.txt. Solo debe haber un archivo de transcripción por archivo de audio.

Datos de entrenamiento

Todos los archivos que se usan para el entrenamiento se deben proporcionar en el mismo directorio sin carpetas anidadas.
Opcional: Si hay transcripciones disponibles, proporciónaselas a los archivos de audio. No se requieren marcas de tiempo.
Asegúrate de que la duración total del audio de los archivos supere las 100 horas. De no ser así, el trabajo de entrenamiento fallará.

Este es un ejemplo de cómo debe verse la estructura del directorio después de que los archivos se suban como un conjunto de datos de entrenamiento:

├── training_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   ├── example_2.txt
│   ├── example_3.wav (Note: Audio only instance, without corresponding text)
│   └── example_4.wav (Note: Audio only instance, without corresponding text)

Datos de validación

Todos los archivos de validación se proporcionan en el mismo directorio llamado validation_dataset sin ninguna carpeta anidada.
Los audios de validación no deben durar más de 30 segundos cada uno.
Proporciona transcripciones de verdad fundamental para cada uno de los archivos de audio en el mismo directorio en un archivo TXT independiente.

Este es un ejemplo de cómo debe verse la estructura del directorio después de que los archivos se suban como un conjunto de datos de validación:

├── validation_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   └── example_2.txt

Lineamientos sobre las anotaciones de verdad fundamental

Consulta las instrucciones sobre el formato que se proporcionan a continuación.

Números

Los cardinales y los ordinales solo se deben transcribir en dígitos.

Audio: "Un mazo de cartas tiene cincuenta y dos cartas: trece valores en cada uno de los cuatro palos (diamantes, corazones tréboles y picas)".
Texto de verdad fundamental: "Un mazo de cartas tiene 52 cartas: 13 valores en cada uno de los cuatro palos (diamantes, corazones, tréboles y picas)".

Moneda y unidades

Transcríbelas como se suelen escribir en la configuración regional de la transcripción. Abrevia todas las unidades que siguen a valores numéricos. Si por contexto está claro que un número o una secuencia de números hace referencia a una moneda o a la hora, asígnale el formato correspondiente.

Fecha y hora

Transcribe las fechas y horas en el formato común que se usa en el idioma de la transcripción. Cuando sea posible, escribe las horas en formato hh:mm.

Direcciones

Transcribe con nombres completos de ubicaciones, rutas y estados (por ejemplo, con abreviaturas cuando se pronuncien explícitamente). Las entidades y ubicaciones se deben transcribir con una coma entre ellas.

Nombres propios y acentos

Transcribe con la ortografía y puntuación oficiales. Si un nombre propio puede tener varias formas de escribirse y el contexto no es de ayuda, usa la grafía más frecuente.

Marcas, nombres de productos y títulos de contenido multimedia

Transcríbelos con el formato oficial y la grafía más común.

Interjecciones

La risa y otras vocalizaciones distintas del habla deben transcribirse con hasta tres sílabas. La risa incluida en el discurso debe ignorarse por completo. Ejemplo:

Audio: "ja ja ja ja ja".
Texto de verdad fundamental: "jajaja".

Varios interlocutores

No los separes con etiquetas de interlocutor, ya que, por lo general, no se admite la identificación.

¿Qué sigue?

Consulta los recursos para aprovechar los modelos de voz personalizados en tu aplicación: