Aprende a preparar datos de audio y texto para ajustar un modelo personalizado de Speech-to-Text en la consola de Google Cloud Speech. La calidad de los datos de entrenamiento influye en la eficacia de los modelos que crees. Deberás componer un conjunto de datos diverso que contenga un contexto de audio y texto representativo que sea directamente pertinente para lo que responderá el modelo durante el tiempo de inferencia en producción, incluido el ruido y el vocabulario inusual.
Para entrenar con eficacia un modelo personalizado de Speech-to-Text, debes contar con lo que se indica a continuación:
- Al menos 100 horas de audio de datos de entrenamiento, ya sea de solo audio o con la transcripción de texto correspondiente como verdad fundamental. Estos datos son fundamentales para la fase de entrenamiento inicial, dado que el modelo aprende los matices de los patrones de voz y el vocabulario. Para obtener más información, consulta Crea un conjunto de datos de verdad fundamental.
- Un conjunto de datos independiente de, al menos, 10 horas de audio de datos de validación, con la transcripción de texto correspondiente como verdad fundamental.
Antes de empezar
Asegúrate de haberte registrado para obtener una cuenta de Google Cloud , de haber creado un proyecto de Google Cloudy de haber habilitado la API de Cloud Speech-to-Text:
- Accede a Cloud Storage.
- Si todavía no tienes uno, crea un bucket.
Crea un conjunto de datos
Para crear un conjunto de datos, deberás crear dos subdirectorios en el bucket de Cloud Storage que elijas. Sigue convenciones de nomenclatura sencillas:
- Crea un subdirectorio training_dataset para almacenar todos los archivos de entrenamiento.
- Crea un subdirectorio validation_dataset para almacenar todos los archivos de entrenamiento.
- Sube los archivos de audio y texto a los directorios. Para eso, sigue los Lineamientos de anotaciones de verdad fundamental.
Lineamientos de los conjuntos de datos
- Para el entrenamiento y la validación, los formatos de archivo compatibles son
.wavpara los archivos de audio con codificación LINEAR16 y.txtpara los archivos de texto, si están disponibles. Evita los caracteres que no sean ASCII en los nombres de archivo. - Los archivos de audio que están en el mismo directorio deben proporcionarse en un archivo TXT independiente, cada uno con el mismo nombre que el archivo WAV correspondiente, por ejemplo, my_file_1.wav, my_file_1.txt. Solo debe haber un archivo de transcripción por archivo de audio.
Datos de entrenamiento
- Todos los archivos que se usan para el entrenamiento se deben proporcionar en el mismo directorio sin carpetas anidadas.
- Opcional: Si hay transcripciones disponibles, proporciónaselas a los archivos de audio. No se requieren marcas de tiempo.
- Asegúrate de que la duración total del audio de los archivos supere las 100 horas. De no ser así, el trabajo de entrenamiento fallará.
Este es un ejemplo de cómo debe verse la estructura del directorio después de que los archivos se suban como un conjunto de datos de entrenamiento:
├── training_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ ├── example_2.txt │ ├── example_3.wav (Note: Audio only instance, without corresponding text) │ └── example_4.wav (Note: Audio only instance, without corresponding text)
Datos de validación
- Todos los archivos de validación se proporcionan en el mismo directorio llamado validation_dataset sin ninguna carpeta anidada.
- Los audios de validación no deben durar más de 30 segundos cada uno.
- Proporciona transcripciones de verdad fundamental para cada uno de los archivos de audio en el mismo directorio en un archivo TXT independiente.
Este es un ejemplo de cómo debe verse la estructura del directorio después de que los archivos se suban como un conjunto de datos de validación:
├── validation_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ └── example_2.txt
Lineamientos sobre las anotaciones de verdad fundamental
Consulta las instrucciones sobre el formato que se proporcionan a continuación.
Números
Los cardinales y los ordinales solo se deben transcribir en dígitos.
- Audio: "Un mazo de cartas tiene cincuenta y dos cartas: trece valores en cada uno de los cuatro palos (diamantes, corazones tréboles y picas)".
- Texto de verdad fundamental: "Un mazo de cartas tiene 52 cartas: 13 valores en cada uno de los cuatro palos (diamantes, corazones, tréboles y picas)".
Moneda y unidades
Transcríbelas como se suelen escribir en la configuración regional de la transcripción. Abrevia todas las unidades que siguen a valores numéricos. Si por contexto está claro que un número o una secuencia de números hace referencia a una moneda o a la hora, asígnale el formato correspondiente.
Fecha y hora
Transcribe las fechas y horas en el formato común que se usa en el idioma
de la transcripción. Cuando sea posible, escribe las horas en formato hh:mm.
Direcciones
Transcribe con nombres completos de ubicaciones, rutas y estados (por ejemplo, con abreviaturas cuando se pronuncien explícitamente). Las entidades y ubicaciones se deben transcribir con una coma entre ellas.
Nombres propios y acentos
Transcribe con la ortografía y puntuación oficiales. Si un nombre propio puede tener varias formas de escribirse y el contexto no es de ayuda, usa la grafía más frecuente.
Marcas, nombres de productos y títulos de contenido multimedia
Transcríbelos con el formato oficial y la grafía más común.
Interjecciones
La risa y otras vocalizaciones distintas del habla deben transcribirse con hasta tres sílabas. La risa incluida en el discurso debe ignorarse por completo. Ejemplo:
- Audio: "ja ja ja ja ja".
- Texto de verdad fundamental: "jajaja".
Varios interlocutores
No los separes con etiquetas de interlocutor, ya que, por lo general, no se admite la identificación.
¿Qué sigue?
Consulta los recursos para aprovechar los modelos de voz personalizados en tu aplicación:
- Entrena y administra tus modelos personalizados.
- Implementa y administra extremos de modelos .
- Usa tus modelos personalizados.
- Evalúa tus modelos personalizados.