Los modelos personalizados de Speech-to-Text te ayudan a ajustar los modelos de reconocimiento de voz a tus necesidades específicas. Este servicio se diseñó para mejorar la exactitud y relevancia del servicio de reconocimiento de voz en diversos entornos y casos de uso, con los datos de audio y texto específicos de tu dominio.
Los modelos personalizados de Speech-to-Text, a los que se puede acceder desde la consola y la API de Google Cloud , permiten entrenar, evaluar e implementar un modelo de voz dedicado en un entorno integrado sin código. Para el entrenamiento, puedes proporcionar datos de audio que solo representen tus condiciones de audio, sin transcripciones de referencia, como un conjunto de entrenamiento. Sin embargo, debes proporcionar datos de audio y sus transcripciones de referencia como parte del conjunto de evaluación.
Crear y usar un modelo personalizado de Cloud Speech-to-Text implica seguir los pasos que se indican a continuación:
- Preparar los datos de entrenamiento y subirlos a un bucket de Cloud Storage
- Entrenar un modelo personalizado nuevo
- Implementar y administrar el modelo personalizado con extremos
- Usar y evaluar el modelo personalizado en tu aplicación
¿Cómo funciona?
Puedes usar modelos personalizados de Speech-to-Text para mejorar un modelo de transcripción base con el objetivo de que reconozca mejor las transcripciones. Algunas condiciones de audio, como las sirenas, la música y el ruido de fondo excesivo, pueden representar desafíos acústicos. Lo mismo puede suceder con ciertos acentos o con un vocabulario inusual, como los nombres de productos.
Cada modelo personalizado de Speech-to-Text usa una arquitectura basada en Conformer entrenada previamente como un modelo base entrenado con datos de propiedad de uso común en el idioma hablado. Durante el proceso de entrenamiento, el modelo base se ajusta adaptando un porcentaje significativo de las ponderaciones originales para mejorar el reconocimiento del vocabulario específico del dominio y las condiciones de audio específicas de tu aplicación.
Para el entrenamiento eficaz de un modelo personalizado de Speech-to-Text, debes proporcionar los elementos que se indican a continuación:
- Al menos 100 horas de audio de datos de entrenamiento, ya sea solo audio o audio con
la transcripción del texto correspondiente como verdad fundamental. Estos datos son fundamentales para
la fase de entrenamiento inicial, por lo que el modelo aprende de manera integral los matices
de los patrones de voz y el vocabulario. Para obtener más información, consulta Crea
un conjunto de datos
de verdad fundamental.
- Un conjunto de datos independiente de, al menos, 10 horas de audio de datos de validación con la transcripción del texto correspondiente como verdad fundamental. Puedes obtener más información acerca del formato esperado y las convenciones de verdad fundamental que se deben seguir en nuestras instrucciones para preparar los datos.
Luego de un entrenamiento exitoso, puedes implementar un modelo personalizado de Speech-to-Text en un extremo con un solo clic. Además, podrás usarlo directamente a través de la API de Cloud Speech-to-Text V2 para las inferencias y comparativas.
Modelos, idiomas y regiones compatibles
Los modelos personalizados de Speech-to-Text admiten las combinaciones de modelos, idiomas y parámetros de configuración regional para el entrenamiento que se indican a continuación:
| Idioma | BCP-47 | Modelo base |
|---|---|---|
|
Alemán (Alemania) |
de-DE |
|
|
Inglés (Australia) |
en-AU |
|
|
Inglés (Reino Unido) |
en-GB |
|
|
Inglés (India) |
en-IN |
|
|
Inglés (Estados Unidos) |
en-US |
|
|
Español (Estados Unidos) |
es-US |
|
|
Español (España) |
es-ES |
|
|
Francés (Canadá) |
fr-CA |
|
|
Francés (Francia) |
fr-FR |
|
|
Hindi (India) |
hi-IN |
|
|
Italiano (Italia) |
it-IT |
|
|
Japonés (Japón) |
ja-JP |
|
|
Coreano (Corea del Sur) |
ko-KR |
|
|
Holandés (Países Bajos) |
nl-NL |
|
|
Portugués (Brasil) |
pt-BR |
|
|
Portugués (Portugal) |
pt-PT |
|
Además, para cumplir con los requisitos de residencia de datos, ofrecemos hardware de capacitación y de implementación en diferentes regiones. El hardware dedicado es compatible con las combinaciones de modelos y regiones que se indican a continuación:
| Modelo base | RegiónGoogle Cloud | Tareas compatibles |
|---|---|---|
|
|
|
Entrenamiento e implementación |
|
|
|
Entrenamiento e implementación |
Cuota
En el caso del entrenamiento de modelos personalizados de Speech-to-Text, cada proyecto de Google Clouddebe tener una cuota predeterminada suficiente para ejecutar varios trabajos de entrenamiento en simultáneo. Además, la cuota debe satisfacer las necesidades de la mayoría de los proyectos sin aplicar ajustes adicionales. Sin embargo, si necesitas ejecutar una mayor cantidad de trabajos de entrenamiento en simultáneo o precisas recursos de etiquetado o procesamiento más extensos, solicita una cuota adicional.
Para un modelo personalizado de Speech-to-Text que entrega una implementación de extremo, cada extremo tiene un límite teórico de 20 consultas por segundo (QPS). Si se requiere una capacidad de procesamiento mayor, solicita una cuota de entrega adicional.
Precios
Crear y usar un modelo personalizado de Speech-to-Text conlleva ciertos costos que se basan, sobre todo, en los recursos que se usan durante el entrenamiento y la implementación posterior del modelo. En particular, los modelos personalizados de Speech-to-Text incurren en los costos siguientes durante el ciclo de vida de modelos habituales:
- Entrenamiento: Se te cobrará por la cantidad de horas de entrenamiento de los modelos. Este tiempo es proporcional a la cantidad de horas de audio que contiene el conjunto de datos de entrenamiento. Como regla general, el entrenamiento toma una décima parte de la cantidad de horas de audio que contiene el conjunto de datos.
- Implementación: Se te cobrará por cada hora de implementación de un modelo en un extremo.
- Inferencia: Se te cobrará por la cantidad de segundos transmitidos de audio para la transcripción, de acuerdo con la facturación general de Cloud Speech-to-Text.
Tener en cuenta estos costos es fundamental para crear presupuestos y asignar recursos de manera eficaz. Para obtener más información, en la sección Modelos personalizados de Speech-to-Text, consulta los precios de Cloud Speech-to-Text.
¿Qué sigue?
Consulta los recursos para aprovechar los modelos de voz personalizados en tu aplicación:
- Prepara los datos de entrenamiento.
- Entrena y administra tus modelos personalizados.
- Implementa y administra extremos de modelos .
- Usa tus modelos personalizados.
- Evalúa tus modelos personalizados.