Evalúa modelos

Usa la función de comparativas de la consola de Cloud Speech-to-Text para medir la exactitud de cualquiera de los modelos de transcripción que se usan en la API de Speech-to-Text V2.

La consola de Cloud Speech-to-Text brinda comparativas visuales para los modelos entrenados previamente y personalizados de Speech-to-Text. Puedes inspeccionar la calidad del reconocimiento comparando las métricas de evaluación de la tasa de error de palabra (WER) en varios modelos de transcripción para ayudarte a decidir qué modelo se adapta mejor a tu aplicación.

Antes de comenzar

Asegúrate de haberte registrado en una cuenta de Google Cloud , de haber creado un proyecto, de haber entrenado un modelo de voz personalizado y haberlo implementado con un extremo.

Crea un conjunto de datos de verdad fundamental

Para crear un conjunto de datos de comparativas personalizado, recopila muestras de audio que reflejen con precisión el tipo de tráfico que el modelo de transcripción encontrará en un entorno de producción. Lo ideal es que la duración total de estos archivos de audio abarque un mínimo de 30 minutos y no supere las 10 horas. Para ensamblar el conjunto de datos, necesitarás hacer lo siguiente:

  1. Crear un directorio en un bucket de Cloud Storage de tu elección para almacenar los archivos de audio y texto del conjunto de datos
  2. Crear transcripciones razonablemente precisas para cada archivo de audio en el conjunto de datos. Crear el archivo de texto de verdad fundamental correspondiente (example_audio_1.txt) para cada archivo de audio, como example_audio_1.wav. Este servicio usa estas vinculaciones de audio y texto en un bucket de Cloud Storage para ensamblar el conjunto de datos

Compara el modelo

Con el modelo personalizado de Speech-to-Text y el conjunto de datos de las comparativas para evaluar la exactitud del modelo, sigue la Guía de medición y mejora de la exactitud.