En esta guía de inicio rápido, aprenderá a medir y mejorar la precisión deGoogle Cloud Cloud Speech-to-Text para sus datos de audio. También puedes consultar los distintos modelos y opciones disponibles en la API para mejorar la precisión de la transcripción. Descubre cómo usar la interfaz de usuario de Cloud Speech-to-Text en la Google Cloud consola y un archivo de referencia para medir la precisión y obtener información valiosa sobre el sistema Cloud Speech-to-Text.
Los sistemas de aprendizaje automático están sujetos a imprecisiones por naturaleza, y los sistemas de reconocimiento de voz automático (ASR), también conocidos como sistemas de Cloud Speech-to-Text, no son una excepción. La medición precisa de la exactitud está estrechamente relacionada con casos prácticos específicos y con los sistemas que se evalúan, ya que las diferencias en la calidad de la grabación de audio y las condiciones acústicas pueden influir significativamente en la exactitud. Por lo tanto, no es práctico obtener una única puntuación de precisión para todos los clientes y casos prácticos. Para asegurar el rendimiento fiable de los sistemas de reconocimiento automático del habla en sistemas de producción críticos. También es fundamental entender cómo funciona Cloud Speech-to-Text en el contexto más amplio de tu sistema.
En esta guía de inicio rápido,se utiliza el método estándar del sector para hacer comparaciones, tasa de error de palabra (WER), que suele abreviarse como WER. Para obtener más información sobre cómo se calcula e interpreta el WER, consulta Medir y mejorar la precisión del habla.
Empezar a usar la Google Cloud consola
Asegúrate de que te has registrado para obtener una cuenta de Google Cloud y has creado un proyecto.
- Ve a Speech en la consola de Google Cloud y desplázate hasta la interfaz de usuario de Cloud Speech-to-Text.
- Usa un archivo de audio que represente acústicamente tu caso práctico y cómo tienes previsto usar el sistema de ASR. A continuación, sigue las instrucciones de la guía de inicio rápido para crear tu primera transcripción con Cloud Speech-to-Text.
Calcular la precisión de la transcripción
- Una vez que hayas transcrito correctamente el archivo de audio, ve a la sección Precisión de la transcripción. Esta sección permanecerá vacía hasta que se calcule la precisión de la transcripción.
- Con el botón Subir datos de referencia situado en la parte superior de la sección, puedes empezar a calcular la precisión.
Especificar la verdad fundamental
- Para calcular la precisión de la transcripción, proporciona un archivo de referencia. Se trata de un archivo TXT o CSV, normalmente una transcripción generada por una persona, que contiene las transcripciones correctas o esperadas para compararlas.
- Por ejemplo,
gs://cloud-samples-data/speech/brooklyn_bridge.wav. El archivo de verdad fundamental contiene:How old is the Brooklyn Bridge. Si no tienes ningún archivo de verdad fundamental, te recomendamos que descargues la transcripción en formato de texto. Edita el archivo de transcripción según sea necesario. Sube el archivo de transcripción como archivo de referencia. - Con la opción Subir o un archivo de Cloud Storage, especifica el archivo de verdad fundamental y haz clic en Guardar.
Confirmar la verdad fundamental
- Después de hacer clic en Guardar, se mostrará un mensaje para confirmar que el archivo de verdad fundamental especificado es correcto. Comprueba que el archivo de referencia represente con precisión las transcripciones correctas, ya que afecta directamente a las métricas de precisión.
- Haz clic en Confirmar para continuar.
Consultar los resultados de la evaluación
- En función del tamaño de los datos de entrada, el proceso de evaluación puede tardar un poco y los resultados se muestran una vez completado.
- Una vez completada la evaluación, se muestran las siguientes secciones:
- La tabla Precisión de la transcripción, las métricas de precisión y un enlace al archivo de referencia que se ha usado en el proceso.
- El
Transcriptioncon un interruptor para comparar con el archivo de validación en el terreno, así como un desglose de las métricas de precisión y los aspectos destacados.
- Revisa e interpreta los resultados de precisión para comprender el rendimiento del reconocedor de Transcripción de voz de Cloud que se usa para identificar áreas de mejora, ya que los resultados varían en función de las entradas y la transcripción utilizadas. En los siguientes ejemplos, puedes ver casos indicativos de los resultados de precisión, que proporcionan información valiosa para optimizar el sistema Cloud Speech-to-Text.
- Ejemplo de WER del 0 %:
Página de precisión de la transcripción de Cloud Speech-to-Text, que muestra los resultados de la evaluación calculados para la transcripción dada con una tasa de error de palabras del 0 %. - Ejemplo de WER del 40 %:
Página de precisión de la transcripción de Cloud Speech-to-Text que muestra los resultados de la evaluación calculados para la transcripción dada con una tasa de error de palabras del 40 %.
- Ejemplo de WER del 0 %:
Opcional: Actualizar la verdad fundamental
Puedes probar una validación en el terreno diferente con la transcripción actual. Para ello, vuelve a adjuntar otro archivo y repite los pasos tres y cuatro con un archivo de validación en el terreno actualizado.
Pruébalo
Si es la primera vez que utilizas Google Cloud, crea una cuenta para evaluar el rendimiento de Cloud STT en situaciones reales. Los nuevos clientes también reciben 300 USD en crédito gratuito para ejecutar, probar y desplegar cargas de trabajo.
Probar Cloud STT gratis