Mide y mejora la exactitud

En esta guía de inicio rápido, obtendrás información para medir y mejorar la exactitud de Google Cloud Cloud Speech-to-Text para tus datos de audio. También explorarás los diversos modelos y opciones disponibles en la API para mejorar la exactitud de la transcripción. Explora cómo usar la IU de Cloud Speech-to-Text en la consola de Google Cloud y un archivo de verdad fundamental para medir la exactitud y obtener estadísticas del sistema de Cloud Speech-to-Text.

Por su parte, los sistemas de aprendizaje automático (AA) están sujetos a errores, y los sistemas de reconocimiento de voz automático (ASR), también conocidos como sistemas de Cloud Speech-to-Text, no son una excepción. La medición precisa de la exactitud guarda una relación estrecha con los casos de uso específicos y los sistemas que se evalúan. Esto se debe a que las diferencias en la calidad de la grabación de audio y las condiciones acústicas pueden tener un impacto significativo en la exactitud. Como resultado, una puntuación de exactitud única para todos los clientes y casos de uso no es práctica. Para garantizar un rendimiento confiable de los sistemas ASR en los sistemas orientados a la producción. También es importante comprender el rendimiento de Cloud Speech-to-Text en un contexto más amplio de tu sistema.

Para los fines de esta guía de inicio rápido, usa el método estándar de la industria para comparar: Tasa de error de palabras (WER), que a menudo se abrevia como WER. Si deseas obtener más información para interpretar y calcular el WER, consulta Mide y mejora la exactitud de la voz.

Comienza a usar la consola de Google Cloud

Asegúrate de haberte registrado en una cuenta de Google Cloud y de haber creado un proyecto.

  1. Ve a Speech en la consola de Google Cloud y navega a la IU de Cloud Speech-to-Text.
  2. Con un archivo de audio que represente de forma acústica tu caso de uso y cómo planeas usar el sistema ASR, sigue las instrucciones de la guía de inicio rápido para realizar tu primera transcripción con Cloud Speech-to-Text.

Calcula la exactitud de la transcripción

  1. Una vez que hayas transcrito con éxito el archivo de audio, usa la sección Exactitud de las transcripciones (Transcription accuracy). Esta sección permanece vacía hasta que se calcule la exactitud para tu transcripción.
  2. Puedes empezar a calcular la exactitud con el botón Subir verdad fundamental (Upload ground truth) que se encuentra en la parte superior de la sección.
Página de detalles de la transcripción de Cloud Speech-to-Text, en la que se destacan la sección Exactitud de las transcripciones y el botón Subir verdad fundamental.
Página de detalles de la transcripción de Cloud Speech-to-Text, en la que se destacan la sección Exactitud de las transcripciones y el botón Subir verdad fundamental.

Especifica la verdad fundamental

  1. Para calcular la exactitud de la transcripción, proporciona un archivo de verdad fundamental. Este es un archivo TXT o CSV, por lo general, un archivo de transcripción generado por personas que contiene las transcripciones correctas o esperadas para su comparación.
  2. Usa gs://cloud-samples-data/speech/brooklyn_bridge.wav como ejemplo. El archivo de verdad fundamental incluye: How old is the Brooklyn Bridge. Si no tienes un archivo de verdad fundamental disponible, se recomienda descargar la transcripción en formato de texto. Edita el archivo de transcripción según sea necesario. Sube el archivo de transcripción como el archivo de verdad fundamental.
  3. Con Carga local o un archivo existente de Cloud Storage, especifica el archivo de verdad fundamental y haz clic en Guardar.
Página de creación de transcripciones de Cloud Speech-to-Text, en la que se muestran opciones para seleccionar o subir un archivo de verdad fundamental.
Página de creación de transcripciones de Cloud Speech-to-Text, en la que se muestran opciones para seleccionar o subir un archivo de verdad fundamental.

Confirma la verdad fundamental

  1. Después de hacer clic en Guardar (Save), aparecerá un mensaje para confirmar que el archivo de verdad fundamental especificado sea correcto. Verifica que el archivo de verdad fundamental represente con exactitud las transcripciones correctas, ya que afecta directamente las métricas de precisión.
  2. Haz clic en Confirmar (Confirm) para continuar.
Página de transcripción de Cloud Speech-to-Text que muestra el contenido del archivo de verdad fundamental subido.
Página de transcripción de Cloud Speech-to-Text que muestra el contenido del archivo de verdad fundamental subido.

Revisa los resultados de la evaluación

  1. Según el tamaño de los datos de entrada, el proceso de evaluación puede llevar un tiempo, y los resultados se mostrarán cuando se completen.
  2. Una vez que se complete la evaluación, se mostrarán las siguientes secciones:
    • La tabla Exactitud de las transcripciones (Transcription accuracy), las métricas de exactitud y un vínculo al archivo de verdad fundamental que se usó en el proceso.
    • La Transcription con un botón de activación para comparar con el archivo de verdad fundamental, junto con un desglose de las métricas de exactitud y aspectos destacados.
  3. Revisa e interpreta los resultados de exactitud para comprender el rendimiento del reconocedor de Cloud Speech-to-Text que se usa con el objetivo de identificar las áreas que se deben mejorar, ya que varían según las entradas y las transcripciones que se usen. En los siguientes ejemplos, puedes ver casos indicativos de los resultados de exactitud, que proporcionan información valiosa para la optimización del sistema de Cloud Speech-to-Text.
    • Ejemplo de WER del 0%:
      Página de exactitud de la transcripción de Cloud Speech-to-Text que muestra los resultados de la evaluación calculados para la transcripción determinada con una tasa de error de palabras del 0%.
      Página de exactitud de la transcripción de Cloud Speech-to-Text que muestra los resultados de la evaluación calculados para la transcripción determinada con una tasa de error de palabras del 0%.
    • Ejemplo de WER del 40%:
      Página de exactitud de la transcripción de Cloud Speech-to-Text que muestra los resultados de la evaluación calculados para la transcripción determinada con una tasa de error de palabras del 40%.
      Página de exactitud de la transcripción de Cloud Speech-to-Text que muestra los resultados de la evaluación calculados para la transcripción determinada con una tasa de error de palabras del 40%.

Opcional: Actualiza la verdad fundamental

Para probar una verdad fundamental diferente con respecto a la transcripción existente, puedes volver a adjuntar un archivo diferente y repetir los pasos tres y cuatro con un archivo de verdad fundamental actualizado.

Pruébalo

Si es la primera vez que usas Google Cloud, crea una cuenta para evaluar el rendimiento de Cloud STT en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar e implementar cargas de trabajo.

Probar Cloud STT gratis