Los nuevos usuarios de Cloud Speech-to-Text deben usar la API V2. Consulta nuestra guía de migración para saber cómo migrar proyectos a la versión más reciente.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Mide y mejora la precisión

En esta guía de inicio rápido, aprenderá a medir y mejorar la precisión deGoogle Cloud Cloud Speech-to-Text para sus datos de audio. También puedes consultar los distintos modelos y opciones disponibles en la API para mejorar la precisión de la transcripción. Descubre cómo usar la interfaz de usuario de Cloud Speech-to-Text en la Google Cloud consola y un archivo de referencia para medir la precisión y obtener información valiosa sobre el sistema Cloud Speech-to-Text.

Los sistemas de aprendizaje automático están sujetos a imprecisiones por naturaleza, y los sistemas de reconocimiento de voz automático (ASR), también conocidos como sistemas de Cloud Speech-to-Text, no son una excepción. La medición precisa de la exactitud está estrechamente relacionada con casos prácticos específicos y con los sistemas que se evalúan, ya que las diferencias en la calidad de la grabación de audio y las condiciones acústicas pueden influir significativamente en la exactitud. Por lo tanto, no es práctico obtener una única puntuación de precisión para todos los clientes y casos prácticos. Para asegurar el rendimiento fiable de los sistemas de reconocimiento automático del habla en sistemas de producción críticos. También es fundamental entender cómo funciona Cloud Speech-to-Text en el contexto más amplio de tu sistema.

En esta guía de inicio rápido,se utiliza el método estándar del sector para hacer comparaciones, tasa de error de palabra (WER), que suele abreviarse como WER. Para obtener más información sobre cómo se calcula e interpreta el WER, consulta Medir y mejorar la precisión del habla.

Empezar a usar la Google Cloud consola

Permisos que se necesitan para completar esta tarea

Para realizar esta tarea, debes tener los siguientes permisos:

storage.buckets.get
storage.buckets.list

A nivel de proyecto o de segmento:

storage.objects.create
storage.objects.get
storage.objects.list
storage.objects.update

Asegúrate de que te has registrado para obtener una cuenta de Google Cloud y has creado un proyecto.

Ve a Speech en la consola de Google Cloud y desplázate hasta la interfaz de usuario de Cloud Speech-to-Text.
Usa un archivo de audio que represente acústicamente tu caso práctico y cómo tienes previsto usar el sistema de ASR. A continuación, sigue las instrucciones de la guía de inicio rápido para crear tu primera transcripción con Cloud Speech-to-Text.

Calcular la precisión de la transcripción

Una vez que hayas transcrito correctamente el archivo de audio, ve a la sección Precisión de la transcripción. Esta sección permanecerá vacía hasta que se calcule la precisión de la transcripción.
Con el botón Subir datos de referencia situado en la parte superior de la sección, puedes empezar a calcular la precisión.

Página de detalles de la transcripción de Transcripción de voz de Cloud, en la que se destaca la sección de precisión de la transcripción y el botón para subir la transcripción validada en el terreno. — Página de detalles de la transcripción de Cloud Speech-to-Text, en la que se destaca la sección de precisión de la transcripción y el botón para subir la verdad fundamental.

Especificar la verdad fundamental

Para calcular la precisión de la transcripción, proporciona un archivo de referencia. Se trata de un archivo TXT o CSV, normalmente una transcripción generada por una persona, que contiene las transcripciones correctas o esperadas para compararlas.
Por ejemplo, gs://cloud-samples-data/speech/brooklyn_bridge.wav. El archivo de verdad fundamental contiene: How old is the Brooklyn Bridge. Si no tienes ningún archivo de verdad fundamental, te recomendamos que descargues la transcripción en formato de texto. Edita el archivo de transcripción según sea necesario. Sube el archivo de transcripción como archivo de referencia.
Con la opción Subir o un archivo de Cloud Storage, especifica el archivo de verdad fundamental y haz clic en Guardar.

Página de creación de transcripciones de Cloud Speech-to-Text, que muestra opciones para seleccionar o subir un archivo de transcripción validada en el terreno. — Página de creación de transcripciones de Cloud Speech-to-Text, que muestra las opciones para seleccionar o subir un archivo de referencia.

Confirmar la verdad fundamental

Después de hacer clic en Guardar, se mostrará un mensaje para confirmar que el archivo de verdad fundamental especificado es correcto. Comprueba que el archivo de referencia represente con precisión las transcripciones correctas, ya que afecta directamente a las métricas de precisión.
Haz clic en Confirmar para continuar.

Página de transcripción de Cloud Speech-to-Text que muestra el contenido del archivo de verdad fundamental subido. — Página de transcripción de Cloud Speech-to-Text, que muestra el contenido del archivo de referencia cargado.

Consultar los resultados de la evaluación

En función del tamaño de los datos de entrada, el proceso de evaluación puede tardar un poco y los resultados se muestran una vez completado.
Una vez completada la evaluación, se muestran las siguientes secciones:
- La tabla Precisión de la transcripción, las métricas de precisión y un enlace al archivo de referencia que se ha usado en el proceso.
- El Transcription con un interruptor para comparar con el archivo de validación en el terreno, así como un desglose de las métricas de precisión y los aspectos destacados.
Revisa e interpreta los resultados de precisión para comprender el rendimiento del reconocedor de Transcripción de voz de Cloud que se usa para identificar áreas de mejora, ya que los resultados varían en función de las entradas y la transcripción utilizadas. En los siguientes ejemplos, puedes ver casos indicativos de los resultados de precisión, que proporcionan información valiosa para optimizar el sistema Cloud Speech-to-Text.
- Ejemplo de WER del 0 %:
  
  Página de precisión de la transcripción de Cloud Speech-to-Text, que muestra los resultados de la evaluación calculados para la transcripción dada con una tasa de error de palabras del 0 %.
- Ejemplo de WER del 40 %:
  
  Página de precisión de la transcripción de Cloud Speech-to-Text que muestra los resultados de la evaluación calculados para la transcripción dada con una tasa de error de palabras del 40 %.

Opcional: Actualizar la verdad fundamental

Puedes probar una validación en el terreno diferente con la transcripción actual. Para ello, vuelve a adjuntar otro archivo y repite los pasos tres y cuatro con un archivo de validación en el terreno actualizado.

Pruébalo

Si es la primera vez que utilizas Google Cloud, crea una cuenta para evaluar el rendimiento de Cloud STT en situaciones reales. Los nuevos clientes también reciben 300 USD en crédito gratuito para ejecutar, probar y desplegar cargas de trabajo.

Probar Cloud STT gratis

Mide y mejora la precisión Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.