Transcribe voz a texto con la consola de Google Cloud

En esta guía de inicio rápido, se presenta la consola de Cloud Speech-to-Text. En esta guía de inicio rápido, crearás y definirás mejor una transcripción, además, aprenderás a usar esta configuración con la API de Cloud Speech-to-Text para tus propias aplicaciones.

Si deseas obtener información para enviar solicitudes y recibir respuestas con la API de REST en lugar de la consola, consulta la página Antes de comenzar.

Antes de comenzar

Antes de comenzar a usar la consola de Cloud Speech-to-Text, debes habilitar la API en la consola de Google Cloud. Estos pasos te guiarán para llevar a cabo las siguientes acciones:

Habilita Cloud Speech-to-Text en un proyecto.
Asegúrate de que la facturación esté habilitada para Cloud Speech-to-Text.

Configura tu proyecto de Google Cloud

Accede a la consola de Google Cloud .
Ir a la página Selector de proyectos

Puedes elegir un proyecto existente o crear uno nuevo. Si deseas obtener más información para crear un proyecto, consulta la documentación de Google Cloud.
Si creas un proyecto nuevo, se te pedirá que vincules una cuenta de facturación a este proyecto. Si usas un proyecto existente, asegúrate de que la facturación esté habilitada.

Descubre cómo confirmar que tienes habilitada la facturación en un proyecto.

Nota: Debes habilitar la facturación para usar la API de Cloud Speech-to-Text. Sin embargo, no se te cobrará a menos que excedas la cuota gratuita. Consulta la página de precios y obtén más información.
Una vez que seleccionaste un proyecto y lo vinculaste a una cuenta de facturación, puedes habilitar la API de Cloud Speech-to-Text. Ve a la barra Buscar productos y recursos en la parte superior de la página y escribe "speech".
Selecciona la API de Cloud Speech-to-Text en la lista de resultados.
Para probar Cloud Speech-to-Text sin vincularla a tu proyecto, elige la opción PROBAR ESTA API. Si deseas habilitar la API de Cloud Speech-to-Text para usarla en tu proyecto, haz clic en HABILITAR.

Roles requeridos

Para obtener los permisos que necesitas para crear una transcripción, pídele a tu administrador que te otorgue el rol de IAM Administrador de almacenamiento (roles/storage.admin) en tu proyecto. Si deseas obtener más información para otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Este rol predefinido contiene los permisos necesarios para crear una transcripción. Para ver los permisos exactos que son necesarios, expande la sección Permisos necesarios:

Permisos necesarios

Se requieren los siguientes permisos para crear una transcripción:

storage.buckets.get
storage.buckets.list
storage.buckets.update
A nivel de proyecto o de bucket, debes tener los siguientes permisos:
- storage.objects.create
- storage.objects.delete
- storage.objects.get
- storage.objects.list
- storage.objects.update

También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.

Crea una transcripción

Usa la consola de Google Cloud para crear una transcripción.

Configuración de audio

Abre la descripción general de Cloud Speech-to-Text.
Haz clic en Crear transcripción (Create transcription).
- Si es la primera vez que usas la consola, se te pedirá que elijas dónde almacenar las opciones de configuración y las transcripciones en Cloud Storage.
En la página Crear transcripción, sube un archivo de audio de origen. Puedes elegir un archivo guardado en Cloud Storage o subir uno nuevo al destino de Cloud Storage especificado.
Selecciona el tipo de codificación del archivo de audio que se subió.
Especifica la tasa de muestreo.
Haz clic en Continuar (Continue). Se te dirigirá a Opciones de transcripción.

Opciones de transcripción

Selecciona el código de idioma del audio de origen. Este es el idioma que se está reproduciendo en la grabación.
Elige el modelo de transcripción (Transcription model) que deseas usar en el archivo. La opción predeterminada está preseleccionada y, por lo general, no es necesario realizar cambios, pero hacer coincidir el modelo con el tipo de audio puede generar una mayor exactitud. Ten en cuenta que los costos del modelo varían.
Haz clic en Continuar. Se te dirigirá a Adaptación de modelos (Model adaptation).

Adaptación de modelos (opcional)

Si el audio de origen contiene palabras poco frecuentes, nombres propios o términos de propiedad, y tienes problemas con el reconocimiento, la adaptación de modelos puede ser útil.

Marca Activar la adaptación del modelo (Turn on model adaptation).
Elige Recurso de adaptación único (One-time adaptation resource).
Agrega frases (Phrases) pertinentes y asígnales un valor de mejora (Boost value).
En la columna izquierda, haz clic en Enviar (Submit) para crear la transcripción.

Revisa tu transcripción

Según el tamaño de tu archivo de audio, una transcripción puede tardar desde minutos hasta horas en crearse. Una vez que se crea la transcripción, está lista para su revisión. Si ordenas la tabla por marca de tiempo, puedes encontrar con facilidad tus transcripciones recientes.

Haz clic en el Nombre (Name) de la transcripción que quieres revisar.
Compara el texto de Transcripción (Transcription) con el archivo de audio.
Si deseas realizar cambios, haz clic en Reutilizar configuración (Reuse configuration). Esto te llevará al flujo Crear transcripción con las mismas opciones preseleccionadas, lo que te permitirá cambiar algunos elementos, crear una transcripción nueva y comparar los resultados.

¿Qué sigue?

Practica transcribir archivos de audio cortos.
Aprende a agrupar archivos de audio largos para reconocimiento de voz.
Aprende a transcribir audio con transmisión continua como, por ejemplo, desde un micrófono.
Comienza a usar Cloud STT en el idioma de tu preferencia con una biblioteca cliente de Cloud STT.
Trabaja con las aplicaciones de muestra.
Para mejorar el rendimiento y la exactitud, así como ver otras sugerencias, consulta la documentación de prácticas recomendadas.