Dans ce guide de démarrage rapide, vous allez apprendre à mesurer et à améliorer la justesse de l'API Cloud Speech-to-TextGoogle Cloud pour vos données audio. Vous allez également découvrir les différents modèles et options disponibles dans l'API pour améliorer la justesse de la transcription. Découvrez comment utiliser l'interface utilisateur de Cloud Speech-to-Text dans la console Google Cloud et un fichier de vérité terrain pour mesurer la justesse et obtenir des insights sur le système Cloud Speech-to-Text.
Les systèmes de machine learning (ML, apprentissage automatique) sont par nature sujets à des inexactitudes, et les systèmes de reconnaissance vocale automatique (ASR, Automatic Speech Recognition), également appelés systèmes Cloud Speech-to-Text, ne font pas exception. La mesure précise de la justesse dépend directement des cas d'utilisation spécifiques et des systèmes évalués, car les différences de qualité de l'enregistrement audio et les conditions acoustiques peuvent avoir un impact significatif sur la justesse. Il est par conséquent impossible d'obtenir un score de justesse unique adapté à tous les clients et cas d'utilisation. Pour garantir la fiabilité des systèmes de reconnaissance vocale automatique dans les systèmes critiques destinés à la production, il est également essentiel de comprendre le fonctionnement de Cloud Speech-to-Text dans le contexte plus large de votre système.
Pour les besoins de ce guide de démarrage rapide, utilisez la méthode standard du secteur, le taux d'erreur sur les mots, souvent abrégé en WER (pour Word Error Rate). Pour en savoir sur la méthode de calcul et d'interprétation du WER, consultez Mesurer et améliorer la justesse de la reconnaissance vocale.
Premiers pas avec la console Google Cloud
Assurez-vous d'avoir créé un compte Google Cloud et un projet.
- Accédez à Speech dans la console Google Cloud , puis accédez à l'interface utilisateur de Cloud Speech-to-Text.
- Utilisez un fichier audio dont l'acoustique est représentative de votre cas d'utilisation et de la manière dont vous prévoyez d'utiliser le système de reconnaissance vocale automatique, puis suivez les instructions de démarrage rapide pour effectuer votre première transcription à l'aide de Cloud Speech-to-Text.
Calculer la justesse de transcription
- Une fois la transcription de votre fichier audio terminée, utilisez la section Justesse de la transcription. Cette section reste vide jusqu'au calcul de la justesse de votre transcription.
- Utilisez le bouton Importer la vérité terrain en haut de la section pour commencer à calculer la justesse.
Spécifier la vérité terrain
- Pour calculer la justesse de la transcription, vous devez fournir un fichier de vérité terrain. Il s'agit d'un fichier TXT ou CSV, généralement un fichier de transcription généré par un humain, qui contient les transcriptions correctes ou attendues afin de comparer les résultats.
- Prenons pour exemple le fichier
gs://cloud-samples-data/speech/brooklyn_bridge.wav. Le fichier de vérité terrain contient :How old is the Brooklyn Bridge. Si vous ne disposez pas de fichier de vérité terrain, nous vous recommandons de télécharger la transcription au format texte. Modifiez le fichier de transcription si nécessaire. Importez le fichier de transcription en tant que fichier de vérité terrain. - À l'aide de l'option Importer, ou en accédant directement à un fichier Cloud Storage existant, spécifiez le fichier de vérité terrain, puis cliquez sur Enregistrer.
Confirmer la vérité terrain
- Après avoir cliqué sur Enregistrer, une invite s'affiche pour confirmer que le fichier de vérité terrain spécifié est correct. Vérifiez que les transcriptions du fichier de vérité terrain sont fidèlement représentées et dépourvues d'erreurs, car cela affecte directement les métriques de justesse.
- Cliquez sur Confirmer pour continuer.
Examiner les résultats de l'évaluation
- Selon la taille des données d'entrée, le processus d'évaluation peut prendre un certain temps. Les résultats s'affichent une fois le processus terminé.
- Une fois l'évaluation terminée, les sections suivantes s'affichent :
- La table Justesse de la transcription, les métriques de justesse et un lien vers le fichier de vérité terrain utilisé pendant le processus.
- La
Transcriptionavec un bouton permettant de la comparer avec le fichier de vérité terrain, ainsi qu'une analyse des métriques de justesse et des points importants.
- Examinez et interprétez les résultats de justesse afin de comprendre et d'évaluer les performances de l'outil de reconnaissance Cloud Speech-to-Text, ce qui va permettre de cerner les axes d'amélioration. En effet, les résultats varient en fonction des entrées et de la transcription utilisées. Les exemples suivants sont donnés à titre indicatif et reflètent des cas de résultats de justesse qui fournissent des renseignements précieux pour l'optimisation du système Google Cloud Speech-to-Text.
- Exemple de taux d'erreur sur les mots de 0 % :
Capture d'écran de la page de justesse de la transcription Cloud Speech-to-Text, montrant les résultats des évaluations calculées pour la transcription donnée avec un taux d'erreur sur les mots de 0 %. - Exemple de taux d'erreur sur les mots de 40 % :
Capture d'écran de la page de justesse de la transcription Cloud Speech-to-Text, montrant les résultats des évaluations calculées pour la transcription donnée avec un taux d'erreur sur les mots de 40 %.
- Exemple de taux d'erreur sur les mots de 0 % :
Facultatif : mettre à jour la vérité terrain
Vous pouvez tester une vérité terrain différente et la comparer à la transcription existante, en rattachant un autre fichier et en répétant les étapes 3 et 4 avec un fichier de vérité terrain mis à jour.
Faites l'essai
Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de Cloud SST en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits offerts pour exécuter, tester et déployer des charges de travail.
Profiter d'un essai offert de Cloud STT