Améliorer la reconnaissance vocale pour les personnes qui bégaient
Une méthode pour améliorer les systèmes ASR pour les utilisateurs qui bégayent.
― 7 min lire
Table des matières
- La nécessité d'accessibilité dans les systèmes ASR
- Défis dans le test des systèmes ASR
- Génération d'échantillons de parole bégayante
- Évaluation des systèmes ASR
- Résultats de l'évaluation
- Impact des différents types de bégaiement
- Comparaison des systèmes ASR
- Importance d'un test robuste
- Directions futures
- Conclusion
- Source originale
- Liens de référence
Les systèmes de Reconnaissance Automatique de la Parole (ASR) sont devenus courants dans notre vie quotidienne. Ces systèmes transforment le langage parlé en texte. Bien qu'ils se soient beaucoup améliorés au fil des ans, ils peinent encore avec certains types de parole, comme celle des personnes qui bégaient. Cet article discute d'une méthode pour mieux tester les systèmes ASR afin de les rendre plus accessibles pour les personnes qui bégaient.
La nécessité d'accessibilité dans les systèmes ASR
Beaucoup de gens utilisent des systèmes ASR, y compris des personnes avec des handicaps. Améliorer l'accessibilité de ces systèmes pour les utilisateurs qui bégaient est essentiel. Le Bégaiement peut entraîner des malentendus, rendant crucial que les systèmes ASR reconnaissent avec précision ce type de parole. Cependant, les systèmes ASR existants rencontrent des défis lors du traitement de la parole bégayante.
Défis dans le test des systèmes ASR
Tester les systèmes ASR pour leur capacité à gérer la parole bégayante n'est pas simple. Un gros problème est le manque de jeux de données de parole diversifiés enregistrés à partir de personnes qui bégaient. La plupart des jeux de données disponibles ne représentent pas suffisamment les différentes manières dont le bégaiement peut se manifester. De plus, ils manquent souvent de transcriptions textuelles correctes, ce qui signifie qu'ils ne peuvent pas être utilisés efficacement pour tester les systèmes ASR.
L'objectif d'un test efficace est de créer des exemples divers de parole bégayante, ce qui peut aider à exposer les faiblesses des systèmes ASR. Cette étude propose une méthode pour générer des échantillons de parole bégayante qui peuvent être utilisés pour évaluer les systèmes ASR de manière précise.
Génération d'échantillons de parole bégayante
Pour tester les systèmes ASR efficacement, on introduit une technique pour générer des échantillons de parole bégayante. Cette technique consiste à créer des fichiers audio qui imitent comment parlent les personnes qui bégaient tout en s’assurant que les échantillons générés sont suffisamment variés pour révéler d'éventuelles défaillances des systèmes ASR.
Types de bégaiement
Le bégaiement peut se manifester de plusieurs façons, et notre technique vise à simuler ces variations. Les types de bégaiement courants incluent :
- Blocage : Ça se produit quand une personne fait une pause au milieu d’un mot.
- Prolongation : Ici, une syllabe est étirée au-delà de sa durée normale.
- Répétition de son : Dans ce cas, une syllabe est répétée.
- Répétition de mot : Cela implique de répéter des mots entiers.
- Interjection : Le locuteur ajoute des mots de remplissage comme "euh" ou "hum" pendant qu'il parle.
En incorporant ces variations, notre méthode produit des échantillons de bégaiement réalistes pour le test.
Évaluation des systèmes ASR
Pour évaluer comment les systèmes ASR réagissent aux échantillons audio de bégaiement générés, on a réalisé une série de tests en utilisant à la fois des systèmes ASR open-source et commerciaux. Ces tests mesuraient combien d'erreurs les systèmes commettaient en essayant de transcrire la parole.
Métriques de performance
On a utilisé trois principales métriques pour évaluer les systèmes ASR :
- Taux d'erreur de mots (WER) : Ça mesure le pourcentage de mots incorrects dans la transcription ASR par rapport au texte original.
- Taux d'erreur de correspondance (MER) : Ça évalue combien de mots ont été mal transcrits par rapport à combien correspondaient au texte original.
- Information de mot perdue (WIL) : Ça évalue combien d'informations le système ASR a perdu par rapport au texte original.
Ces métriques aident à comprendre comment les systèmes ASR reconnaissent la parole bégayante.
Résultats de l'évaluation
On a mis en œuvre notre technique de test et évalué la performance de quatre modèles ASR open-source et trois systèmes ASR commerciaux. Les résultats ont montré que nos échantillons de bégaiement générés ont considérablement augmenté les erreurs de reconnaissance dans tous les systèmes testés.
Étude utilisateur
En plus des évaluations techniques, on a mené une étude utilisateur pour vérifier si les échantillons audio de bégaiement générés sonnaient réalistes. Les participants ont reçu des paires d'échantillons audio, un généré et un réel. Leur tâche était d'identifier l'échantillon réel. Les résultats ont indiqué que les participants avaient du mal à faire la différence entre l'audio généré et réel, confirmant le réalisme de nos échantillons.
Impact des différents types de bégaiement
On a aussi examiné comment chaque type de bégaiement affectait la performance des systèmes ASR. Chacun des cinq types de bégaiement a été testé individuellement pour voir lequel avait le plus grand impact sur les taux de reconnaissance ASR.
Le type de bégaiement par blocage a montré les taux d'erreur les plus élevés, suivi des interjections et des prolongations. Les répétitions de mots et de sons ont également contribué aux erreurs, mais dans une moindre mesure. Cette compréhension aide à identifier quels aspects du bégaiement posent le plus de problèmes aux systèmes ASR.
Comparaison des systèmes ASR
On a comparé les performances de divers systèmes ASR et trouvé des différences notables. Les systèmes commerciaux ont généralement mieux réussi que les open-source, mais il y avait encore des erreurs significatives dans la reconnaissance de la parole bégayante. Parmi les systèmes commerciaux, un a surpassé les autres, atteignant les meilleurs taux de reconnaissance.
Importance d'un test robuste
Nos résultats soulignent la nécessité de méthodologies de test robustes pour les systèmes ASR. En simulant un discours bégayant réaliste, les développeurs peuvent mieux comprendre les faiblesses de leurs systèmes et travailler à créer une technologie plus précise et inclusive.
Tester les systèmes ASR avec de l'audio de bégaiement généré est crucial pour faire des avancées. Cela aidera à garantir que les personnes qui bégaient aient une meilleure expérience avec les technologies de reconnaissance vocale.
Directions futures
La recherche présentée ouvre plusieurs pistes pour de futurs travaux. D'autres investigations peuvent explorer des modèles de bégaiement plus divers et leurs effets sur la performance des systèmes ASR. De plus, à mesure que la technologie ASR continue d'évoluer, des tests continus seront nécessaires pour maintenir les améliorations en matière d'accessibilité.
Conclusion
L'accessibilité des systèmes ASR est essentielle pour les utilisateurs ayant des troubles de la parole, en particulier ceux qui bégaient. Notre méthode pour générer des échantillons audio de bégaiement réalistes fournit une base solide pour évaluer les systèmes ASR. En identifiant les faiblesses des modèles actuels, les chercheurs et les développeurs peuvent travailler ensemble pour créer des technologies de reconnaissance vocale meilleures et plus inclusives.
Titre: ASTER: Automatic Speech Recognition System Accessibility Testing for Stutterers
Résumé: The popularity of automatic speech recognition (ASR) systems nowadays leads to an increasing need for improving their accessibility. Handling stuttering speech is an important feature for accessible ASR systems. To improve the accessibility of ASR systems for stutterers, we need to expose and analyze the failures of ASR systems on stuttering speech. The speech datasets recorded from stutterers are not diverse enough to expose most of the failures. Furthermore, these datasets lack ground truth information about the non-stuttered text, rendering them unsuitable as comprehensive test suites. Therefore, a methodology for generating stuttering speech as test inputs to test and analyze the performance of ASR systems is needed. However, generating valid test inputs in this scenario is challenging. The reason is that although the generated test inputs should mimic how stutterers speak, they should also be diverse enough to trigger more failures. To address the challenge, we propose ASTER, a technique for automatically testing the accessibility of ASR systems. ASTER can generate valid test cases by injecting five different types of stuttering. The generated test cases can both simulate realistic stuttering speech and expose failures in ASR systems. Moreover, ASTER can further enhance the quality of the test cases with a multi-objective optimization-based seed updating algorithm. We implemented ASTER as a framework and evaluated it on four open-source ASR models and three commercial ASR systems. We conduct a comprehensive evaluation of ASTER and find that it significantly increases the word error rate, match error rate, and word information loss in the evaluated ASR systems. Additionally, our user study demonstrates that the generated stuttering audio is indistinguishable from real-world stuttering audio clips.
Auteurs: Yi Liu, Yuekang Li, Gelei Deng, Felix Juefei-Xu, Yao Du, Cen Zhang, Chengwei Liu, Yeting Li, Lei Ma, Yang Liu
Dernière mise à jour: 2023-08-29 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.15742
Source PDF: https://arxiv.org/pdf/2308.15742
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://sites.google.com/view/
- https://www.overleaf.com/project/63d47619cd6b75fb9e458bc8stuttering
- https://www.asha.org/practice-portal/clinical-topics/fluency-disorders/
- https://leader.pubs.asha.org/do/10.1044/leader.FTR2.28012023.ai-treatment-slp.50/
- https://www.thelancet.com/journals/landig/article/PIIS2589-7500
- https://forms.gle/EmbnqLY7ezqptxAr7
- https://www.nscc.sg
- https://sites.google.com/view/aster-speech/pareto-frontier-code