Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Calcul et langage# Son

Progrès dans la reconnaissance vocale pour les enfants

Cette étude améliore la capacité des systèmes ASR à reconnaître la parole des enfants.

― 7 min lire


Améliorer laAméliorer lareconnaissance vocale desenfantsvocale pour la parole des enfants.Cette étude améliore la reconnaissance
Table des matières

La Reconnaissance vocale automatique (RVA) a fait des progrès énormes récemment, surtout avec des systèmes comme Whisper, qui peuvent comprendre la parole humaine assez bien quand on lui donne assez de données. Mais ces avancées ne s'appliquent pas facilement à la parole des enfants. C'est surtout dû à deux raisons : il n'y a pas assez de bases de données qui se concentrent sur la parole des enfants, et la façon de parler des enfants a des caractéristiques uniques qui diffèrent de celles des adultes. Une étude récente a examiné l'utilisation de la base de données de parole des enfants My Science Tutor (MyST) pour améliorer la capacité de Whisper à reconnaître la parole des enfants. Ils ont montré des résultats positifs sur un petit ensemble de tests. Cet article s'appuie sur leurs conclusions et utilise de meilleures techniques de préparation des données pour améliorer encore la performance de Whisper avec la parole des enfants.

Le défi de la reconnaissance de la parole des enfants

La RVA est devenue populaire ces dernières années en utilisant de grandes quantités de discours transcrit collectées de diverses sources sur internet. Par exemple, Whisper utilise 680 000 heures de données pour atteindre une précision presque humaine. Cependant, les systèmes de RVA ont du mal avec la parole des enfants, souvent considérée comme une tâche à faible ressource. Des recherches précédentes ont mis en évidence l'écart de performance entre la reconnaissance de la parole des adultes et celle des enfants, même dans des langues largement parlées comme l'anglais. Les principales raisons de cet écart sont les différences dans la façon dont les enfants parlent et leurs stades de développement. Les systèmes de RVA entraînés sur la parole des adultes n'apprennent souvent pas à gérer ces différences, car elles ne sont pas présentes dans les données d'entraînement.

La taille et la qualité limitées des bases de données de la parole des enfants ajoutent aussi au problème. Collecter et transcrire la parole des enfants est difficile et conduit souvent à des ensembles de données moins fiables.

La base de données My Science Tutor

Le corpus MyST est la plus grande base de données de parole d'enfants disponible publiquement. Il contient des enregistrements d'élèves de troisième, quatrième et cinquième année participant à des séances de tutorat virtuelles sur des sujets comme la physique et la géographie. Bien que le corpus inclue environ 393 heures de parole d'enfants, seulement environ 197 heures ont été transcrites. La qualité de ces Transcriptions varie beaucoup. Certaines transcriptions sont complètement incorrectes, tandis que d'autres souffrent d'une mauvaise qualité audio parce que les enfants peuvent parler trop près du micro.

Pour résoudre ces problèmes, nous avons filtré le corpus MyST pour trouver et éliminer les transcriptions de mauvaise qualité. En procédant ainsi, nous avons pu conserver 179,2 heures de parole bien transcrite. Conserver les divisions de données originales garantit qu'aucun orateur ne se chevauche entre les ensembles d'entraînement et de test, ce qui est essentiel pour des résultats crédibles.

Amélioration du traitement des données

Nous avons mis l'accent sur la création de meilleures méthodes de préparation des données pour le jeu de données MyST. En appliquant des techniques de filtrage plus strictes, nous avons réduit les erreurs dans les données de transcription. Nous avons supprimé les fichiers avec un Taux d'erreur de mots (WER) élevé et éliminé les fichiers courts qui manquaient de contexte. Après le filtrage, nous avons normalisé les données textuelles pour garantir la cohérence dans la façon dont les mots et les chiffres étaient représentés, ce qui aide le modèle à mieux apprendre.

Au final, nous avons produit un ensemble de données propre qui est trois fois plus grand que les tentatives précédentes. Ce traitement minutieux donne à nos modèles une base plus solide pour apprendre, ce qui est crucial lors de l'entraînement de systèmes pour reconnaître la parole des enfants.

Entraînement des modèles

Nous avons choisi Whisper pour nos expériences en raison de son vaste background d'entraînement. Le modèle a prouvé qu'il était fort pour reconnaître divers schémas de discours. Pour notre entraînement, nous avons affiné les versions Small et Medium de Whisper en utilisant notre jeu de données MyST préparé. Nous avons aussi testé le modèle sur la base de données CSLU Kids pour évaluer sa flexibilité et sa précision avec des données non vues.

Nous avons réalisé l'entraînement en utilisant une méthode qui nous a permis d'atteindre les meilleures performances possibles tout en garantissant que les résultats puissent être reproduits. Nos modèles ont été exécutés sur des GPU puissants pour optimiser le temps d'entraînement et l'efficacité.

Résultats et observations

Après avoir affiné Whisper sur le jeu de données MyST, nous avons obtenu une réduction significative du WER. Pour le modèle Small, nous avons diminué le WER de 13,93 % à 9,11 %, tandis que le WER du modèle Medium est passé de 13,23 % à 8,61 %. Ces résultats montrent une amélioration marquée de la capacité du modèle à comprendre la parole des enfants.

Lorsque nous avons testé le modèle sur la base de données CSLU Kids, le WER s'est également amélioré, démontrant l'adaptabilité du modèle à de nouvelles données qu'il n'avait pas rencontrées pendant l'entraînement. C'est une qualité essentielle car les applications réelles de la RVA rencontreront des schémas de discours divers.

Les résultats soulignent que l'affinage a non seulement amélioré les taux de reconnaissance pour le jeu de données MyST, mais a également permis au modèle de bien se généraliser à d'autres ensembles de données, comme CSLU Kids.

Défis de la RVA pour les enfants

Malgré les avancées réalisées, plusieurs défis subsistent pour améliorer la RVA pour la parole des enfants. La variabilité dans la façon dont les enfants parlent peut être difficile pour les modèles à s'adapter, car ils changent rapidement de sujet et peuvent ne pas suivre une structure stricte dans leurs conversations. Cette imprévisibilité peut perturber les systèmes de RVA, qui se basent sur des motifs.

De plus, des facteurs comme le bruit de fond-courant dans les environnements de classe-peuvent entraver la reconnaissance. S'attaquer à ces défis sera essentiel pour développer des systèmes de RVA plus efficaces pour les enfants à l'avenir.

Directions futures

En regardant vers l'avenir, il y a plusieurs domaines qui valent la peine d'être explorés. Un objectif est d'examiner comment Whisper fonctionne dans des environnements bruyants qui ressemblent à de véritables classes. Nous voulons comprendre comment différents sons impactent la capacité du modèle à reconnaître la parole avec précision.

En plus, nous prévoyons d'explorer les biais potentiels dans les modèles. Il est crucial de déterminer si certains groupes d'âge ou sexes sont mieux reconnus que d'autres. Des travaux précédents ont suggéré que la création de systèmes de RVA adaptés à des groupes d'âge spécifiques pourrait donner de meilleurs résultats. Nous visons à vérifier si cette approche est efficace avec des modèles plus avancés.

Conclusion

En résumé, ce travail démontre le potentiel d'utiliser Whisper pour reconnaître la parole des enfants en s'appuyant sur le jeu de données MyST. Nous avons réussi à filtrer et préparer les données pour améliorer les performances, atteignant une réduction notable des taux d'erreur. Bien que des défis subsistent, les résultats indiquent qu'avec les bonnes techniques, il est possible de combler le fossé entre la reconnaissance de la parole des adultes et celle des enfants. Les recherches futures se concentreront sur l'amélioration de la résilience au bruit et sur l'assurance de l'équité entre différents groupes d'âge et démographiques dans les systèmes de RVA.

Source originale

Titre: Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults

Résumé: Recent advancements in Automatic Speech Recognition (ASR) systems, exemplified by Whisper, have demonstrated the potential of these systems to approach human-level performance given sufficient data. However, this progress doesn't readily extend to ASR for children due to the limited availability of suitable child-specific databases and the distinct characteristics of children's speech. A recent study investigated leveraging the My Science Tutor (MyST) children's speech corpus to enhance Whisper's performance in recognizing children's speech. They were able to demonstrate some improvement on a limited testset. This paper builds on these findings by enhancing the utility of the MyST dataset through more efficient data preprocessing. We reduce the Word Error Rate (WER) on the MyST testset 13.93% to 9.11% with Whisper-Small and from 13.23% to 8.61% with Whisper-Medium and show that this improvement can be generalized to unseen datasets. We also highlight important challenges towards improving children's ASR performance. The results showcase the viable and efficient integration of Whisper for effective children's speech recognition.

Auteurs: Ahmed Adel Attia, Jing Liu, Wei Ai, Dorottya Demszky, Carol Espy-Wilson

Dernière mise à jour: 2024-05-15 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.07927

Source PDF: https://arxiv.org/pdf/2309.07927

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires