Améliorer la reconnaissance vocale pour les conversations enfant-adulte
Évaluer des modèles de reconnaissance vocale pour des sessions de diagnostic de l'autisme.
― 8 min lire
Table des matières
- L'Importance d'une Transcription Précise
- Défis dans la Reconnaissance de la Parole des Enfants
- Évaluation des Modèles de Reconnaissance Vocale
- Les Modèles en Concentration
- Approches de Test
- Résultats de l'Évaluation Zero-Shot
- Fine-Tuning et Améliorations de Performance
- L'Impact de la Longueur des Énoncés
- Directions Futures
- Source originale
Transcrire les conversations entre enfants et adultes est super important, surtout dans des contextes cliniques pour aider à diagnostiquer et comprendre les troubles du développement comme les troubles du spectre autistique (TSA). Récemment, il y a eu des améliorations significatives dans la technologie qui aide à reconnaître la parole, grâce à l'apprentissage profond et aux grandes quantités de données collectées. Cependant, on n'a pas encore assez étudié l'efficacité de ces nouveaux outils spécifiquement pour les conversations entre enfants et adultes.
Cet article examine les performances de différents modèles de reconnaissance vocale lorsqu'ils sont appliqués aux conversations entre enfants et adultes recueillies pendant des sessions de diagnostic pour l'autisme. Les modèles sur lesquels on se concentre incluent Whisper, Wav2vec2, HuBERT, et WavLM.
L'Importance d'une Transcription Précise
Transcrire avec précision les conversations entre enfants et adultes pourrait donner de meilleures idées sur la communication verbale d'un enfant, ce qui est clé pour comprendre leur développement et la gravité des symptômes liés à l'autisme. Des études précédentes ont montré que détecter les troubles du développement tôt peut mener à de meilleurs résultats pour les enfants. Pendant les évaluations d'autisme, les cliniciens interagissent avec les enfants à travers le jeu et la conversation, il est donc crucial de bien capturer ces échanges.
Malgré les avancées en technologie de reconnaissance vocale, créer des systèmes efficaces capables de reconnaître la parole des enfants, surtout en conversation, reste un défi. Cela vient de plusieurs raisons. La parole des enfants est différente de celle des adultes de plein de manières : ils utilisent souvent un ton plus aigu, ont des styles linguistiques différents et peuvent ne pas prononcer les mots clairement. De plus, collecter des données de parole de qualité chez les enfants est compliqué. Il n'y a pas beaucoup de jeux de données étiquetés disponibles, ce qui rend difficile pour les chercheurs de former des systèmes de reconnaissance vocale spécifiquement pour la parole des enfants.
Défis dans la Reconnaissance de la Parole des Enfants
Les différences de ton et de taille du canal vocal compliquent le développement de systèmes capables de reconnaître précisément la parole des enfants. Les enfants parlent souvent en phrases plus courtes et peuvent avoir des schémas de parole moins cohérents que les adultes. Des facteurs comme les difficultés de parole et de langage associées aux troubles comme le TSA compliquent encore le processus de reconnaissance.
Les sessions de diagnostic pour le TSA, connues sous le nom de Programme d'Observation Diagnostique de l'Autisme (ADOS), permettent aux prestataires de santé d'observer les capacités sociales et de communication d'un enfant. Ces sessions durent environ 40-60 minutes et incluent diverses activités conçues pour inciter des réponses de l'enfant. Transcrire ces sessions peut fournir des informations significatives, mais il faut des systèmes de reconnaissance vocale efficaces pour gérer les nuances de la parole des enfants dans les conversations.
Évaluation des Modèles de Reconnaissance Vocale
Dans cette étude, on évalue combien divers modèles avancés de reconnaissance vocale fonctionnent bien lors de la transcription des conversations entre enfants et adultes durant les sessions de diagnostic pour l'autisme. L'objectif est d'évaluer l'efficacité de ces modèles et d'identifier des opportunités d'amélioration.
On a réalisé une évaluation en utilisant un jeu de données constitué de sessions ADOS enregistrées. Ce jeu de données comprend un mélange équilibré de paroles d'enfants et d'adultes, avec des segments étiquetés qui facilitent l'analyse de la performance des modèles. Les segments se concentrent sur des activités d'interaction clés conçues pour stimuler les réponses verbales de l'enfant tout en gardant la conversation fluide.
Les Modèles en Concentration
On a regardé plusieurs modèles différents, y compris Whisper, qui utilise l'apprentissage supervisé, et aussi des modèles auto-supervisés comme Wav2Vec2, HuBERT et WavLM. Chacun de ces modèles a montré des améliorations par rapport aux méthodes traditionnelles de reconnaissance vocale.
Whisper, par exemple, a été formé sur un très grand ensemble de données, ce qui lui permet de mieux fonctionner dans diverses conditions acoustiques et avec différents locuteurs. Ce modèle a été spécifiquement évalué pour voir comment sa performance changerait avec différentes tailles, des variantes de base aux grandes.
Approches de Test
Le processus d'évaluation impliquait à la fois des évaluations en "zero-shot" et des méthodes de fine-tuning. Dans l'approche zero-shot, on a testé à quel point les modèles pouvaient bien fonctionner sans formation supplémentaire sur le jeu de données spécifique. Pour le fine-tuning, on a sélectionné le modèle le plus performant et on l'a entraîné davantage en utilisant une partie des données tout en gardant le reste de côté pour tester plus tard.
Pour le fine-tuning, on a utilisé deux scénarios : un se concentrant uniquement sur la parole des enfants et l'autre sur la parole des adultes. Cette approche nous aide à comprendre si les modèles fonctionnent mieux lorsqu'ils sont entraînés avec des exemples d'un groupe spécifique.
Résultats de l'Évaluation Zero-Shot
Les résultats de l'évaluation zero-shot ont indiqué que les modèles Whisper fonctionnaient généralement mieux que les autres modèles. La variante grande de Whisper a atteint un Taux d'erreur de mots (WER) relativement bas pour la parole des enfants et des adultes. Cependant, il y avait un écart de performance notable, avec la parole des enfants ayant un WER plus élevé comparé à celle des adultes.
Ces résultats suggèrent que les modèles ont plus de mal à transcrire la parole des enfants, probablement à cause de la quantité limitée de données de parole d'enfants disponibles pour l'entraînement des modèles.
Fine-Tuning et Améliorations de Performance
Quand on a regardé les résultats du fine-tuning, il y a eu des améliorations significatives du WER pour la parole des enfants et des adultes. Le fine-tuning du modèle en utilisant la parole des enfants a conduit à une amélioration de 8% du WER pour les énoncés des enfants et une amélioration de 13% pour les énoncés des adultes par rapport à l'évaluation zero-shot.
Intéressant, même quand on a fait le fine-tuning du modèle en utilisant uniquement la parole des adultes, le système a quand même montré des améliorations notables dans la reconnaissance de la parole des enfants. Cela suggère que le modèle a appris des caractéristiques précieuses pendant l'entraînement, ce qui a eu un impact positif sur sa performance globale.
L'Impact de la Longueur des Énoncés
Un aspect supplémentaire qu'on a exploré était comment la longueur des énoncés affectait le WER. On a constaté que les énoncés plus courts, en particulier ceux d'un ou deux mots, avaient les taux d'erreur les plus élevés. À mesure que la longueur de l'énoncé augmentait, la précision de la reconnaissance s'améliorait.
Cette relation met en évidence un problème courant dans la reconnaissance vocale, où les phrases plus courtes sont souvent plus difficiles à identifier correctement. Les résultats indiquent que se concentrer sur des énoncés plus longs pourrait potentiellement mener à de meilleurs résultats de transcription.
Directions Futures
Cette étude éclaire les capacités et les limites actuelles des systèmes de reconnaissance vocale lorsqu'ils sont appliqués aux conversations entre enfants et adultes dans le contexte des évaluations pour l'autisme. Bien qu'on ait vu des améliorations de performance, surtout avec le modèle Whisper, il reste encore beaucoup à faire.
Les efforts futurs incluront des tests de ces modèles sur d'autres jeux de données contenant de la parole d'enfants pour voir comment ils se généralisent à différents contextes. On prévoit également d'explorer diverses techniques d'augmentation de données, qui pourraient aider à améliorer la performance des systèmes de reconnaissance vocale dans les interactions enfants-adultes.
En continuant à affiner ces systèmes, on peut travailler vers le développement d'outils plus efficaces pour capturer et comprendre les nuances de la parole des enfants, soutenant finalement un meilleur diagnostic et une meilleure intervention pour les troubles du développement comme le trouble du spectre autistique.
Titre: Evaluation of state-of-the-art ASR Models in Child-Adult Interactions
Résumé: The ability to reliably transcribe child-adult conversations in a clinical setting is valuable for diagnosis and understanding of numerous developmental disorders such as Autism Spectrum Disorder. Recent advances in deep learning architectures and availability of large scale transcribed data has led to development of speech foundation models that have shown dramatic improvements in ASR performance. However, the ability of these models to translate well to conversational child-adult interactions is under studied. In this work, we provide a comprehensive evaluation of ASR performance on a dataset containing child-adult interactions from autism diagnostic sessions, using Whisper, Wav2Vec2, HuBERT, and WavLM. We find that speech foundation models show a noticeable performance drop (15-20% absolute WER) for child speech compared to adult speech in the conversational setting. Then, we employ LoRA on the best performing zero shot model (whisper-large) to probe the effectiveness of fine-tuning in a low resource setting, resulting in ~8% absolute WER improvement for child speech and ~13% absolute WER improvement for adult speech.
Auteurs: Aditya Ashvin, Rimita Lahiri, Aditya Kommineni, Somer Bishop, Catherine Lord, Sudarsana Reddy Kadiri, Shrikanth Narayanan
Dernière mise à jour: 2024-09-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.16135
Source PDF: https://arxiv.org/pdf/2409.16135
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.