Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Intelligence artificielle# Apprentissage automatique# Son

Avancées dans la reconnaissance de la parole dysarthrique

De nouvelles techniques améliorent la compréhension de la parole dysarthrique dans les systèmes de communication.

― 6 min lire


Percées dans laPercées dans lareconnaissance de laparole dysarthriquepersonnes atteintes de dysarthrie.reconnaissance vocale pour lesDe nouvelles méthodes améliorent la
Table des matières

La Dysarthrie, c'est un trouble de la parole causé par des problèmes dans les muscles qui aident à produire la parole. Les gens qui en souffrent ont souvent une parole peu claire, ce qui complique la compréhension pour les autres. Reconnaître la parole dysarthrique est crucial pour améliorer la communication des personnes touchées. Les systèmes de Reconnaissance automatique de la parole (ASR) aident dans ce domaine, mais rencontrent des défis avec la parole dysarthrique.

Défis dans la Reconnaissance de la Parole Dysarthrique

Reconnaître la parole dysarthrique présente plusieurs difficultés. D'abord, il n'y a pas assez de données parce qu'il est compliqué de collecter des enregistrements de personnes atteintes de dysarthrie. Beaucoup d'entre eux peuvent avoir des limitations physiques qui restreignent leur mobilité, rendant difficile la collecte d'un grand échantillon de leur parole.

Ensuite, la parole dysarthrique diffère beaucoup de la parole normale. Les modèles de parole varient considérablement d'une personne à l'autre. Des facteurs comme la gravité du trouble, ainsi que le genre ou l'accent de la personne, ajoutent à cette diversité. Par exemple, quelqu'un qui parle avec une intelligibilité très faible pourrait parler plus lentement et avec moins de clarté, tandis qu'une autre personne avec une intelligibilité moyenne ou élevée pourrait sonner plus comme un locuteur typique. Cette variété complique la création de systèmes qui reconnaissent la parole dysarthrique chez divers locuteurs.

La plupart des études précédentes se sont concentrées uniquement sur l'identité du locuteur sans tenir compte de la gravité de son trouble de la parole. Bien que quelques tentatives aient été faites pour utiliser la gravité de l'incapacité de la parole dans les tâches de reconnaissance, il n'y a pas eu d'effort complet pour combiner cette compréhension avec l'identité du locuteur dans les Systèmes ASR.

Nouvelles Techniques pour Améliorer la Reconnaissance

Pour améliorer la reconnaissance de la parole dysarthrique, de nouvelles techniques sont en cours de développement. Ces techniques intègrent à la fois la gravité de l'incapacité de la parole et l'identité du locuteur dans les systèmes ASR. L'objectif est de créer des systèmes qui sont meilleurs pour comprendre les nuances de la parole dysarthrique.

Entraînement Multitâche

L'une des méthodes clés implique l'entraînement multitâche. Cette approche permet au système d'apprendre à partir de plusieurs tâches à la fois. Dans ce cas, la tâche de reconnaissance est associée à une tâche qui prédit la gravité de l'incapacité de la parole du locuteur. En procédant ainsi, le système devient plus adaptable et peut mieux gérer les différences de parole entre divers locuteurs.

Caractéristiques Sensibles à l'Identité et à la Gravité

Une autre technique importante est l'utilisation de caractéristiques sensibles à l'identité et à la gravité du locuteur. Ces caractéristiques aident le système à reconnaître non seulement qui parle, mais aussi à quel point son incapacité est sévère. Cela signifie que le système peut ajuster son processus de reconnaissance en fonction des caractéristiques spécifiques du locuteur.

Contribution des Unités Cachées Apprises de Manière Structurée (LHUC)

L'approche LHUC structurée est également utilisée. Cette méthode améliore la manière dont le réseau de neurones apprend pendant l'entraînement. En considérant séparément l'identité du locuteur et la gravité de la parole, le réseau peut affiner son traitement, ce qui mène à de meilleures taux de reconnaissance.

Expérimentations avec les Techniques

Pour tester ces nouvelles méthodes, des chercheurs ont mené des expériences en utilisant un grand ensemble de données connu sous le nom de UASpeech. Cet ensemble de données comprend des enregistrements de divers locuteurs, dont certains ont une dysarthrie à différents niveaux de gravité. Les chercheurs ont appliqué les nouvelles techniques à différents systèmes ASR et mesuré leur capacité de reconnaissance.

Résultats des Expériences

Les expériences ont montré des résultats prometteurs. L'intégration de la gravité de l'incapacité de la parole dans les systèmes ASR a conduit à des réductions significatives des erreurs de reconnaissance. En utilisant les meilleurs systèmes, les chercheurs ont atteint un taux d'erreur de mots record de 17,82 %. Cela signifie que le système a pu comprendre correctement un pourcentage élevé de la parole qu'il a analysée.

Comparaisons avec des Systèmes Existants

Lors de la comparaison de ces nouvelles méthodes avec des systèmes établis, il était clair que l'utilisation à la fois de la gravité de la parole et de l'identité du locuteur offrait de meilleures performances. Les systèmes combinés ont surpassé ceux qui prenaient uniquement en compte l'identité du locuteur. Cette amélioration souligne l'importance d'aborder ces deux aspects lorsqu'on travaille avec la parole dysarthrique.

L'Importance de Cette Recherche

Les avancées dans la reconnaissance de la parole dysarthrique ont des implications significatives pour les personnes touchées par ce trouble. Des systèmes ASR améliorés peuvent mener à de meilleurs outils de communication, facilitant ainsi l'interaction des personnes dysarthriques avec les autres et leur participation à la vie quotidienne. C'est crucial pour leur confiance et leurs interactions sociales.

De plus, les techniques développées dans cette recherche peuvent également être adaptées à d'autres Troubles de la parole, élargissant leur impact. À mesure que les chercheurs continuent de peaufiner ces approches, ils découvriront probablement d'autres moyens d'améliorer la technologie de reconnaissance de la parole dans divers contextes.

En Avant

Les recherches futures viseront à s'appuyer sur ces découvertes. Il y a un potentiel d'explorer des techniques encore plus avancées qui améliorent davantage l'intégration de la gravité de la parole dans les systèmes ASR. À mesure que la technologie continue d'évoluer, les outils disponibles pour aider ceux qui ont des troubles de la parole évolueront aussi.

En plus, il y a un besoin d'élargir l'ensemble de données utilisé pour entraîner ces systèmes. En rassemblant plus de données provenant d'une plus grande variété de locuteurs avec des antécédents et des gravités divers, les chercheurs peuvent créer des systèmes de reconnaissance encore plus robustes. Cet effort mènera à de meilleurs modèles qui fonctionnent efficacement pour tous les utilisateurs.

Conclusion

La reconnaissance de la parole dysarthrique présente des défis uniques, mais les récentes avancées offrent de l'espoir pour améliorer la communication des personnes concernées. En utilisant des techniques innovantes qui intègrent à la fois l'identité du locuteur et la gravité de l'incapacité de la parole, les chercheurs ont fait des progrès significatifs dans l'amélioration des systèmes ASR. Les efforts continus dans ce domaine devraient mener à de meilleures améliorations, se traduisant par de meilleurs outils et ressources pour les personnes vivant avec la dysarthrie. L'objectif est d'aider à faciliter une communication plus claire et une meilleure qualité de vie pour tous ceux qui affrontent ces défis.

Source originale

Titre: Use of Speech Impairment Severity for Dysarthric Speech Recognition

Résumé: A key challenge in dysarthric speech recognition is the speaker-level diversity attributed to both speaker-identity associated factors such as gender, and speech impairment severity. Most prior researches on addressing this issue focused on using speaker-identity only. To this end, this paper proposes a novel set of techniques to use both severity and speaker-identity in dysarthric speech recognition: a) multitask training incorporating severity prediction error; b) speaker-severity aware auxiliary feature adaptation; and c) structured LHUC transforms separately conditioned on speaker-identity and severity. Experiments conducted on UASpeech suggest incorporating additional speech impairment severity into state-of-the-art hybrid DNN, E2E Conformer and pre-trained Wav2vec 2.0 ASR systems produced statistically significant WER reductions up to 4.78% (14.03% relative). Using the best system the lowest published WER of 17.82% (51.25% on very low intelligibility) was obtained on UASpeech.

Auteurs: Mengzhe Geng, Zengrui Jin, Tianzi Wang, Shujie Hu, Jiajun Deng, Mingyu Cui, Guinan Li, Jianwei Yu, Xurong Xie, Xunying Liu

Dernière mise à jour: 2023-05-17 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.10659

Source PDF: https://arxiv.org/pdf/2305.10659

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires