Transformer le langage classique pour ceux qui ont de la dysarthrie
Une nouvelle méthode améliore la conversion vocale pour les personnes avec un discours atypique.
― 6 min lire
La Conversion de voix, c'est une méthode qui nous permet de changer la voix de quelqu'un tout en gardant les mots d'origine intacts. Un domaine qui n'a pas été trop exploré, c'est de transformer des voix typiques en voix atypiques, surtout pour les personnes ayant des difficultés de parole comme la Dysarthrie. La dysarthrie peut être causée par des blessures ou des maladies qui impactent la façon dont une personne parle. D'autres facteurs comme la perte d'audition ou des conditions comme la fente labiale peuvent aussi mener à une parole atypique. La parole atypique entraîne souvent moins de clarté, rendant plus difficile la compréhension pour les autres.
Une façon d'aider les gens avec une parole atypique, c'est via la conversion de voix, qui peut améliorer les systèmes de Reconnaissance vocale automatique (ASR). Ces systèmes galèrent souvent à cause des données limitées provenant des locuteurs atypiques. La conversion de voix peut créer plus d'exemples de parole pour entraîner les systèmes ASR et aider les aidants à comprendre et travailler avec des personnes ayant des difficultés de parole.
Les méthodes courantes pour améliorer l'ASR se contentent souvent de changer la vitesse de parole. Bien que ça fonctionne dans une certaine mesure, ça ne s'attaque pas aux aspects cruciaux de la parole désordonnée comme l'articulation floue et la qualité de la voix. Des méthodes plus avancées, comme les approches frame-wise ou sequence-to-sequence, peuvent changer des aspects de la parole mais nécessitent généralement beaucoup de données pour l’entraînement, ce qui est compliqué à collecter pour les voix atypiques.
Notre Approche
Pour relever ces défis, on a développé une nouvelle méthode de conversion de voix appelée DuTa-VC. Cette méthode peut être entraînée même sans comparaisons directes entre voix typiques et atypiques. Elle comprend trois étapes principales :
- Un encodeur qui transforme la voix d'origine en un format indépendant du locuteur.
- Un décodeur qui reconstruit la voix cible à partir de ce format.
- Un vocodeur qui convertit la voix reconstruite en ondes sonores réelles.
Avec cette approche, on s'assure que les caractéristiques uniques du locuteur cible sont préservées tout en adaptant la parole pour qu'elle sonne plus comme celle d'une personne avec dysarthrie.
Détails de la Méthode
Phase d'entraînement
Dans la phase d'entraînement, notre but est de prendre la voix d'un locuteur typique et de la convertir en une forme plus atypique. On utilise un ensemble de données appelé UASpeech, qui contient des enregistrements de locuteurs typiques et dysarthriques. Chaque locuteur est classé selon la clarté, allant de très faible à élevé. Les données d'entraînement doivent être diverses, car chaque locuteur a des traits de parole uniques.
On utilise aussi un autre ensemble de données, LibriTTs, qui contient des enregistrements de nombreux locuteurs typiques. Ces données nous aident à pré-entraîner notre modèle avant de le peaufiner avec l'ensemble de données UASpeech. Pendant l'entraînement, on aligne les trames de parole avec les mots qu'elles représentent pour obtenir des durées de phonèmes précises.
Le job de l'encodeur est de générer un format indépendant du locuteur qui préserve le sens de ce qui est dit tout en supprimant les détails spécifiques au locuteur. L'encodeur fonctionne avec un prédicteur de phonèmes et un prédicteur de durée qui aident à modifier le timing de la parole pour le locuteur cible.
Phase d'inférence
Dans la phase d'inférence, on évalue l'efficacité de la méthode. En utilisant le modèle, on prédit les phonèmes et leurs durées pour la voix d'origine. Un module de modification ajuste ensuite le timing de cette parole avant que l'encodeur ne traite la voix modifiée. Après que l'encodeur a terminé, le décodeur prend le relais pour reconstruire la voix cible.
Expériences et Évaluations
On a réalisé des tests avec UASpeech pour voir à quel point notre méthode fonctionne bien. On a regardé à la fois des mesures objectives, comme les taux d'erreur de mots, et des évaluations subjectives pour comprendre comment les orthophonistes perçoivent les voix synthétisées.
Résultats
Les résultats montrent que notre méthode améliore considérablement la reconnaissance de la parole dysarthrique. Testée par rapport aux méthodes précédentes, notre approche a constamment mieux performé dans tous les groupes d'intelligibilité des locuteurs. Les voix synthétisées ont aussi été évaluées par des orthophonistes experts, qui ont trouvé que nos voix préservaient assez bien les caractéristiques de la parole dysarthrique naturelle.
Comparé aux systèmes ASR de contrôle, ceux entraînés avec notre parole synthétisée ont montré des améliorations notables. Ces systèmes étaient entraînés sur un mélange de parole typique et dysarthrique ainsi que sur les voix synthétiques générées par DuTa-VC.
Les évaluations subjectives ont révélé que les voix synthétisées se sont bien débrouillées pour représenter divers traits dysarthriques. Bien que les voix synthétiques aient été perçues comme légèrement moins naturelles que les vraies voix, elles capturaient quand même des éléments importants de la dysarthrie de près.
Conclusion
En résumé, notre nouvelle méthode de conversion de voix peut transformer efficacement la parole typique en parole atypique, ce qui en fait un outil précieux pour la reconnaissance vocale et la formation des aidants. La capacité à maintenir l'identité du locuteur tout en modifiant les caractéristiques de la parole peut aider à créer un meilleur soutien pour les personnes avec des difficultés de parole.
Dans les travaux futurs, on vise à améliorer notre approche pour mieux gérer des phrases complètes au lieu de juste des mots. On prévoit aussi d'explorer des méthodes plus précises pour ajuster la durée de chaque phonème. En améliorant notre modèle, on espère créer des discours encore plus précis et naturels pour ceux avec des modèles de parole atypiques.
Globalement, DuTa-VC représente un pas en avant significatif dans les techniques de conversion de voix, surtout en s'attaquant aux défis liés à la parole atypique.
Titre: DuTa-VC: A Duration-aware Typical-to-atypical Voice Conversion Approach with Diffusion Probabilistic Model
Résumé: We present a novel typical-to-atypical voice conversion approach (DuTa-VC), which (i) can be trained with nonparallel data (ii) first introduces diffusion probabilistic model (iii) preserves the target speaker identity (iv) is aware of the phoneme duration of the target speaker. DuTa-VC consists of three parts: an encoder transforms the source mel-spectrogram into a duration-modified speaker-independent mel-spectrogram, a decoder performs the reverse diffusion to generate the target mel-spectrogram, and a vocoder is applied to reconstruct the waveform. Objective evaluations conducted on the UASpeech show that DuTa-VC is able to capture severity characteristics of dysarthric speech, reserves speaker identity, and significantly improves dysarthric speech recognition as a data augmentation. Subjective evaluations by two expert speech pathologists validate that DuTa-VC can preserve the severity and type of dysarthria of the target speakers in the synthesized speech.
Auteurs: Helin Wang, Thomas Thebaud, Jesus Villalba, Myra Sydnor, Becky Lammers, Najim Dehak, Laureano Moro-Velazquez
Dernière mise à jour: 2023-06-18 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.10588
Source PDF: https://arxiv.org/pdf/2306.10588
Licence: https://creativecommons.org/publicdomain/zero/1.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://anonymous.4open.science/w/DuTa-VC-Demo-3D4F/
- https://github.com/CorentinJ/Real-Time-Voice-Cloning
- https://github.com/jik876/hifi-gan
- https://github.com/jaywalnut310/glow-tts
- https://github.com/lucidrains/denoising-diffusion-pytorch
- https://github.com/espnet/espnet/tree/master/egs2/TEMPLATE/asr1
- https://wanghelin1997.github.io/DuTa-VC-Demo/
- https://github.com/WangHelin1997/DuTa-VC