Transformer les mouvements de la langue en sons de la parole
Cette étude transforme les données de langue obtenues par IRM en audio de parole réel.
― 5 min lire
Table des matières
- Comprendre le Rôle de la Langue dans la Parole
- Utilisation de la Factorisation de matrice non négative
- Défis dans la Synthèse Audio
- Une Nouvelle Approche à la Synthèse Audio
- Le Plastic Light Transformer
- Améliorer le Réalisme
- Tester le Système
- Résultats et Insights
- Mesures Statistiques
- Conclusion
- Source originale
- Liens de référence
La parole est possible grâce aux mouvements complexes de la langue, qui a plein de petites parties qui bossent ensemble. Avec des IRM spéciales appelées IRM taguées, on peut voir comment ces parties bougent et comment elles contribuent à parler. Cette étude se concentre sur la transformation des infos de ces IRM en sons qui ressemblent à de la vraie parole.
Comprendre le Rôle de la Langue dans la Parole
La langue a une structure en trois dimensions avec différentes sections qui remplissent des fonctions spécifiques. Ces sections aident à façonner les sons qu'on produit quand on parle. Quand on utilise des IRM taguées pour capturer ces mouvements, on peut observer comment ils sont coordonnés. En étudiant ces mouvements, on peut apprendre comment la langue fonctionne en temps réel pour créer des sons.
Factorisation de matrice non négative
Utilisation de laPour analyser les données des IRM taguées, on applique une méthode appelée Factorisation de Matrice Non Négative (NMF). Cette méthode aide à décomposer les données de mouvement en plus petites parties, ou "briques". Ça nous permet de créer une carte qui montre comment ces briques sont pondérées, c'est-à-dire combien chaque section de la langue contribue aux sons de la parole. En enquêtant sur comment ces cartes se rapportent aux sons réels, on peut obtenir des insights précieux sur notre façon de produire la parole.
Défis dans la Synthèse Audio
Convertir les données des grandes cartes 2D en ondes sonores peut être compliqué. Il y a plusieurs défis à surmonter :
- Représentations Différentes : Les données dans les cartes de pondération et les ondes audio sont fondamentalement différentes, ce qui complique le processus de traduction.
- Variations de Taille : Les cartes d'entrée viennent dans de nombreuses tailles, alors que la sortie audio doit être d'une taille fixe. Ça rend les comparaisons directes et le traitement difficiles.
- Entrées Longues : La grande taille des cartes de pondération peut compliquer l'analyse. Les méthodes traditionnelles ont du mal à modéliser les connexions dans ces données efficacement.
- Données Limitées : Avoir seulement quelques exemples rend plus difficile pour les machines d'apprendre correctement.
Une Nouvelle Approche à la Synthèse Audio
Pour surmonter ces problèmes, on a développé un nouveau système qui transforme les cartes de pondération 2D en Spectrogrammes, qui sont des représentations visuelles des signaux audio. Notre système comporte deux parties principales : un encodeur appelé Plastic Light Transformer (PLT) et un décodeur de Réseau de Neurones Convolutionnels 2D (CNN).
Le Plastic Light Transformer
Le PLT est un outil sophistiqué conçu pour gérer les grandes quantités de données provenant des IRM tout en gardant les détails des mouvements. Il capture efficacement les relations entre les différentes sections de la langue, permettant des mappings précis. Une des caractéristiques clés de ce PLT est sa capacité à travailler avec des entrées de tailles variables et à produire des sorties d'une taille constante, sans perdre d'infos importantes.
Améliorer le Réalisme
Pour que l'audio généré sonne plus réel, on a mis en place des techniques supplémentaires pendant l'entraînement. On a veillé à ce que les sons synthétisés soient cohérents entre eux et utilisé des méthodes pour améliorer la qualité de la sortie. En appliquant ces techniques, on a pu produire des ondes sonores qui correspondaient de près à de la vraie parole.
Tester le Système
Pour évaluer notre système, on a collecté des données appariées d'un groupe diversifié de participants. Ça incluait des séquences IRM et des enregistrements d'eux en train de dire des phrases spécifiques. Après traitement de ces données, on a comparé la sortie de notre système aux enregistrements audio originaux pour voir comment ça se comportait.
Résultats et Insights
Nos résultats ont montré que notre approche surpasse largement les modèles traditionnels. L'audio synthétisé était beaucoup plus proche de la parole réelle en termes de qualité. De plus, on a découvert que notre système maintenait sa stabilité pendant l'entraînement, ce qui est essentiel pour développer un modèle fiable.
Mesures Statistiques
On a utilisé plusieurs outils statistiques pour mesurer à quel point notre audio synthétisé correspondait aux enregistrements réels. Ça incluait le coefficient de corrélation de Pearson et les évaluations de qualité de la parole. Les résultats ont montré que notre méthode produisait un audio de meilleure qualité comparé aux autres modèles.
Conclusion
Cette recherche démontre une méthode réussie pour transformer les données de mouvement de la langue capturées par IRM en audio intelligible. En utilisant un cadre innovant qui peut gérer différentes tailles d'entrée et produire une sortie cohérente, on a ouvert de nouvelles voies pour comprendre le lien entre les mouvements de la langue et les sons de la parole. Ce travail fait avancer la technologie de synthèse de la parole et a également le potentiel d'aider les cliniciens et les chercheurs à traiter les troubles liés à la parole, en améliorant les stratégies de traitement.
En résumé, notre approche innovante pour synthétiser la parole à partir des données IRM ouvre la voie à de futures recherches et applications en technologie de la parole, contribuant finalement à une meilleure compréhension de la communication humaine.
Titre: Speech Audio Synthesis from Tagged MRI and Non-Negative Matrix Factorization via Plastic Transformer
Résumé: The tongue's intricate 3D structure, comprising localized functional units, plays a crucial role in the production of speech. When measured using tagged MRI, these functional units exhibit cohesive displacements and derived quantities that facilitate the complex process of speech production. Non-negative matrix factorization-based approaches have been shown to estimate the functional units through motion features, yielding a set of building blocks and a corresponding weighting map. Investigating the link between weighting maps and speech acoustics can offer significant insights into the intricate process of speech production. To this end, in this work, we utilize two-dimensional spectrograms as a proxy representation, and develop an end-to-end deep learning framework for translating weighting maps to their corresponding audio waveforms. Our proposed plastic light transformer (PLT) framework is based on directional product relative position bias and single-level spatial pyramid pooling, thus enabling flexible processing of weighting maps with variable size to fixed-size spectrograms, without input information loss or dimension expansion. Additionally, our PLT framework efficiently models the global correlation of wide matrix input. To improve the realism of our generated spectrograms with relatively limited training samples, we apply pair-wise utterance consistency with Maximum Mean Discrepancy constraint and adversarial training. Experimental results on a dataset of 29 subjects speaking two utterances demonstrated that our framework is able to synthesize speech audio waveforms from weighting maps, outperforming conventional convolution and transformer models.
Auteurs: Xiaofeng Liu, Fangxu Xing, Maureen Stone, Jiachen Zhuo, Sidney Fels, Jerry L. Prince, Georges El Fakhri, Jonghye Woo
Dernière mise à jour: 2023-09-25 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.14586
Source PDF: https://arxiv.org/pdf/2309.14586
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.