Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Apprentissage automatique

Une nouvelle méthode pour mesurer le mouvement de la langue dans la parole

Cette étude présente une méthode pour mieux mesurer le mouvement de la langue pendant la parole en utilisant des données X-ray.

― 8 min lire


Révolutionner lesRévolutionner lestechniques de mesure dela paroledans la recherche sur la parole.précision du mouvement de la langueUne nouvelle méthode améliore la
Table des matières

Analyser comment on parle est super important pour comprendre la parole. Une manière d'étudier ça, c'est d'utiliser une technologie spéciale de rayons X qui suit le mouvement des parties de notre bouche, comme les lèvres et la Langue. Mais, obtenir des données précises avec ces rayons X peut être compliqué parce que chacun a une forme de bouche différente et les endroits où les billes (petits marqueurs) sont placées peuvent varier pas mal. Les méthodes actuelles ne capturent pas tous les détails du tractus vocal d'une personne.

Dans ce travail, on présente une nouvelle méthode qui aide à améliorer la précision de ces mesures. La méthode transforme les coordonnées X et Y des marqueurs en six mesures importantes. Ça comprend l'Aperture des lèvres (à quel point les lèvres sont écartées), la Protrusion des lèvres (à quel point les lèvres avancent) et différentes mesures pour la langue à divers endroits.

Une amélioration clé de notre méthode est d'étendre une ligne depuis le palais dur (le toit de la bouche) jusqu'à une ligne déterminée dans la gorge. Ça aide à rendre les mesures de la constriction de la langue plus précises.

Pourquoi les données de parole sont précieuses

Collecter et étudier des données sur comment on parle est crucial pour plein de domaines. Les chercheurs peuvent comprendre comment différents sons sont produits en observant le mouvement des articulateurs comme la langue, les lèvres et la mâchoire. Cette info est utile pour diverses applications, comme la Reconnaissance Automatique de la Parole (comment les ordinateurs comprennent la parole), créer des voix synthétiques, des thérapies pour des problèmes de parole et comprendre des conditions de santé mentale.

Il y a plusieurs méthodes pour collecter ces données de parole. Certaines incluent l'X-ray Microbeam, une technique qui suit le mouvement de petites billes placées sur les articulateurs, l'Electromagnetic Articulometry (EMA) et l'Imagerie par Résonance Magnétique en temps réel (rt-MRI).

Le défi d'analyser les données articulatoires

Malgré les avantages de ces techniques de collecte de données, analyser les résultats peut être difficile à cause des différences entre les locuteurs. L'emplacement des billes est étroitement lié à la forme de la bouche de chaque personne. Le même son produit par des personnes différentes peut montrer des différences significatives juste à cause de leur anatomie. Même de petits changements dans la position des billes peuvent entraîner de grandes différences dans les données.

Quand on parle, on crée différentes formes dans notre tractus vocal qui produisent différents sons. Comme les positions des articulateurs varient d'une personne à l'autre, il vaut mieux mesurer combien le tractus vocal est façonné plutôt que d'utiliser les positions absolues des marqueurs. Les mesures sur lesquelles on se concentre s'appellent les Variables de tract (TVs). Ces TVs se concentrent sur les principales fonctionnalités de la fonction du tractus vocal.

Utilisation des transformations géométriques

Pour dériver les TVs des positions absolues des marqueurs, on peut utiliser des transformations géométriques. Ces transformations nous aident à obtenir des infos sur où et comment les constrictions se forment dans le tractus vocal sans avoir besoin de connaître les emplacements exacts de chaque articulateur.

Par exemple, l'Aperture des lèvres quantifie à quel point les lèvres sont constrictées sans avoir besoin de savoir combien la mâchoire contribue à cette constriction.

Ce travail se concentre principalement sur le dataset de l'X-ray Microbeam. On décrit une méthode pour obtenir des TVs à partir des trajectoires des billes X-ray. Un modèle appelé modèle dynamique de tâche de production de parole est utilisé, qui approxime le palais dur et la langue comme des cercles. Cela rend possible de convertir les positions des marqueurs en six mesures de TV à chaque moment.

L'importance des mesures précises

Des mesures précises du tractus vocal sont essentielles pour comprendre comment les sons de la parole sont produits. Le nouveau modèle de transformation qu'on propose offre une meilleure façon de modéliser les mouvements articulatoires dans le tractus vocal, ce qui a montré de bons résultats dans les études précédentes.

Cependant, cette méthode de transformation a certaines limites. Un gros souci est que les données actuelles ne couvrent qu'une partie de la bouche et n'incluent pas le palais mou ou la paroi de la gorge. Ça signifie que ces zones importantes dans la production de la parole ne sont pas représentées avec précision dans le modèle.

Un autre problème avec le modèle est qu'il essaie de faire correspondre la forme du palais dur comme un arc circulaire, ce qui peut ne pas bien représenter à quoi ressemble vraiment le palais. Notre méthode proposée vise à incorporer le palais mou et la paroi de la gorge dans le modèle, ce qui permettra de meilleures mesures de la position de la langue, surtout pour les sons vocaliques arrières.

Comprendre le dataset de l'X-ray Microbeam

Le dataset de l'X-ray Microbeam est une collection d'enregistrements audio et de mouvements articulatoires. Chaque locuteur a huit marqueurs placés à des endroits spécifiques dans sa bouche, comme les lèvres supérieures et inférieures, le bout de la langue et d'autres parties. Pendant qu'ils parlent, leurs mouvements sont suivis et enregistrés sous forme de coordonnées X et Y.

Les données sont échantillonnées à différents taux, donc pour garder tout cohérent, on rééchantillonne les positions à un taux standard. Les enregistrements proviennent de plusieurs présentations et sont nettoyés pour assurer la qualité. Le dataset résultant comprend environ 46 locuteurs, fournissant environ 4 heures de données de parole.

Transformer les données en mesures importantes

En détaillant le processus de transformation, on explique comment chaque mesure est dérivée des données originales. Deux mesures clés pour comprendre les mouvements des lèvres sont l'Aperture des lèvres et la Protrusion des lèvres. L'Aperture des lèvres mesure à quel point les lèvres sont séparées, tandis que la Protrusion des lèvres nous dit combien la lèvre supérieure se déplace du milieu.

Les mouvements de la langue sont représentés par un cercle formé par les positions de marqueurs spécifiques sur la langue. La proximité de ce cercle au palais dur nous donne des infos sur comment la langue est constrictée pendant la parole.

Avec le dataset X-ray, il est possible de modéliser les formes de la bouche avec précision. En étudiant d'autres parties de la bouche, comme la paroi de la gorge, on peut encore mieux estimer le mouvement de la langue.

Tester le nouveau modèle de transformation

Pour tester notre nouvelle méthode, on a entraîné un système d'Inversion de la Parole (SI) en utilisant deux ensembles de TVs : nos nouvelles mesures et celles utilisées précédemment. On a combiné le modèle avec des données audio pour créer un processus d'analyse complet.

Le dataset d'entraînement a été divisé en trois groupes pour s'assurer que les modèles étaient testés de manière équitable. On a utilisé différentes techniques pendant le processus d'entraînement pour éviter de trop pousser l'apprentissage du modèle.

Dans les évaluations des modèles, on a trouvé que nos nouvelles TVs ont conduit à de meilleures prédictions des mouvements de la langue comparées aux anciennes méthodes. Les résultats ont montré que nos mesures, en moyenne, ont mieux fonctionné en termes de capture des détails nécessaires.

Résumé et futures directions

Dans ce travail, on présente une nouvelle façon de dériver des mesures importantes sur comment la langue bouge pendant la parole en utilisant des données de rayons X spéciales. En incluant plus de détails sur le palais mou et la paroi de la gorge, on peut créer une image plus claire de comment la parole est produite.

On reconnaît que notre modèle actuel représente la langue de manière simplifiée et a des axes d'amélioration. Les recherches futures vont se concentrer sur le raffinement de ces mesures et sur le traitement des limitations actuelles, menant finalement à une compréhension plus précise de la production de la parole.

Source originale

Titre: Enhancing Speech Articulation Analysis using a Geometric Transformation of the X-ray Microbeam Dataset

Résumé: Accurate analysis of speech articulation is crucial for speech analysis. However, X-Y coordinates of articulators strongly depend on the anatomy of the speakers and the variability of pellet placements, and existing methods for mapping anatomical landmarks in the X-ray Microbeam Dataset (XRMB) fail to capture the entire anatomy of the vocal tract. In this paper, we propose a new geometric transformation that improves the accuracy of these measurements. Our transformation maps anatomical landmarks' X-Y coordinates along the midsagittal plane onto six relative measures: Lip Aperture (LA), Lip Protusion (LP), Tongue Body Constriction Location (TTCL), Degree (TBCD), Tongue Tip Constriction Location (TTCL) and Degree (TTCD). Our novel contribution is the extension of the palate trace towards the inferred anterior pharyngeal line, which improves measurements of tongue body constriction.

Auteurs: Ahmed Adel Attia, Mark Tiede, Carol Y. Espy-Wilson

Dernière mise à jour: 2023-09-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.10775

Source PDF: https://arxiv.org/pdf/2305.10775

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires