Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Elektrotechnik und Systemtechnik# Audio- und Sprachverarbeitung# Maschinelles Lernen

Eine neue Methode zur Messung der Zungenbewegung beim Sprechen

Diese Studie stellt eine Methode vor, um Zungenbewegungen beim Sprechen mithilfe von Röntgendaten besser zu messen.

― 6 min Lesedauer


Revolutionäre TechnikenRevolutionäre Technikenzur SprachmessungSprachforschung.der Zungenbewegung in derNeue Methode verbessert die Genauigkeit
Inhaltsverzeichnis

Die Analyse, wie wir sprechen, ist wichtig, um Sprache zu verstehen. Eine Möglichkeit, das zu studieren, ist die Verwendung spezieller Röntgentechnologie, die die Bewegung unserer Mundteile wie Lippen und Zunge verfolgt. Allerdings kann es schwierig sein, genaue Daten von diesen Röntgenbildern zu bekommen, weil jeder eine andere Mundform hat und die Stellen, wo die Marker (kleine Punkte) platziert werden, stark variieren können. Die aktuellen Methoden erfassen nicht alle Details des Vokaltrakts einer Person.

In dieser Arbeit präsentieren wir eine neue Methode, die die Genauigkeit unserer Messungen verbessert. Die Methode wandelt die X- und Y-Koordinaten der Marker in sechs wichtige Masse um. Dazu gehören Lippenöffnung (wie weit die Lippen auseinander sind), Lippenvorstand (wie sehr die Lippen herausstehen) und verschiedene Messungen für die Zunge an verschiedenen Punkten.

Ein wichtiger Fortschritt in unserer Methode ist es, eine Linie vom harten Gaumen (dem Dach des Mundes) zu einer bestimmten Linie im Hals zu ziehen. Das hilft dabei, die Messungen, wie sich die Zunge verengt, genauer zu machen.

Warum Sprachdaten wertvoll sind

Daten über unsere Sprache zu sammeln und zu studieren, ist für viele Bereiche entscheidend. Forscher können lernen, wie verschiedene Laute produziert werden, indem sie die Bewegung der Artikulatoren wie Zunge, Lippen und Kiefer beobachten. Diese Informationen sind nützlich für verschiedene Anwendungen, wie automatische Spracherkennung (wie Computer Sprache verstehen), die Erstellung synthetischer Stimmen, Therapie für Sprachprobleme und das Verständnis von psychischen Gesundheitszuständen.

Es gibt mehrere Methoden, um diese Sprachdaten zu sammeln. Einige davon sind die Röntgen-Mikrobeam-Methode, eine Technik, die die Bewegung winziger Marker verfolgt, die auf den Artikulatoren platziert sind, elektromagnetische Artikulometrie (EMA) und Echtzeit-Magnetresonanztomographie (rt-MRI).

Die Herausforderung der Analyse von artikulatorischen Daten

Trotz der Vorteile dieser Datenerhebungstechniken kann die Analyse der Ergebnisse aufgrund von Unterschieden zwischen Sprechern herausfordernd sein. Die Position der Marker hängt eng mit der Form des Mundes jedes Einzelnen zusammen. Der gleiche Laut, der von verschiedenen Personen produziert wird, kann aufgrund ihrer Anatomie erhebliche Unterschiede aufweisen. Sogar kleine Änderungen, wo die Marker platziert sind, können zu grossen Unterschieden in den Daten führen.

Wenn wir sprechen, formen wir verschiedene Formen in unserem Vokaltrakt, die unterschiedliche Laute erzeugen. Da die Positionen der Artikulatoren von Person zu Person variieren, ist es besser, zu messen, wie sehr der Vokaltrakt geformt ist, anstatt die absoluten Positionen der Marker zu verwenden. Die Masse, auf die wir uns konzentrieren, heissen Traktvariablen (TVs). Diese TVs konzentrieren sich auf die Hauptmerkmale der Vokaltraktfunktion.

Verwendung geometrischer Transformationen

Um die TVs aus den absoluten Positionen der Marker abzuleiten, können wir geometrische Transformationen verwenden. Diese Transformationen helfen uns, Informationen darüber zu erhalten, wo und wie Verengungen im Vokaltrakt gemacht werden, ohne die genauen Stellen jedes Artikulators zu kennen.

Zum Beispiel quantifiziert die Lippenöffnung, wie verengt die Lippen sind, ohne zu wissen, wie sehr der Kiefer zu dieser Verengung beiträgt.

Diese Arbeit konzentriert sich hauptsächlich auf den Röntgen-Mikrobeam-Datensatz. Wir beschreiben eine Methode, um TVs aus den Trajektorien der Röntgenmarker zu gewinnen. Ein Modell namens Task Dynamic Model of Speech Production wird verwendet, das den harten Gaumen und die Zunge als Kreise approximiert. Das ermöglicht es, die Positionen der Marker in die gewünschten sechs TV-Masse zu konvertieren.

Die Bedeutung genauer Messungen

Genau Messungen des Vokaltrakts sind entscheidend, um zu verstehen, wie Sprachlaute entstehen. Das neue Transformationsmodell, das wir vorschlagen, bietet eine bessere Möglichkeit, artikulatorische Bewegungen im Vokaltrakt zu modellieren, was in früheren Studien gut funktioniert hat.

Allerdings hat diese Transformationsmethode einige Einschränkungen. Ein grosses Problem ist, dass die aktuellen Daten nur einen Teil des Mundes abdecken und den weichen Gaumen oder die Rachenwand nicht einbeziehen. Das bedeutet, dass diese wichtigen Bereiche in der Sprachproduktion im Modell nicht genau repräsentiert sind.

Ein weiteres Problem mit dem Modell ist, dass es versucht, die Form des harten Gaumens als einen Kreisbogen anzupassen, was möglicherweise nicht genau widerspiegelt, wie der Gaumen tatsächlich aussieht. Unsere vorgeschlagene Methode zielt darauf ab, den weichen Gaumen und die Rachenwand in das Modell einzubeziehen, was zu besseren Messungen der Zungenposition führen wird, insbesondere für hintere Vokale.

Verständnis des Röntgen-Mikrobeam-Datensatzes

Der Röntgen-Mikrobeam-Datensatz ist eine Sammlung von aufgezeichnetem Audio und artikulatorischen Bewegungen. Jeder Sprecher hat acht Marker an bestimmten Stellen in seinem Mund platziert, wie an den oberen und unteren Lippen, der Zungenspitze und anderen Teilen. Während des Sprechens werden ihre Bewegungen verfolgt und als X- und Y-Koordinaten aufgezeichnet.

Die Daten werden mit unterschiedlichen Raten abgetastet, daher resampeln wir die Positionen auf eine Standardrate, um alles konsistent zu halten. Die Aufnahmen stammen aus mehreren Präsentationen und werden gereinigt, um Qualität sicherzustellen. Der resultierende Datensatz umfasst etwa 46 Sprecher und bietet ungefähr 4 Stunden Sprachdaten.

Transformation der Daten in wichtige Masse

Im Detail des Transformationsprozesses erklären wir, wie jedes Mass aus den ursprünglichen Daten abgeleitet wird. Zwei wichtige Masse für das Verständnis von Lippenbewegungen sind Lippenöffnung und Lippenvorstand. Die Lippenöffnung misst, wie weit die Lippen auseinander sind, während der Lippenvorstand uns sagt, wie viel sich die Oberlippe von der Mitte verschiebt.

Die Zungenbewegungen werden durch einen Kreis dargestellt, der aus den Positionen spezifischer Marker auf der Zunge gebildet wird. Die Nähe dieses Kreises zum harten Gaumen gibt uns Informationen darüber, wie verengt die Zunge während der Sprache ist.

Mit dem Röntgendatensatz ist es möglich, die Formen des Mundes genau zu modellieren. Durch das Studieren anderer Teile des Mundes, wie der Rachenwand, können wir noch bessere Schätzungen der Zungenbewegung vornehmen.

Testen des neuen Transformationsmodells

Um unsere neue Methode zu testen, haben wir ein Speech Inversion (SI) System trainiert, das zwei Sätze von TVs verwendet: unsere neuen Masse und die zuvor verwendeten. Wir haben das Modell mit Audiodaten kombiniert, um einen umfassenden Analyseprozess zu erstellen.

Der Trainingsdatensatz wurde in drei Gruppen unterteilt, um sicherzustellen, dass die Modelle fair getestet wurden. Während des Trainingsprozesses haben wir verschiedene Techniken angewandt, um zu verhindern, dass das Lernen des Modells übertrieben wird.

Bei der Bewertung der Modelle haben wir festgestellt, dass unsere neuen TVs zu besseren Vorhersagen der Zungenbewegung führten im Vergleich zu älteren Methoden. Die Ergebnisse zeigten, dass unsere Masse im Durchschnitt besser abschnitten, wenn es darum ging, die benötigten Details zu erfassen.

Zusammenfassung und Ausblick

In dieser Arbeit präsentieren wir einen neuen Weg, wichtige Masse zu gewinnen, wie sich die Zunge während des Sprechens mit speziellen Röntgendaten bewegt. Indem wir mehr Details über den weichen Gaumen und die Rachenwand einbeziehen, können wir ein klareres Bild davon erhalten, wie Sprache produziert wird.

Wir erkennen an, dass unser aktuelles Modell die Zunge auf eine vereinfachte Weise darstellt und Verbesserungsmöglichkeiten hat. Zukünftige Forschungen werden sich darauf konzentrieren, diese Messungen zu verfeinern und die aktuellen Einschränkungen anzugehen, was letztendlich zu einem genaueren Verständnis der Sprachproduktion führen wird.

Originalquelle

Titel: Enhancing Speech Articulation Analysis using a Geometric Transformation of the X-ray Microbeam Dataset

Zusammenfassung: Accurate analysis of speech articulation is crucial for speech analysis. However, X-Y coordinates of articulators strongly depend on the anatomy of the speakers and the variability of pellet placements, and existing methods for mapping anatomical landmarks in the X-ray Microbeam Dataset (XRMB) fail to capture the entire anatomy of the vocal tract. In this paper, we propose a new geometric transformation that improves the accuracy of these measurements. Our transformation maps anatomical landmarks' X-Y coordinates along the midsagittal plane onto six relative measures: Lip Aperture (LA), Lip Protusion (LP), Tongue Body Constriction Location (TTCL), Degree (TBCD), Tongue Tip Constriction Location (TTCL) and Degree (TTCD). Our novel contribution is the extension of the palate trace towards the inferred anterior pharyngeal line, which improves measurements of tongue body constriction.

Autoren: Ahmed Adel Attia, Mark Tiede, Carol Y. Espy-Wilson

Letzte Aktualisierung: 2023-09-28 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2305.10775

Quell-PDF: https://arxiv.org/pdf/2305.10775

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel