Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Elektrotechnik und Systemtechnik# Ton# Künstliche Intelligenz# Computer Vision und Mustererkennung# Audio- und Sprachverarbeitung# Signalverarbeitung

Die Umwandlung von Zungenbewegungen in Sprachlaute

Diese Studie wandelt MRI-Zungendaten in echte Sprach-Audio um.

― 4 min Lesedauer


Zungenbewegungen zuZungenbewegungen zuSprach-AudioMRI-Daten der Zungenbewegung.Neue Methode synthetisiert Sprache aus
Inhaltsverzeichnis

Sprache wird durch die komplexen Bewegungen der Zunge möglich, die viele kleine Teile haben, die zusammenarbeiten. Mit speziellen MRT-Scans, die als getaggtes MRT bezeichnet werden, können wir sehen, wie sich diese Teile bewegen und wie sie zum Sprechen beitragen. Diese Studie konzentriert sich darauf, die Informationen aus diesen MRT-Scans in Ton umzuwandeln, der wie echte Sprache klingt.

Die Rolle der Zunge beim Sprechen verstehen

Die Zunge hat eine dreidimensionale Struktur mit verschiedenen Abschnitten, die spezifische Funktionen erfüllen. Diese Abschnitte helfen, die Geräusche zu formen, die wir beim Sprechen erzeugen. Wenn wir getaggtes MRT verwenden, um diese Bewegungen festzuhalten, können wir beobachten, wie sie koordiniert sind. Durch das Studieren dieser Bewegungen können wir lernen, wie die Zunge in Echtzeit funktioniert, um Geräusche zu erzeugen.

Die Verwendung der Nicht-Negativen Matrixfaktorisierung

Um die Daten aus dem getaggten MRT zu analysieren, wenden wir eine Methode namens Nicht-negative Matrixfaktorisierung (NMF) an. Diese Methode hilft, die Bewegungsdaten in kleinere Teile, oder "Bausteine", zu zerlegen. Sie ermöglicht es uns, eine Karte zu erstellen, die zeigt, wie diese Bausteine gewichtet sind, was bedeutet, wie viel jeder Abschnitt der Zunge zu den Sprachgeräuschen beiträgt. Zu untersuchen, wie diese Karten mit den tatsächlichen Geräuschen in Beziehung stehen, kann wertvolle Einblicke geben, wie wir Sprache produzieren.

Herausforderungen bei der Audio-Synthese

Die Umwandlung der Daten aus breiten 2D-Karten in Schallwellen kann knifflig sein. Es gibt mehrere Herausforderungen zu überwinden:

  1. Verschiedene Darstellungen: Die Daten in den Gewichtungskarten und den Audiowellen sind von Natur aus unterschiedlich, was den Übersetzungsprozess kompliziert.
  2. Grössenvariationen: Die Eingabekarten kommen in vielen Grössen, während der Audioausgang eine feste Grösse haben muss. Das macht direkte Vergleiche und Verarbeitung schwierig.
  3. Lange Eingaben: Die grosse Grösse der Gewichtungskarten kann die Analyse kompliziert machen. Traditionelle Methoden haben Schwierigkeiten, Verbindungen in diesen Daten effektiv zu modellieren.
  4. Begrenzte Daten: Nur eine kleine Anzahl von Beispielen macht es Maschinen schwerer, genau zu lernen.

Ein neuer Ansatz zur Audio-Synthese

Um diese Probleme anzugehen, haben wir ein neues System entwickelt, das 2D-Gewichtungskarten in Spektrogramme umwandelt, visuelle Darstellungen von Audiosignalen. Unser System besteht aus zwei Hauptteilen: einem Plastic Light Transformer (PLT) Encoder und einem 2D Convolutional Neural Network (CNN) Decoder.

Der Plastic Light Transformer

Der PLT ist ein ausgeklügeltes Werkzeug, das dafür entwickelt wurde, die grossen Datenmengen aus den MRT-Scans zu verarbeiten und dabei die Details der Bewegungen zu bewahren. Er erfasst die Beziehungen zwischen den verschiedenen Abschnitten der Zunge effektiv, was genaue Zuordnungen ermöglicht. Eine der wichtigsten Eigenschaften dieses PLT ist seine Fähigkeit, mit Eingaben variabler Grösse zu arbeiten und Ausgaben konstanter Grösse zu erzeugen, ohne wichtige Informationen zu verlieren.

Realismus verbessern

Um den erzeugten Audio realistischer klingen zu lassen, haben wir während des Trainings zusätzliche Techniken implementiert. Wir haben sichergestellt, dass die synthetisierten Klänge konsistent zueinander waren, und Methoden verwendet, um die Qualität des Ausgabesounds zu verbessern. Durch die Anwendung dieser Techniken konnten wir Klangwellen erzeugen, die echten Sprachgeräuschen sehr nahe kamen.

Das System testen

Um unser System zu evaluieren, haben wir gepaarte Daten von einer vielfältigen Gruppe von Teilnehmern gesammelt. Diese umfassten MRT-Sequenzen und Aufnahmen, bei denen sie bestimmte Phrasen sprachen. Nach der Verarbeitung dieser Daten haben wir die Ausgabe unseres Systems mit den ursprünglichen Audioaufnahmen verglichen, um zu sehen, wie gut es abgeschnitten hat.

Ergebnisse und Erkenntnisse

Unsere Ergebnisse zeigten, dass unser Ansatz traditionelle Modelle deutlich übertroffen hat. Die synthetisierte Audioqualität war der echten Sprache viel näher. Ausserdem haben wir festgestellt, dass unser System während des Trainings stabil blieb, was für die Entwicklung eines zuverlässigen Modells entscheidend ist.

Statistische Masse

Wir haben mehrere statistische Werkzeuge verwendet, um zu messen, wie gut unsere synthetisierte Audio mit den echten Aufnahmen übereinstimmte. Dazu gehörten der Pearson-Korrelationskoeffizient und Bewertungen der Sprachqualität. Die Ergebnisse deuteten darauf hin, dass unsere Methode eine höhere Audioqualität im Vergleich zu anderen Modellen erzeugte.

Fazit

Diese Forschung zeigt eine erfolgreiche Methode, um Daten über Zungenbewegungen, die durch MRT erfasst wurden, in verständliche Audio umzuwandeln. Durch die Verwendung eines neuartigen Rahmens, der unterschiedliche Eingabegrössen verwalten und konsistente Ausgaben erzeugen kann, haben wir neue Wege eröffnet, um die Verbindung zwischen Zungenbewegungen und Sprachgeräuschen zu verstehen. Diese Arbeit fördert nicht nur die Sprachsynthesetechnologie, sondern hat auch das Potenzial, Kliniker und Forscher bei der Behandlung von sprachbezogenen Störungen zu unterstützen und Behandlungsstrategien zu verbessern.

Zusammengefasst ebnet unser innovativer Ansatz zur Sprachsynthese aus MRT-Daten den Weg für zukünftige Forschung und Anwendungen in der Sprachtechnologie und trägt letztlich zu einem besseren Verständnis der menschlichen Kommunikation bei.

Originalquelle

Titel: Speech Audio Synthesis from Tagged MRI and Non-Negative Matrix Factorization via Plastic Transformer

Zusammenfassung: The tongue's intricate 3D structure, comprising localized functional units, plays a crucial role in the production of speech. When measured using tagged MRI, these functional units exhibit cohesive displacements and derived quantities that facilitate the complex process of speech production. Non-negative matrix factorization-based approaches have been shown to estimate the functional units through motion features, yielding a set of building blocks and a corresponding weighting map. Investigating the link between weighting maps and speech acoustics can offer significant insights into the intricate process of speech production. To this end, in this work, we utilize two-dimensional spectrograms as a proxy representation, and develop an end-to-end deep learning framework for translating weighting maps to their corresponding audio waveforms. Our proposed plastic light transformer (PLT) framework is based on directional product relative position bias and single-level spatial pyramid pooling, thus enabling flexible processing of weighting maps with variable size to fixed-size spectrograms, without input information loss or dimension expansion. Additionally, our PLT framework efficiently models the global correlation of wide matrix input. To improve the realism of our generated spectrograms with relatively limited training samples, we apply pair-wise utterance consistency with Maximum Mean Discrepancy constraint and adversarial training. Experimental results on a dataset of 29 subjects speaking two utterances demonstrated that our framework is able to synthesize speech audio waveforms from weighting maps, outperforming conventional convolution and transformer models.

Autoren: Xiaofeng Liu, Fangxu Xing, Maureen Stone, Jiachen Zhuo, Sidney Fels, Jerry L. Prince, Georges El Fakhri, Jonghye Woo

Letzte Aktualisierung: 2023-09-25 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2309.14586

Quell-PDF: https://arxiv.org/pdf/2309.14586

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel