Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Elektrotechnik und Systemtechnik# Audio- und Sprachverarbeitung# Ton

Fortschritte bei der Autismusdiagnose durch Klang-erkennung

Eine Studie über den Einsatz von Machine Learning zur Identifizierung von Kindergeräuschen für die ASD-Beurteilung.

― 6 min Lesedauer


Geräuscherkennung zurGeräuscherkennung zurAutismusdiagnoseASD-Beurteilung.klassifizieren für eine bessereKI nutzen, um Kinderstimmen zu
Inhaltsverzeichnis

Autismus-Spektrum-Störung (ASS) ist eine Erkrankung, die die soziale Entwicklung von Kindern und ihre Kommunikationsfähigkeiten beeinflusst. Oft zeigt sich das schon im frühen Kindesalter. Um ASS zu diagnostizieren, beobachten Fachleute normalerweise das Verhalten der Kinder und machen sich Notizen. Dieser Prozess kann zeitaufwändig und mühsam sein. Es wäre super hilfreich, ein System zu haben, das die Geräusche, die Kinder bei Gesprächen mit Erwachsenen machen, automatisch erkennt und klassifiziert. Das könnte Zeit sparen und den Fachleuten helfen, besser mit Eltern zu kommunizieren und neue Mitarbeiter auszubilden.

In dieser Studie nutzen wir ein Machine-Learning-Modell namens Wav2Vec 2.0 (W2V2), um ein System zu entwickeln, das Gespräche zwischen Kindern und Erwachsenen anhören kann und herausfindet, wer spricht und welche Geräusche das Kind macht. Wir konzentrieren uns auf Gespräche, die etwa 3 bis 5 Minuten dauern, und verwenden einen speziellen Datensatz, den Rapid-ABC-Korpus. Unser Ziel ist es, die Geräusche, die Kinder machen, besser zu verstehen und zu klassifizieren, wie zum Beispiel Weinen oder Lachen, besonders bei Kindern unter vier Jahren.

Technologie zur Unterstützung der ASS-Diagnose

ASS wird durch sorgfältige Beobachtungen des Verhaltens eines Kindes diagnostiziert, was stark variieren kann. Schätzungen sagen, dass 1 von 36 Kindern in den USA ASS hat. Leider kann es lange dauern, eine Diagnose zu bekommen, weil nicht genügend Fachkräfte verfügbar sind. Diese Verzögerung könnte mit einem Machine-Learning-Modell angegangen werden, das relevante Merkmale aus den Geräuschen von Kindern automatisch identifiziert.

Frühere Versuche beinhalteten den Aufbau von Modellen, die erkennen können, wer in aufgezeichneten Interviews zwischen Fachleuten und Kindern spricht. Diese Interviews verwenden oft strukturierte Protokolle, um die Sprache der Kinder hervorzubringen. Allerdings haben viele Studien ältere Kinder untersucht, und es fehlt an Werkzeugen, die bei jüngeren Kindern helfen, die vielleicht keine vollständigen Sätze benutzen.

Kinder mit ASS zeigen oft Anzeichen wie weniger häufige Sprachäusserungen und nonverbale Geräusche. Um die Situation zu verbessern, zielt diese Studie darauf ab, die Geräusche, die Kinder während Gesprächen machen, genauer zu klassifizieren.

Die Rolle von Audioaufnahmen

In unserer Studie haben wir Audioaufnahmen aus dem Rapid-ABC-Korpus verwendet, der kurze Interaktionen zwischen Kindern im Alter von 1 bis 2 Jahren und ihren Fachleuten umfasst. Jede Aufnahme ist etwa 3 bis 5 Minuten lang, und wir haben separate Aufnahmen für Kinder und Erwachsene. Wir klassifizieren die vokalen Äusserungen des Kindes in Kategorien wie vokale Geräusche (nicht-lexikalisch), Sprache, die Wörter enthält, Schreien und Lachen.

Um die Genauigkeit sicherzustellen, haben wir einen Teil der Erwachsenen-Audios manuell beschriftet und überprüft, wie gut verschiedene Personen mit diesen Beschriftungen übereinstimmten. Wir haben Audioaufnahmen von 51 Sitzungen mit vier Fachleuten und 43 Kindern analysiert. Um sicherzustellen, dass unsere Ergebnisse zuverlässig sind, haben wir eine Methode namens Kreuzvalidierung verwendet, um unser Modell zu bewerten.

Training des Modells mit Kindergeräuschen

Für das Training unseres Modells haben wir Informationen aus zwei verschiedenen Quellen verwendet. Die erste Quelle, bekannt als MyST, umfasst Gespräche mit älteren Kindern und einem Tutor. Die zweite Quelle, Providence, enthält Aufnahmen von jüngeren Kindern, die mit ihren Müttern interagieren. Durch die Nutzung dieser Datensätze wollten wir unserem Modell beibringen, die Geräusche junger Kinder zu verstehen.

Wir haben einen einzigartigen Ansatz verwendet, um Merkmale aus beiden Quellen zu integrieren. Bei einer Methode haben wir die Audioaufnahme von sowohl dem Kind als auch dem Erwachsenen kombiniert, um die Erkennung von Geräuschen durch das Modell zu verbessern. Diese Integration war besonders nützlich, um die Klassifikation der Kindergeräusche zu verbessern.

Verbesserung der Geräuscherkennung

Wir haben festgestellt, dass die Kombination verschiedener Audiofeatures die Fähigkeit des Modells verbessert hat, die Geräusche von Kindern zu klassifizieren. Durch die Einführung von Merkmalen, die speziell zur Erkennung der Geräusche von Kindern entwickelt wurden, haben wir konsistente Verbesserungen in der Leistung des Modells über verschiedene Testsätze hinweg beobachtet.

In unseren Experimenten haben wir das System mit zwei verschiedenen Datensätzen bewertet. Wir haben verglichen, wie gut das Modell mit und ohne zusätzliche Merkmale abschnitt. Die Ergebnisse zeigten, dass die Einbeziehung von Merkmalen, die speziell für die Geräusche von Kindern entwickelt wurden, zu besseren Ergebnissen beim Verständnis der vokalen Äusserungen des Kindes führte.

Leistungsbewertung

Um die Leistung unseres Systems zu bewerten, haben wir bekannte Metriken verwendet, um zu beurteilen, wie genau es die Geräusche von Erwachsenen und Kindern klassifizierte. Wir konzentrierten uns darauf zu messen, wie oft das Modell korrekt war, wenn es verschiedene Arten von Geräuschen, die die Kinder gemacht haben, identifizierte und wie gut es erkannte, wer sprach.

Wir haben auch verschiedene Möglichkeiten getestet, die Audio-Streams von den Kindern und Erwachsenen zu kombinieren. Die Kombination, die am besten funktionierte, war eine, bei der Informationen von beiden Sprechern auf eine bestimmte Weise zusammengeführt wurden, um ein effektiveres Gesamtsystem zur Geräuscherkennung zu schaffen.

Erkenntnisse und zukünftige Richtungen

Unsere Ergebnisse zeigen das Potenzial von Machine-Learning-Modellen, wie W2V2, zur Kategorisierung von Geräuschen, die kleine Kinder während der Interaktionen mit Erwachsenen machen. Obwohl wir starke Ergebnisse erzielt haben, gibt es Einschränkungen. Zum Beispiel konnten wir nicht zwischen Kindern mit ASS und solchen ohne unterscheiden, was sich darauf auswirken könnte, wie wir die Effektivität unseres Systems messen.

In Zukunft planen wir, unsere Forschung auszuweiten, um mehr Daten zu erfassen, die identifizieren, ob Kinder ASS haben oder nicht. Das wird uns helfen, die Klassifikation der Geräusche noch weiter zu verbessern und bessere Unterstützung bei der Diagnose und dem Verständnis von Autismus bei kleinen Kindern zu bieten.

Fazit

Diese Studie zeigt, wie Technologie die Bewertung der vokalen Äusserungen von Kindern während klinischer Interaktionen unterstützen kann. Durch den Einsatz fortschrittlicher Geräuscherkennungstechniken kommen wir dem Ziel näher, Werkzeuge zu schaffen, die Fachleuten bei der Diagnose und Unterstützung von Kindern mit ASS helfen können. Die potenziellen Vorteile umfassen Zeitersparnis für medizinisches Personal und eine klarere Kommunikation mit Eltern über die Entwicklung ihrer Kinder.

Originalquelle

Titel: Enhancing Child Vocalization Classification with Phonetically-Tuned Embeddings for Assisting Autism Diagnosis

Zusammenfassung: The assessment of children at risk of autism typically involves a clinician observing, taking notes, and rating children's behaviors. A machine learning model that can label adult and child audio may largely save labor in coding children's behaviors, helping clinicians capture critical events and better communicate with parents. In this study, we leverage Wav2Vec 2.0 (W2V2), pre-trained on 4300-hour of home audio of children under 5 years old, to build a unified system for tasks of clinician-child speaker diarization and vocalization classification (VC). To enhance children's VC, we build a W2V2 phoneme recognition system for children under 4 years old, and we incorporate its phonetically-tuned embeddings as auxiliary features or recognize pseudo phonetic transcripts as an auxiliary task. We test our method on two corpora (Rapid-ABC and BabbleCor) and obtain consistent improvements. Additionally, we outperform the state-of-the-art performance on the reproducible subset of BabbleCor. Code available at https://huggingface.co/lijialudew

Autoren: Jialu Li, Mark Hasegawa-Johnson, Karrie Karahalios

Letzte Aktualisierung: 2024-06-05 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2309.07287

Quell-PDF: https://arxiv.org/pdf/2309.07287

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel