Avanzando el diagnóstico del autismo a través del reconocimiento de sonidos
Un estudio sobre el uso de aprendizaje automático para identificar los sonidos de los niños para la evaluación del TDAH.
― 6 minilectura
Tabla de contenidos
El Trastorno del Espectro Autista (TEA) es una condición que afecta cómo los niños se desarrollan socialmente y se comunican. Suele aparecer en la primera infancia. Para diagnosticar el TEA, los clínicos entrenados usualmente observan y toman notas sobre el comportamiento de los niños. Este proceso puede ser muy largo y requiere un montón de esfuerzo. Sería muy útil tener un sistema que pueda reconocer y clasificar automáticamente los sonidos que hacen los niños durante las conversaciones con adultos, lo que podría ahorrar tiempo y ayudar a los clínicos a comunicarse mejor con los padres y entrenar a nuevo personal.
En este estudio, usamos un modelo de Aprendizaje automático llamado Wav2Vec 2.0 (W2V2) para crear un sistema que puede escuchar conversaciones entre niños y adultos y averiguar quién está hablando y qué tipo de sonidos está haciendo el niño. Nos enfocamos en conversaciones que duran alrededor de 3 a 5 minutos y usamos un conjunto específico de grabaciones conocido como el corpus Rapid-ABC. Nuestro objetivo es entender y clasificar mejor los sonidos que hacen los niños, como llorar o reír, especialmente en niños menores de cuatro años.
Usando Tecnología para Ayudar con el Diagnóstico del TEA
El TEA se diagnostica a través de observaciones cuidadosas del comportamiento de un niño, que puede variar mucho. Se estima que 1 de cada 36 niños en EE. UU. tiene TEA. Lamentablemente, obtener un diagnóstico puede tardar bastante porque no hay suficientes profesionales de la salud disponibles. Este retraso podría solucionarse con un modelo de aprendizaje automático que identifique automáticamente características relevantes de los sonidos de los niños.
Los esfuerzos anteriores han implicado construir modelos que pueden reconocer quién está hablando en entrevistas grabadas entre clínicos y niños. Estas entrevistas a menudo usan protocolos estructurados para que los niños hablen. Sin embargo, muchos estudios se han centrado en niños mayores, y hay una necesidad de herramientas que puedan ayudar con los más pequeños que pueden no usar oraciones completas.
Los niños con TEA a menudo muestran signos como un habla menos frecuente y sonidos no verbales. Para mejorar la situación, este estudio tiene como objetivo clasificar los sonidos que hacen los niños durante las conversaciones de manera más precisa.
El Papel de las Grabaciones de Audio
En nuestro estudio, usamos grabaciones de audio del corpus Rapid-ABC, que incluye interacciones cortas entre niños de 1 a 2 años y sus clínicos. Cada grabación dura entre 3 y 5 minutos, y tenemos grabaciones separadas para niños y adultos. Clasificamos las vocalizaciones del niño en categorías como Sonidos Vocales (no léxicos), habla que contiene palabras, llantos y risas.
Para asegurar la precisión, etiquetamos manualmente parte del audio de los adultos y verificamos qué tan bien diferentes personas coincidieron en estas etiquetas. Analizamos grabaciones de audio de 51 sesiones que involucraron a cuatro clínicos y 43 niños. Para asegurarnos de que nuestros resultados sean fiables, utilizamos un método llamado Validación cruzada para evaluar nuestro modelo.
Entrenando el Modelo con los Sonidos de los Niños
Para entrenar nuestro modelo, usamos información de dos fuentes diferentes. La primera fuente, conocida como MyST, incluye conversaciones de niños mayores con un tutor. La segunda fuente, Providence, contiene grabaciones de niños más pequeños interactuando con sus madres. Al usar estos conjuntos de datos, nuestro objetivo era enseñar a nuestro modelo a entender los sonidos que hacen los niños pequeños.
Usamos un enfoque único para integrar características de ambas fuentes. En un método, combinamos el audio de los hablantes niños y adultos para mejorar cómo el modelo reconoce los sonidos. Esta integración fue especialmente útil para mejorar la clasificación de los sonidos de los niños.
Mejorando el Reconocimiento de Sonidos
Descubrimos que combinar diferentes características de audio mejoró la capacidad del modelo para clasificar los sonidos de los niños. Al introducir características específicamente dirigidas a reconocer los sonidos de los niños, vimos mejoras consistentes en el rendimiento del modelo en diferentes conjuntos de pruebas.
En nuestros experimentos, evaluamos el sistema usando dos conjuntos de datos diferentes. Comparamos qué tan bien funcionaba el modelo con y sin características adicionales. Los resultados mostraron que incluir características específicamente diseñadas para los sonidos de los niños llevó a mejores resultados en la comprensión de las vocalizaciones del niño.
Evaluando el Rendimiento
Para evaluar el rendimiento de nuestro sistema, usamos métricas conocidas para valorar qué tan acertadamente clasificó los sonidos de adultos y niños. Nos enfocamos en medir qué tan frecuentemente el modelo acertaba al identificar diferentes tipos de sonidos que hacían los niños y qué tan bien reconocía quién estaba hablando.
También probamos diferentes formas de fusionar los flujos de audio de los hablantes niño y adulto. La combinación que funcionó mejor fue una donde la información de ambos hablantes se combinó de una manera específica para crear un sistema de reconocimiento de sonido más efectivo.
Perspectivas e Direcciones Futuras
Nuestros hallazgos destacan el potencial de usar modelos de aprendizaje automático, como W2V2, para categorizar los sonidos que hacen los niños pequeños durante interacciones con adultos. Aunque logramos resultados fuertes, hay limitaciones. Por ejemplo, no pudimos diferenciar entre niños con TEA y los que no, lo que podría afectar cómo medimos la efectividad de nuestro sistema.
En el futuro, planeamos expandir nuestra investigación para incluir más datos que identifiquen si los niños tienen TEA o no. Esto nos ayudará a mejorar aún más la clasificación de sonidos y proporcionar mejor apoyo para diagnosticar y entender el autismo en niños pequeños.
Conclusión
Este estudio demuestra cómo la tecnología puede apoyar la evaluación de las vocalizaciones de los niños durante las interacciones clínicas. Al usar técnicas avanzadas de reconocimiento de sonido, estamos más cerca de crear herramientas que puedan ayudar a los clínicos a diagnosticar y apoyar a los niños con TEA. Los beneficios potenciales incluyen ahorrar tiempo a los profesionales de la salud y proporcionar una comunicación más clara con los padres sobre el desarrollo de sus hijos.
Título: Enhancing Child Vocalization Classification with Phonetically-Tuned Embeddings for Assisting Autism Diagnosis
Resumen: The assessment of children at risk of autism typically involves a clinician observing, taking notes, and rating children's behaviors. A machine learning model that can label adult and child audio may largely save labor in coding children's behaviors, helping clinicians capture critical events and better communicate with parents. In this study, we leverage Wav2Vec 2.0 (W2V2), pre-trained on 4300-hour of home audio of children under 5 years old, to build a unified system for tasks of clinician-child speaker diarization and vocalization classification (VC). To enhance children's VC, we build a W2V2 phoneme recognition system for children under 4 years old, and we incorporate its phonetically-tuned embeddings as auxiliary features or recognize pseudo phonetic transcripts as an auxiliary task. We test our method on two corpora (Rapid-ABC and BabbleCor) and obtain consistent improvements. Additionally, we outperform the state-of-the-art performance on the reproducible subset of BabbleCor. Code available at https://huggingface.co/lijialudew
Autores: Jialu Li, Mark Hasegawa-Johnson, Karrie Karahalios
Última actualización: 2024-06-05 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.07287
Fuente PDF: https://arxiv.org/pdf/2309.07287
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.