Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Procesado de Audio y Voz# Computación y lenguaje# Sonido

Avances en el reconocimiento de voz para niños

Este estudio mejora la capacidad de los sistemas de reconocimiento de voz para entender el habla de los niños.

― 7 minilectura


Mejorando elMejorando elreconocimiento de voz enlos niñosde voz para el habla de los niños.Este estudio mejora el reconocimiento
Tabla de contenidos

El Reconocimiento Automático de Voz (ASR) ha avanzado bastante últimamente, especialmente con sistemas como Whisper, que puede entender el habla humana muy bien cuando se le da suficiente data. Pero estos avances no se traducen fácilmente al habla de los niños. Esto es principalmente por dos razones: no hay suficientes bases de datos que se enfoquen en el habla infantil, y el habla de los niños tiene características únicas que difieren de los adultos. Un estudio reciente investigó usar la base de datos de habla infantil de My Science Tutor (MyST) para mejorar la capacidad de Whisper de reconocer el habla de los niños. Mostraron algunos resultados positivos en un pequeño conjunto de pruebas. Este artículo se basa en sus hallazgos y usa mejores técnicas de preparación de datos para mejorar aún más el rendimiento de Whisper con el habla infantil.

El Reto con el Reconocimiento de la Habla Infantil

ASR se ha vuelto popular en los últimos años utilizando grandes cantidades de habla transcrita recogida de varias fuentes en internet. Whisper, por ejemplo, usa 680,000 horas de datos para alcanzar casi una precisión humana. Sin embargo, los sistemas de ASR tienen problemas con el habla infantil, que a menudo se ve como una tarea de bajos recursos. Investigaciones anteriores han destacado la brecha de rendimiento entre el reconocimiento del habla de adultos y el de niños, incluso en idiomas ampliamente hablados como el inglés. Las principales razones de esta brecha son las diferencias en cómo hablan los niños y sus etapas de desarrollo. Los sistemas ASR entrenados en el habla de adultos a menudo no aprenden a manejar estas diferencias ya que no están presentes en los datos de entrenamiento.

El tamaño y la calidad limitados de las bases de datos con habla infantil también añaden a la problemática. Recoger y transcribir el habla de los niños es complicado y a menudo conduce a conjuntos de datos menos fiables.

La Base de Datos de My Science Tutor

El corpus MyST es la base de datos de habla infantil más grande disponible públicamente. Contiene grabaciones de estudiantes de tercer, cuarto y quinto grado participando en sesiones de tutoría virtual sobre materias como física y geografía. Aunque el corpus incluye alrededor de 393 horas de habla infantil, solo unas 197 horas han sido transcritas. La calidad de estas transcripciones varía bastante. Algunos transcritos son completamente incorrectos, mientras que otros sufren de baja calidad de audio porque los niños pueden hablar demasiado cerca del micrófono.

Para abordar estos problemas, revisamos el corpus MyST para encontrar y eliminar transcripciones de mala calidad. Al hacerlo, logramos retener 179.2 horas de habla bien transcrita. Mantener las divisiones de datos originales asegura que no haya superposición de hablantes entre los conjuntos de entrenamiento y prueba, lo cual es vital para obtener resultados creíbles.

Mejora en el Procesamiento de Datos

Nos enfocamos en crear mejores métodos de preparación de datos para el conjunto de MyST. Al aplicar técnicas de filtrado más estrictas, reducimos errores en los datos de Transcripción. Eliminamos archivos con altas tasas de error de palabras (WER) y sacamos archivos cortos que no tenían suficiente contexto. Después de filtrar, normalizamos los datos de texto para asegurar consistencia en cómo se representaban las palabras y los números, lo que ayuda al modelo a aprender mejor.

Al final, produjimos un conjunto de datos limpio que es tres veces más grande que los intentos anteriores. Este manejo cuidadoso le da a nuestros modelos una base más sólida de la cual aprender, lo cual es crucial al entrenar sistemas para reconocer el habla de los niños.

Entrenando los Modelos

Elegimos Whisper para nuestros experimentos debido a su amplia experiencia en entrenamiento. El modelo ha demostrado ser fuerte reconociendo varios patrones de habla. Para nuestro entrenamiento, afinamos tanto las versiones Small como Medium de Whisper usando nuestro conjunto de datos preparado de MyST. También probamos el modelo en la base de datos CSLU Kids para evaluar su flexibilidad y precisión con datos no vistos.

Realizamos el entrenamiento usando un método que nos permitió alcanzar el mejor rendimiento posible mientras asegurábamos que los resultados pudieran ser replicados. Nuestros modelos se ejecutaron en potentes GPUs para optimizar el tiempo de entrenamiento y la eficiencia.

Resultados y Observaciones

Después de afinar Whisper en el conjunto de datos MyST, logramos una reducción significativa en el WER. Para el modelo Small, disminuimos el WER del 13.93% al 9.11%, mientras que el WER del modelo Medium bajó del 13.23% al 8.61%. Estos resultados indican una mejora notable en la capacidad del modelo para entender el habla de los niños.

Cuando probamos el modelo en la base de datos CSLU Kids, el WER también mejoró, demostrando la adaptabilidad del modelo a nuevos datos que no había encontrado durante el entrenamiento. Esta es una cualidad esencial ya que las aplicaciones del ASR en el mundo real encontrarán patrones de habla diversos.

Los resultados destacan que la afinación no solo mejoró las tasas de reconocimiento para el conjunto de datos MyST, sino que también permitió al modelo generalizar bien a otros conjuntos de datos, como CSLU Kids.

Desafíos en el ASR Infantil

A pesar de los avances, siguen existiendo varios desafíos para mejorar el ASR en el habla de los niños. La variabilidad en cómo hablan los niños puede ser difícil de manejar para los modelos, ya que cambian de tema rápidamente y pueden no seguir una estructura estricta en sus conversaciones. Esta imprevisibilidad puede confundir a los sistemas de ASR, que prosperan en patrones.

Además, factores como el ruido de fondo-común en entornos de aula-pueden dificultar el reconocimiento. Abordar estos desafíos será vital para desarrollar sistemas de ASR más efectivos para niños en el futuro.

Direcciones Futuras

Mirando hacia adelante, hay varias áreas que valen la pena explorar. Un objetivo es examinar cómo se desempeña Whisper en entornos ruidosos que se asemejan a situaciones reales de aula. Queremos entender cómo diferentes sonidos impactan la capacidad del modelo para reconocer el habla de manera precisa.

Además, planeamos investigar posibles sesgos dentro de los modelos. Es crucial determinar si ciertos grupos de edad o géneros son mejor reconocidos que otros. Trabajos anteriores han sugerido que crear sistemas de ASR adaptados a grupos de edad específicos podría generar mejores resultados. Nuestro objetivo es verificar si este enfoque es efectivo con modelos más avanzados.

Conclusión

En resumen, este trabajo demuestra el potencial de usar Whisper para reconocer el habla de los niños aprovechando el conjunto de datos MyST. Filtramos y preparamos los datos para mejorar el rendimiento, logrando una notable reducción en las tasas de error. Aunque siguen existiendo desafíos, los resultados indican que con las técnicas adecuadas, es posible cerrar la brecha entre el reconocimiento del habla de adultos y el de niños. La investigación futura se enfocará en mejorar la resistencia al ruido y asegurar la equidad entre diferentes grupos de edad y demográficos en los sistemas de ASR.

Fuente original

Título: Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults

Resumen: Recent advancements in Automatic Speech Recognition (ASR) systems, exemplified by Whisper, have demonstrated the potential of these systems to approach human-level performance given sufficient data. However, this progress doesn't readily extend to ASR for children due to the limited availability of suitable child-specific databases and the distinct characteristics of children's speech. A recent study investigated leveraging the My Science Tutor (MyST) children's speech corpus to enhance Whisper's performance in recognizing children's speech. They were able to demonstrate some improvement on a limited testset. This paper builds on these findings by enhancing the utility of the MyST dataset through more efficient data preprocessing. We reduce the Word Error Rate (WER) on the MyST testset 13.93% to 9.11% with Whisper-Small and from 13.23% to 8.61% with Whisper-Medium and show that this improvement can be generalized to unseen datasets. We also highlight important challenges towards improving children's ASR performance. The results showcase the viable and efficient integration of Whisper for effective children's speech recognition.

Autores: Ahmed Adel Attia, Jing Liu, Wei Ai, Dorottya Demszky, Carol Espy-Wilson

Última actualización: 2024-05-15 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.07927

Fuente PDF: https://arxiv.org/pdf/2309.07927

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares