Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Sonido# Inteligencia artificial# Ingeniería del software# Procesado de Audio y Voz

Mejorando el Reconocimiento de Voz para Personas con Tartamudez

Un método para mejorar los sistemas de ASR para usuarios que tartamudean.

― 6 minilectura


Accesibilidad ASR paraAccesibilidad ASR parapersonas con tartamudeztartamudez.voz para mejorar el apoyo a laProbando sistemas de reconocimiento de
Tabla de contenidos

Los sistemas de reconocimiento automático de habla (ASR) se han vuelto comunes en nuestra vida diaria. Estos sistemas convierten el lenguaje hablado en texto. Aunque han mejorado mucho con el tiempo, todavía tienen problemas con ciertos tipos de habla, como la de las personas que tartamudean. Este artículo habla de un método para probar mejor los sistemas ASR y hacerlos más accesibles para los tartamudos.

La Necesidad de Accesibilidad en los Sistemas ASR

Mucha gente usa sistemas ASR, incluyendo a personas con discapacidades. Mejorar la accesibilidad de estos sistemas para los usuarios que tartamudean es esencial. Tartamudear puede llevar a malentendidos, por lo que es crucial que los sistemas ASR reconozcan este tipo de habla con precisión. Sin embargo, los sistemas ASR existentes enfrentan desafíos al procesar el habla tartamuda.

Desafíos en la Prueba de Sistemas ASR

Probar los sistemas ASR para ver cómo manejan el habla tartamuda no es sencillo. Un problema importante es la falta de conjuntos de datos de habla diversos grabados de personas que tartamudean. La mayoría de los conjuntos de datos disponibles no representan suficientemente las diferentes formas en las que puede ocurrir el Tartamudeo. Además, a menudo carecen de transcripciones de texto correctas, lo que significa que no se pueden usar de manera efectiva para probar los sistemas ASR.

El objetivo de una prueba efectiva es crear ejemplos diversos de habla tartamuda, lo que puede ayudar a exponer las debilidades en los sistemas ASR. Este estudio propone un método para generar muestras de habla tartamuda que se pueden usar para evaluar los sistemas ASR de manera precisa.

Generando Muestras de Habla Tartamuda

Para probar los sistemas ASR de manera efectiva, presentamos una técnica para generar muestras de habla tartamuda. Esta técnica implica crear archivos de audio que imiten cómo hablan las personas que tartamudean mientras se asegura que las muestras generadas sean lo suficientemente diversas para revelar posibles fallas en los sistemas ASR.

Tipos de Tartamudeo

El tartamudeo puede manifestarse de varias maneras, y nuestra técnica busca simular estas variaciones. Los tipos comunes de tartamudeo incluyen:

  1. Bloqueo: Esto ocurre cuando una persona se detiene en medio de una palabra.
  2. Prolongación: Aquí, una sílaba se estira más allá de su duración normal.
  3. Repetición de sonido: En este caso, una sílaba se repite.
  4. Repetición de palabras: Esto implica repetir palabras enteras.
  5. Interyección: El hablante agrega palabras de relleno como "eh" o "um" durante el habla.

Al incorporar estas variaciones, nuestro método produce muestras de tartamudeo realistas para las pruebas.

Evaluando los Sistemas ASR

Para medir qué tan bien funcionan los sistemas ASR con las muestras de audio de tartamudeo generadas, realizamos una serie de pruebas usando tanto sistemas ASR de código abierto como comerciales. Estas pruebas midieron cuántos errores cometieron los sistemas al intentar transcribir el habla.

Métricas de Rendimiento

Usamos tres métricas principales para evaluar los sistemas ASR:

  1. Tasa de Error de Palabras (WER): Esto mide el porcentaje de palabras incorrectas en la transcripción ASR en comparación con el texto original.
  2. Tasa de Error de Coincidencia (MER): Esto evalúa cuántas palabras fueron transcritas incorrectamente en comparación con cuántas coincidieron con el texto original.
  3. Información de Palabra Perdida (WIL): Esto evalúa cuánta información perdió el sistema ASR en comparación con el texto original.

Estas métricas ayudan a entender qué tan bien reconocen los sistemas ASR el habla tartamuda.

Resultados de la Evaluación

Implementamos nuestra técnica de prueba y evaluamos el rendimiento de cuatro modelos ASR de código abierto y tres sistemas ASR comerciales. Los resultados demostraron que nuestras muestras de tartamudeo generadas aumentaron significativamente los errores de reconocimiento en todos los sistemas probados.

Estudio con Usuarios

Además de las evaluaciones técnicas, realizamos un estudio con usuarios para verificar si las muestras de audio de tartamudeo generadas sonaban realistas. Se presentaron a los participantes pares de muestras de audio, una generada y una real. Su tarea era identificar la muestra real. Los resultados indicaron que los participantes tuvieron dificultades para distinguir entre el audio de tartamudeo generado y el real, confirmando el realismo de nuestras muestras.

Impacto de Diferentes Tipos de Tartamudeo

También examinamos cómo cada tipo de tartamudeo afectaba el rendimiento de los sistemas ASR. Cada uno de los cinco tipos de tartamudeo se probó individualmente para ver cuál tenía el mayor impacto en las tasas de reconocimiento ASR.

El tipo de tartamudeo por bloqueo resultó en las tasas de error más altas, seguido por las interjecciones y la prolongación. La repetición de palabras y sonidos también contribuyó a errores, pero en menor medida. Esta comprensión ayuda a identificar qué aspectos del tartamudeo son más desafiantes para los sistemas ASR.

Comparación de Sistemas ASR

Comparamos el rendimiento de varios sistemas ASR y encontramos diferencias notables. Los sistemas comerciales generalmente tuvieron un mejor rendimiento que los de código abierto, pero aún había errores significativos en el reconocimiento del habla tartamuda. Entre los sistemas comerciales, uno superó a los demás, logrando las mejores tasas de reconocimiento.

Importancia de Pruebas Robustas

Nuestros hallazgos enfatizan la necesidad de metodologías de prueba robustas para los sistemas ASR. Al simular el habla tartamuda realista, los desarrolladores pueden entender mejor las debilidades en sus sistemas y trabajar para crear tecnología más precisa e inclusiva.

Probar los sistemas ASR con audio de tartamudeo generado es crucial para avanzar. Esto ayudará a garantizar que las personas que tartamudean tengan una mejor experiencia al usar tecnologías de reconocimiento de voz.

Direcciones Futuras

La investigación presentada abre varias avenidas para trabajos futuros. Investigaciones adicionales pueden explorar patrones de tartamudeo más diversos y sus efectos en el rendimiento del ASR. Además, a medida que la tecnología ASR continúa evolucionando, será necesario realizar pruebas continuas para mantener las mejoras en accesibilidad.

Conclusión

La accesibilidad de los sistemas ASR es vital para los usuarios con trastornos del habla, particularmente para aquellos que tartamudean. Nuestro método para generar muestras de audio de tartamudeo realistas proporciona una sólida base de pruebas para evaluar los sistemas ASR. Al identificar las debilidades en los modelos actuales, los investigadores y desarrolladores pueden trabajar juntos para crear mejores tecnologías de reconocimiento de voz más inclusivas.

Fuente original

Título: ASTER: Automatic Speech Recognition System Accessibility Testing for Stutterers

Resumen: The popularity of automatic speech recognition (ASR) systems nowadays leads to an increasing need for improving their accessibility. Handling stuttering speech is an important feature for accessible ASR systems. To improve the accessibility of ASR systems for stutterers, we need to expose and analyze the failures of ASR systems on stuttering speech. The speech datasets recorded from stutterers are not diverse enough to expose most of the failures. Furthermore, these datasets lack ground truth information about the non-stuttered text, rendering them unsuitable as comprehensive test suites. Therefore, a methodology for generating stuttering speech as test inputs to test and analyze the performance of ASR systems is needed. However, generating valid test inputs in this scenario is challenging. The reason is that although the generated test inputs should mimic how stutterers speak, they should also be diverse enough to trigger more failures. To address the challenge, we propose ASTER, a technique for automatically testing the accessibility of ASR systems. ASTER can generate valid test cases by injecting five different types of stuttering. The generated test cases can both simulate realistic stuttering speech and expose failures in ASR systems. Moreover, ASTER can further enhance the quality of the test cases with a multi-objective optimization-based seed updating algorithm. We implemented ASTER as a framework and evaluated it on four open-source ASR models and three commercial ASR systems. We conduct a comprehensive evaluation of ASTER and find that it significantly increases the word error rate, match error rate, and word information loss in the evaluated ASR systems. Additionally, our user study demonstrates that the generated stuttering audio is indistinguishable from real-world stuttering audio clips.

Autores: Yi Liu, Yuekang Li, Gelei Deng, Felix Juefei-Xu, Yao Du, Cen Zhang, Chengwei Liu, Yeting Li, Lei Ma, Yang Liu

Última actualización: 2023-08-29 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2308.15742

Fuente PDF: https://arxiv.org/pdf/2308.15742

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares