Avanzando el Reconocimiento de Voz para Personas con Trastornos
Un proyecto busca mejorar la tecnología de voz para quienes tienen dificultades de comunicación.
― 6 minilectura
Tabla de contenidos
- Propósito del Proyecto
- Reuniendo Muestras de Voz Diversas
- Patrones de Habla y Etiquetas
- Mejorando la Fiabilidad del Conjunto de Datos
- Encontrando Grabaciones de Baja Calidad
- Asegurando Etiquetado Preciso
- Aumentando la Eficiencia de Recolección de Datos
- Haciendo los Datos Accesibles
- Direcciones Futuras
- Conclusión
- Fuente original
- Enlaces de referencia
Hay una necesidad creciente de mejorar la tecnología de reconocimiento de voz para personas con Trastornos del habla. Muchos individuos tienen dificultades para comunicarse debido a diversas condiciones que afectan su habla. Este proyecto se centra en crear una gran colección útil de grabaciones de personas con trastornos del habla. El objetivo es ayudar a la tecnología a entender y procesar mejor su habla.
Propósito del Proyecto
El objetivo principal de este proyecto es reunir una variedad de muestras de voz de individuos con diferentes desafíos de habla. Al hacerlo, esperamos crear un conjunto de datos confiable que se pueda utilizar para enseñar a las máquinas a reconocer y entender el habla de personas con trastornos. Esto hará que la tecnología de habla sea accesible para todos, sin importar sus habilidades del habla.
Reuniendo Muestras de Voz Diversas
Para hacer nuestro conjunto de datos lo más útil posible, expandimos nuestros esfuerzos para involucrar a hablantes de una amplia gama de contextos. Esto incluye personas de varios grupos raciales y socioeconómicos. Además, incluimos hablantes que enfrentan diferentes tipos de trastornos del habla, como ELA, enfermedad de Parkinson, síndrome de Down, entre otros.
Un paso importante en nuestro proceso fue asociarnos con organizaciones que ayudan a personas con dificultades de comunicación. Estas asociaciones nos permitieron llegar a más individuos y recopilar un conjunto más diverso de grabaciones.
Etiquetas
Patrones de Habla yPara entender los diferentes tipos de trastornos del habla representados en nuestro conjunto de datos, desarrollamos un sistema de etiquetado. Patólogos del habla certificados fueron capacitados para evaluar y categorizar irregularidades en el habla. Evaluaron las grabaciones en función de un conjunto de 40 etiquetas diferentes que representan varias características del habla, como la claridad, la velocidad de expresión y la consistencia de los patrones de habla.
El uso de evaluaciones de expertos es crucial porque proporciona un nivel de precisión que los métodos automáticos a menudo carecen. Aunque algunas herramientas pueden analizar el habla automáticamente, no siempre capturan los desafíos únicos que enfrentan las personas con trastornos del habla. Por lo tanto, nos basamos en profesionales capacitados para crear etiquetas detalladas para las grabaciones.
Mejorando la Fiabilidad del Conjunto de Datos
A medida que nuestra colección de habla desordenada aumentó, tuvimos que asegurarnos de que los datos fueran de alta calidad. Esto significaba revisar la calidad del audio, errores en las grabaciones y otros problemas. Corregimos las transcripciones para asegurarnos de que fueran precisas y siguieran el mismo formato para mantener la consistencia.
También realizamos pruebas para ver cómo estas correcciones afectaban el rendimiento general de nuestros modelos de reconocimiento de voz. Mientras encontramos resultados mixtos en algunos casos, quedó claro que normalizar las transcripciones de forma consistente ayudaba a reducir errores.
Encontrando Grabaciones de Baja Calidad
Para mantener nuestro conjunto de datos confiable, investigamos formas de identificar automáticamente grabaciones de baja calidad. Esto incluyó desarrollar métodos para detectar si una Grabación contenía habla real o no. Probamos dos modelos diferentes para ver qué tan bien podían identificar grabaciones que estaban en silencio o mal capturadas.
Los resultados mostraron que un modelo era mejor para detectar habla que el otro. Esto es importante porque usar sistemas de detección menos precisos puede llevar a perder grabaciones valiosas. Finalmente decidimos no usar modelos automáticos en nuestro proceso de recolección de datos, optando por controles manuales en su lugar.
Asegurando Etiquetado Preciso
El etiquetado preciso es esencial para el éxito de la tecnología de reconocimiento de voz. Verificamos cuán consistentes eran las calificaciones entre diferentes patólogos del habla cuando evaluaban las mismas grabaciones. Los resultados mostraron que, mientras algunas etiquetas se calificaron de manera confiable, otras no fueron tan consistentes. Esto destaca la importancia de confirmar que las etiquetas sean fiables antes de usarlas en el entrenamiento de modelos.
Aumentando la Eficiencia de Recolección de Datos
Las investigaciones han demostrado que incluso grabaciones cortas pueden ayudar a personalizar los sistemas de reconocimiento de voz. Con eso en mente, reducimos el número de frases que cada participante tenía que grabar. También nos aseguramos de que los prompts que proporcionamos fueran apropiados y manejables para nuestros usuarios.
Al alinear los prompts con usos de la vida real, como comandos de voz para la automatización del hogar, mejoramos la forma en que los participantes podían involucrarse en el proceso. Esto no solo facilitó las cosas para ellos, sino que también nos permitió recopilar una mejor variedad de muestras de habla.
Haciendo los Datos Accesibles
Un desafío significativo en el avance del reconocimiento de voz para individuos con trastornos del habla es la falta de Conjuntos de datos bien organizados. Para abordar esto, colaboramos con varios investigadores y empresas tecnológicas para crear una iniciativa centrada en recopilar y compartir conjuntos de datos de habla afectada. Esta nueva colaboración tiene como objetivo proporcionar acceso a grabaciones valiosas mientras garantizamos que las muestras de habla se utilicen de manera responsable.
Direcciones Futuras
A medida que avanzamos, hay varias áreas que planeamos mejorar. Un enfoque es explorar si métodos de etiquetado más detallados podrían proporcionar mejores resultados. Podríamos considerar nuevos enfoques que ayuden a evaluar las características del habla de manera más precisa.
Además, buscamos mejorar la tecnología de anotación automática. La mayoría de los modelos existentes solo se han entrenado con habla típica, lo que limita su efectividad en entender el habla desordenada. Al incorporar datos de nuestra colección, esperamos desarrollar modelos mejores que puedan interpretar con precisión la habla de individuos diversos.
Expandir nuestras capacidades lingüísticas también es una prioridad. En este momento, nuestro enfoque ha sido principalmente en inglés, pero planeamos incluir más idiomas para asegurar que nuestro trabajo sea relevante para una audiencia más amplia. Esto ayudará a llegar a individuos de diferentes contextos lingüísticos que también necesitan apoyo con la tecnología de reconocimiento de voz.
Conclusión
Este proyecto representa un paso significativo hacia la creación de un conjunto confiable de datos de habla desordenada. Al centrarnos en diversificar nuestras muestras, asegurar la precisión en el etiquetado y mejorar los procesos de recolección de datos, buscamos hacer una diferencia real en cómo la tecnología de reconocimiento de voz sirve a personas con trastornos del habla. El trabajo en curso seguirá evolucionando, con el objetivo de incluir más lenguajes y mejorar la tecnología para reflejar mejor la diversa gama de patrones de habla que se encuentran en el mundo real. A medida que avanzamos, somos optimistas sobre el potencial de este proyecto para mejorar la comunicación de quienes enfrentan desafíos para expresarse.
Título: Learnings from curating a trustworthy, well-annotated, and useful dataset of disordered English speech
Resumen: Project Euphonia, a Google initiative, is dedicated to improving automatic speech recognition (ASR) of disordered speech. A central objective of the project is to create a large, high-quality, and diverse speech corpus. This report describes the project's latest advancements in data collection and annotation methodologies, such as expanding speaker diversity in the database, adding human-reviewed transcript corrections and audio quality tags to 350K (of the 1.2M total) audio recordings, and amassing a comprehensive set of metadata (including more than 40 speech characteristic labels) for over 75\% of the speakers in the database. We report on the impact of transcript corrections on our machine-learning (ML) research, inter-rater variability of assessments of disordered speech patterns, and our rationale for gathering speech metadata. We also consider the limitations of using automated off-the-shelf annotation methods for assessing disordered speech.
Autores: Pan-Pan Jiang, Jimmy Tobin, Katrin Tomanek, Robert L. MacDonald, Katie Seaver, Richard Cave, Marilyn Ladewig, Rus Heywood, Jordan R. Green
Última actualización: 2024-09-13 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2409.09190
Fuente PDF: https://arxiv.org/pdf/2409.09190
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.