Mejorando la detección de lenguaje de señas a través de mejores conjuntos de datos
Abordar la superposición de firmantes para mejorar la precisión en la detección de lengua de señas.
― 7 minilectura
Tabla de contenidos
La detección de lenguaje de señas se trata de averiguar si alguien está usando lenguaje de señas. Esto se está volviendo muy importante, especialmente para videollamadas y para reunir datos que ayuden a entrenar sistemas que reconozcan o traduzcan lenguaje de señas. Sin embargo, creemos que los conjuntos de datos actuales que se usan para probar la detección de lenguaje de señas quizás no den resultados precisos, ya que a menudo mezclan a los signatarios en las fases de entrenamiento y prueba.
¿Qué es la Detección de Lenguaje de Señas?
El lenguaje de señas es un idioma natural que usa la comunidad sorda. Implica varios movimientos del cuerpo para transmitir mensajes, incluyendo formas de las manos, expresiones faciales y postura del cuerpo. Los sistemas informáticos tradicionales se enfocan principalmente en los idiomas hablados, haciendo que el lenguaje de señas sea menos visible en muchas plataformas.
Con más personas trabajando de manera remota, el software para conferencias por video se ha vuelto común. Estos programas a menudo destacan al hablante activo para que la audiencia pueda concentrarse en ellos. Desafortunadamente, cuando un usuario de lenguaje de señas comienza a firmar, puede quedar oculto, lo que dificulta la comunicación efectiva. Para cerrar esta brecha, se necesita mejorar las herramientas de detección de lenguaje de señas para que puedan identificar cuándo alguien está firmando y cuándo no.
Estado Actual de la Detección de Lenguaje de Señas
Hay una cantidad creciente de investigación en detección de lenguaje de señas, pero sigue siendo un área desafiante. La mayoría de los sistemas diseñados para la detección de lenguaje de señas siguen un proceso de dos pasos: primero, extraen características importantes del video, y luego clasifican el video como que contiene un usuario de lenguaje de señas o no.
Por ejemplo, algunos estudios utilizan modelos que toman fotogramas de video y extraen características para determinar si una persona está firmando. Han logrado tasas de precisión bastante altas, pero al mirar más de cerca, parece que estos resultados podrían no ser confiables. Esto es principalmente porque los mismos signatarios a menudo aparecen en ambas fases, de entrenamiento y prueba, causando superposición.
El Problema de la Superposición de Signatarios
Cuando decimos "superposición de signatarios", nos referimos a que la misma persona podría estar incluida en ambos conjuntos de datos de entrenamiento y prueba. Esto puede hacer que parezca que el sistema está funcionando mejor de lo que realmente está. Si un modelo ha visto a un signatario particular durante el entrenamiento, es probable que le vaya bien cuando se encuentra con el mismo signatario de nuevo durante la prueba. Este es un problema porque no muestra qué tan bien puede desempeñarse el sistema con signatarios nuevos o diferentes.
Para ilustrar este problema, analizamos dos conjuntos de datos importantes utilizados para la detección de lenguaje de señas: el DGS Corpus y Signing in the Wild. Ambos conjuntos de datos mostraron una superposición significativa de signatarios entre los grupos de entrenamiento y prueba. Medimos el impacto de esta superposición y encontramos caídas notables en la precisión cuando comparamos resultados de conjuntos de datos con y sin signatarios superpuestos.
Soluciones Propuestas
Para mejorar la forma en que evaluamos los sistemas de detección de lenguaje de señas, sugerimos crear nuevos conjuntos de datos que no tengan superposición de signatarios. Al asegurarnos de que un signatario aparezca en solo un conjunto de datos (ya sea entrenamiento, desarrollo o prueba), podemos lograr una evaluación más realista de qué tan bien están funcionando estos sistemas.
Para el DGS Corpus, desarrollamos una nueva forma de dividir los datos, asegurando que no hubiera signatarios en ambos conjuntos de entrenamiento y prueba. Este arreglo ayudará a proporcionar una imagen más clara de las capacidades del sistema. De manera similar, hicimos lo mismo con el conjunto de datos Signing in the Wild.
Examinando Conjuntos de Datos: DGS Corpus
El DGS Corpus es una colección de videos que presenta el lenguaje de señas alemán, con más de 1150 horas de material grabado. Solo una parte de estos datos está anotada para mostrar cuándo ocurre la firma. Las divisiones existentes del DGS Corpus sugerían una mezcla de signatarios, que identificamos y cuantificamos.
Al analizar las divisiones originales sugeridas por investigaciones anteriores, encontramos que los mismos signatarios aparecían en los conjuntos de entrenamiento y prueba. Desglosamos el conjunto de datos original para mostrar cuántos signatarios se superpusieron entre estas fases. Notar que 88 signatarios eran comunes entre los conjuntos de entrenamiento y desarrollo fue alarmante. Para demostrar el efecto de esta superposición, dividimos el conjunto de prueba original en partes con y sin superposición.
Analizando el Conjunto de Datos Signing in the Wild
El conjunto de datos Signing in the Wild consiste en videos recopilados de YouTube, con el objetivo de incluir una variedad diversa de lenguajes de señas y configuraciones. Este conjunto de datos también incorpora ejemplos de firma y no firma, como hablar y otras actividades.
Al igual que el DGS Corpus, el conjunto de datos Signing in the Wild mostró que los videos del mismo signatario podrían aparecer en múltiples divisiones, lo que distorsiona los resultados de precisión. Experimentos iniciales usando las divisiones originales indicaron un mejor rendimiento debido a la superposición. Sin embargo, al crear una nueva división sin superposición, esperábamos encontrar una caída en la precisión, reflejando una evaluación de rendimiento más honesta.
Agrupando Signatarios para Mejorar la Gestión de Datos
Uno de los desafíos al trabajar con el DGS Corpus es que no hay etiquetado para los signatarios dentro de los videos. Para abordar esto, empleamos un método llamado agrupación facial, que agrupa rostros similares basados en características extraídas. Al usar un algoritmo de Agrupamiento, identificamos y agrupamos a los signatarios según los videos donde aparecieron.
Los resultados mostraron una precisión variable dependiendo del número de imágenes utilizadas para el agrupamiento. Encontramos que usar más imágenes llevó a una mejor precisión. Sin embargo, todavía enfrentamos desafíos para identificar todos los signatarios de manera perfecta.
Conclusión
Los resultados del análisis de los conjuntos de datos DGS Corpus y Signing in the Wild indican que la superposición de signatarios Impacta significativamente en la efectividad de los sistemas de detección de lenguaje de señas. Para mejorar la precisión y asegurar la generalización, propusimos nuevos conjuntos de datos que eliminen esta superposición.
Avanzando, reducir la superposición de signatarios es esencial para establecer sistemas justos, responsables y transparentes para la detección de lenguaje de señas. Además, el método de agrupamiento ayudará a mejorar la gestión de datos de lenguaje de señas mientras que aborda preocupaciones de privacidad.
En general, al crear conjuntos de datos más confiables y evaluar el rendimiento de detección de lenguaje de señas sin superposición, podemos trabajar hacia mejores herramientas para la comunidad sorda y mejorar la accesibilidad en varios entornos, especialmente en la comunicación remota.
Título: On the Importance of Signer Overlap for Sign Language Detection
Resumen: Sign language detection, identifying if someone is signing or not, is becoming crucially important for its applications in remote conferencing software and for selecting useful sign data for training sign language recognition or translation tasks. We argue that the current benchmark data sets for sign language detection estimate overly positive results that do not generalize well due to signer overlap between train and test partitions. We quantify this with a detailed analysis of the effect of signer overlap on current sign detection benchmark data sets. Comparing accuracy with and without overlap on the DGS corpus and Signing in the Wild, we observed a relative decrease in accuracy of 4.17% and 6.27%, respectively. Furthermore, we propose new data set partitions that are free of overlap and allow for more realistic performance assessment. We hope this work will contribute to improving the accuracy and generalization of sign language detection systems.
Autores: Abhilash Pal, Stephan Huber, Cyrine Chaabani, Alessandro Manzotti, Oscar Koller
Última actualización: 2023-03-19 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2303.10782
Fuente PDF: https://arxiv.org/pdf/2303.10782
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.