Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Computación y lenguaje

Avanzando el Reconocimiento de Lengua de Señas con el Conjunto de Datos de Ciudadanos ASL

Un nuevo conjunto de datos mejora la tecnología para la comunicación en lengua de señas.

― 9 minilectura


Impulsando la tecnologíaImpulsando la tecnologíade lengua de señaslenguaje de señas.herramientas de reconocimiento deNuevo conjunto de datos transforma las
Tabla de contenidos

Las lenguas de señas son clave para que unos 70 millones de personas sordas se comuniquen en todo el mundo. A pesar de su importancia, la mayoría de las tecnologías y fuentes de información se enfocan en lenguas habladas y escritas. Esto puede crear problemas para quienes dependen de las lenguas de señas. Para abordar este tema, se ha desarrollado un conjunto de datos conocido como ASL Citizen. Este conjunto contiene videos con signos aislados del Lenguaje de Señas Americano (ASL). Su objetivo es mejorar la forma en que las personas pueden recuperar signos usando tecnología, facilitando que los usuarios encuentren significados sin necesidad de conocer tradiciones en inglés.

El conjunto de datos ASL Citizen incluye un total de 83,912 videos que muestran 2,731 signos diferentes. Estos signos fueron grabados por 52 firmantes en varios entornos, asegurando una representación diversa. El conjunto de datos brinda la oportunidad de crear mejores sistemas de diccionario de Lengua de señas que permiten a los usuarios mostrar signos a sus cámaras web y encontrar entradas correspondientes en un diccionario digital. El entrenamiento inicial de modelos de Aprendizaje automático usando este conjunto ha demostrado avances significativos en la precisión para tareas de recuperación de signos.

La Necesidad de Reconocimiento de Lengua de Señas

Las lenguas de señas son el medio principal de comunicación para muchas personas sordas. Estas lenguas no son solo formas básicas de comunicación; son sistemas complejos con su propia gramática y vocabulario. Sin embargo, la mayoría de las herramientas y plataformas existentes para la recuperación de información están diseñadas para lenguas habladas o escritas. Esto crea barreras para los usuarios sordos que pueden tener dificultades para acceder a información en lenguas no nativas, especialmente al depender de glosas escritas en inglés que pueden no representar con exactitud el significado de un signo.

Tradicionalmente, los diccionarios de ASL han dependido de traducciones al inglés para representar signos. Este método a menudo es insuficiente porque no siempre hay una relación directa entre un signo y su equivalente en inglés. Esto genera confusión y frustración para los usuarios que pueden no saber la palabra exacta en inglés que coincide con el signo que han visto. El conjunto de datos ASL Citizen busca superar este desafío permitiendo a los usuarios recuperar signos basándose en los videos que producen en lugar de traducciones escritas.

El Proceso de Creación del Conjunto de Datos

Para crear el conjunto de datos ASL Citizen, se utilizó un enfoque de crowdsourcing. Este método permitió la recopilación de una gran cantidad de videos con signos aislados de ASL, obtenidos de un grupo diverso de colaboradores. El objetivo era asegurar transparencia y consentimiento durante el proceso de recolección de datos mientras se captura la riqueza del uso cotidiano de la lengua de señas.

Se pidió a los participantes que grabaran videos desde sus propios entornos, lo que ayudó a garantizar que el conjunto de datos reflejara condiciones del mundo real. En lugar de configuraciones estándar de laboratorio, los firmantes grabaron sus videos en varios lugares, añadiendo un nivel de diversidad que a menudo falta en los Conjuntos de datos existentes. El proceso de recolección involucró mostrar a los participantes un video "semilla" de un signo realizado por un firmante experto. Luego, los participantes grabaron su propia versión del signo, asegurando que el conjunto de datos capture una amplia gama de estilos de firma.

Además, se informó a las personas que contribuyeron al conjunto de datos que sus videos ayudarían a crear un diccionario comunitario. Este enfoque fomentó la confianza y aumentó la participación, ya que los colaboradores entendieron el propósito de su involucramiento.

Características del Conjunto de Datos

El conjunto de datos ASL Citizen se destaca por su tamaño y diversidad. A diferencia de conjuntos de datos anteriores, que a menudo tienen limitaciones en términos de escala y representación, ASL Citizen incluye grabaciones de una amplia gama de edades, antecedentes y experiencias en la firma. Incluye videos de firmantes fluidos y de aquellos que han pasado años aprendiendo ASL. Los colaboradores variaron en edad de 20 a 72 años, y sus experiencias con ASL variaron ampliamente, asegurando que el conjunto de datos capture diferentes estilos y contextos de firma.

Este conjunto de datos está estructurado de manera que pueda soportar modelos de aprendizaje automático, que generalmente requieren grandes cantidades de datos de entrenamiento para ser efectivos. Los datos recopilados de los colaboradores fueron preetiquetados, agilizando el proceso de preparación del conjunto para su uso en el desarrollo de clasificadores de aprendizaje automático.

Impacto en la Tecnología de Reconocimiento de Lengua de Señas

Los avances en tecnología para el reconocimiento aislado de lengua de señas (ISLR) pueden llevar a mejoras significativas en herramientas de comunicación para la Comunidad Sorda. El conjunto de datos ASL Citizen permite la creación de sistemas de reconocimiento de lengua de señas más eficientes. Al enfocarse en la recuperación de diccionarios en lugar de en la firma continua, que puede ser más compleja, el conjunto de datos permite aplicaciones prácticas que pueden ayudar a los usuarios de ASL en situaciones cotidianas.

Las evaluaciones iniciales de modelos de aprendizaje automático entrenados con el conjunto de datos ASL Citizen han mostrado resultados prometedores. Por ejemplo, los modelos lograron una precisión de recuperación del 62%, lo que significa que recuperaron correctamente el signo deseado en la primera posición de sus resultados. Esta precisión es una mejora considerable en comparación con conjuntos de datos anteriores, que generalmente reportaban precisiones en el rango del 30%.

Comparación con Conjuntos de Datos Existentes

Antes del lanzamiento del conjunto de datos ASL Citizen, los conjuntos de datos con mejor desempeño para ASL tenían limitaciones en el tamaño del vocabulario y la calidad del video. Los conjuntos de datos anteriores, como WLASL y BOSTON-ASLLVD, tenían menos representaciones de signos y a menudo carecían de variación en los estilos de firma. El conjunto de datos ASL Citizen no solo incluye un vocabulario más grande, sino que también ofrece una mayor diversidad de contextos de video y personas que realizan los signos.

Comparar modelos entrenados con estos diferentes conjuntos de datos ha demostrado el impacto sustancial que ASL Citizen tiene en el rendimiento. Por ejemplo, los modelos entrenados con ASL Citizen lograron una precisión de recuperación del 62.10% en comparación con los valores más bajos reportados para modelos entrenados con conjuntos de datos anteriores. Esto indica que el conjunto de datos ASL Citizen mejora efectivamente la capacidad de los modelos para generalizar a través de una gama más amplia de estilos y contextos de firma.

Lengua de Señas y Contexto Cultural

Entender la lengua de señas va más allá de simplemente conocer los signos; implica entender el contexto cultural y la identidad de la comunidad sorda. Las lenguas de señas no son simplemente traducciones de lenguas habladas, sino que están profundamente ligadas a las experiencias culturales y sociales de las personas sordas. Los esfuerzos por desarrollar tecnología para el reconocimiento de lengua de señas deben ser conscientes de esta importancia cultural.

El proyecto ASL Citizen enfatiza la colaboración con investigadores sordos y miembros de la comunidad. Al involucrar a quienes son fluidos en ASL y forman parte de la comunidad sorda, el proyecto asegura que la tecnología desarrollada sea respetuosa y beneficiosa para la comunidad a la que sirve. Este enfoque culturalmente sensible fomenta la confianza y la cooperación, lo cual es vital para el éxito de tales iniciativas.

Direcciones Futuras

Aunque el conjunto de datos ASL Citizen ha logrado avances significativos en la mejora de las tecnologías de reconocimiento de lengua de señas, aún queda trabajo por hacer. La investigación futura podría enfocarse en expandir el conjunto de datos para incluir más signos, particularmente aquellos que emergen con el tiempo a medida que el lenguaje evoluciona. Además, se necesita una mayor exploración para asegurar que los modelos puedan manejar eficazmente las variaciones en la firma entre usuarios novatos en comparación con firmantes fluidos.

Otra área de interés es la necesidad de métricas más sofisticadas que se alineen mejor con las experiencias y preferencias de los usuarios. Si bien las métricas actuales brindan información valiosa, existe la oportunidad de desarrollar sistemas que puedan reflejar mejor lo que los usuarios consideran verdaderamente relevante en los diccionarios de lengua de señas.

Conclusión

El conjunto de datos ASL Citizen representa un avance significativo en el campo del reconocimiento de lengua de señas. Al proporcionar un conjunto de datos grande y diverso que captura signos aislados de ASL, permite el desarrollo de sistemas de aprendizaje automático que pueden mejorar enormemente la forma en que los usuarios recuperan y comprenden la lengua de señas.

El énfasis en la sensibilidad cultural y la participación comunitaria asegura que la tecnología desarrollada no solo sea efectiva, sino también respetuosa de los valores y necesidades de la comunidad sorda. A medida que la investigación en curso continúa construyendo sobre este trabajo fundamental, tiene el potencial de expandir el acceso a las lenguas de señas y derribar barreras para las personas sordas que buscan información y comunicación en un mundo predominantemente enfocado en el lenguaje hablado. El futuro de la tecnología de reconocimiento de lengua de señas se ve más brillante con la introducción del conjunto de datos ASL Citizen, abriendo puertas a aplicaciones prácticas que pueden mejorar la vida de millones.

Fuente original

Título: ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign Language Recognition

Resumen: Sign languages are used as a primary language by approximately 70 million D/deaf people world-wide. However, most communication technologies operate in spoken and written languages, creating inequities in access. To help tackle this problem, we release ASL Citizen, the first crowdsourced Isolated Sign Language Recognition (ISLR) dataset, collected with consent and containing 83,399 videos for 2,731 distinct signs filmed by 52 signers in a variety of environments. We propose that this dataset be used for sign language dictionary retrieval for American Sign Language (ASL), where a user demonstrates a sign to their webcam to retrieve matching signs from a dictionary. We show that training supervised machine learning classifiers with our dataset advances the state-of-the-art on metrics relevant for dictionary retrieval, achieving 63% accuracy and a recall-at-10 of 91%, evaluated entirely on videos of users who are not present in the training or validation sets. An accessible PDF of this article is available at the following link: https://aashakadesai.github.io/research/ASLCitizen_arxiv_updated.pdf

Autores: Aashaka Desai, Lauren Berger, Fyodor O. Minakov, Vanessa Milan, Chinmay Singh, Kriston Pumphrey, Richard E. Ladner, Hal Daumé, Alex X. Lu, Naomi Caselli, Danielle Bragg

Última actualización: 2023-06-19 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2304.05934

Fuente PDF: https://arxiv.org/pdf/2304.05934

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares