Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Computación y lenguaje

Nuevo conjunto de datos mejora el reconocimiento de la deletreo con dedos en ASL

Un gran conjunto de datos mejora la comunicación para usuarios sordos con smartphones.

― 6 minilectura


El conjunto de datos ASLEl conjunto de datos ASLmejora la comunicación.smartphones para personas Sordas.Este conjunto de datos mejora el uso de
Tabla de contenidos

La comprensión de los lenguajes de señas ha sido lenta debido a la falta de datos. Se ha creado un nuevo conjunto de datos centrado en la deletreo en Lengua de Señas Americana (ASL), que utiliza videos grabados en smartphones. Este conjunto de datos está diseñado para mejorar los métodos de Comunicación para personas Sordas y con Dificultades Auditivas.

¿Qué es el Deletreo?

El deletreo es la práctica de escribir palabras usando movimientos de las manos. Esta técnica se usa a menudo para nombres propios o conceptos nuevos en los lenguajes de señas. Aunque es solo una parte del lenguaje de señas, puede mejorar la comunicación cuando se desarrolla tecnología más avanzada.

El Conjunto de Datos

El nuevo conjunto de datos de deletreo en ASL es el más grande de su tipo y consiste en videos grabados por 147 signatarios Sordos usando cámaras frontales del Pixel 4A. Las grabaciones se hicieron en varios entornos para capturar una amplia variedad de situaciones. El conjunto de datos contiene aproximadamente 3.2 millones de caracteres y 266 horas de video, lo que lo hace diez veces más grande que el anterior conjunto de datos más grande.

Propósito del Conjunto de Datos

El objetivo principal de este conjunto de datos es proporcionar una manera para que los usuarios sordos se comuniquen de forma más efectiva con smartphones. El deletreo puede ser más rápido y conveniente que los métodos de escritura tradicionales. Este conjunto de datos podría llevar a mejores métodos de entrada de texto para usuarios sordos, haciendo su experiencia con la tecnología más equitativa.

Cómo se Recopiló el Datos

Para recopilar los datos, se reclutaron signatarios sordos a través de una red centrada en la comunidad sorda. A los participantes se les dieron smartphones con una app personalizada para grabarse a sí mismos deletreando frases. La app les permitió iniciar y detener las grabaciones fácilmente.

Calidad de los Datos

La calidad de las grabaciones de video varió debido a diferentes factores. Algunos participantes llevaban mascarillas, mientras que otros cambiaron accidentalmente la configuración de la cámara. Estas variaciones llevaron a desafíos, pero proporcionan una rica fuente de información para desarrollar sistemas de Reconocimiento.

Importancia de los Datos

El deletreo juega un papel significativo en ASL, representando alrededor del 12% al 35% de la firma. El nuevo conjunto de datos puede ayudar a mejorar nuestra capacidad para reconocer el deletreo de forma rápida y precisa, facilitando mejores métodos de comunicación para personas sordas.

Desafíos con los Sistemas de Reconocimiento

Los sistemas anteriores de lenguaje de señas intentaron reconocer imágenes individuales de deletreo. Sin embargo, estos sistemas a menudo no lograban abordar la velocidad del deletreo y las complejidades involucradas en entender dónde termina una palabra deletreada y comienza otra.

Contexto y Casos de Uso

La entrada de texto en smartphones es a menudo lo primero que se piensa al considerar métodos de comunicación. Los miembros de la comunidad sorda han destacado que el deletreo puede ser particularmente útil para ingresar nombres o direcciones en aplicaciones de smartphones. Este conjunto de datos pretende apoyar casos de uso específicos como esos.

Trabajo Anterior

Conjuntos de datos anteriores como PopSign y ASL Citizen se han enfocado en tareas de reconocimiento de signos aislados. Sin embargo, estos conjuntos de datos cumplen diferentes propósitos y no proporcionan el mismo nivel de datos para el deletreo.

Participantes

Los signatarios que contribuyeron al conjunto de datos recibieron pago por su participación. Asegurar que personas sordas estuvieran involucradas en el proceso de recopilación de datos era crucial. Sus aportaciones ayudaron a dar forma al conjunto de datos para satisfacer necesidades reales.

Estructura del Conjunto de Datos

El conjunto de datos se divide en muestras de entrenamiento, validación y prueba, con signatarios únicos en cada grupo. Este enfoque asegura que no hay superposición, haciendo la evaluación de los modelos de reconocimiento más precisa.

Equidad Demográfica

Se hicieron esfuerzos para asegurar que el conjunto de datos refleje una variedad de antecedentes. Esto incluye tanto el tono de piel como la presentación de género. El conjunto de datos muestra una buena variación en el tono de piel, pero se queda corto en ambos extremos del espectro.

Mejoras Futuras

Aunque el conjunto de datos actual es un paso adelante, aún hay áreas para mejorar. Esto incluye una mejor representación de símbolos y formatos más diversos dentro de cada categoría. También se necesita mejorar las instrucciones sobre cómo representar espacios y mayúsculas en el deletreo.

Rendimiento del Modelo de Reconocimiento

Se espera que el modelo de reconocimiento utilizado con este conjunto de datos establezca un nuevo estándar en el reconocimiento del deletreo. El rendimiento base alcanzado es significativamente mejor que los esfuerzos anteriores. El modelo muestra promesas para poder reconocer el deletreo en tiempo real usando smartphones.

Conclusión

Este nuevo conjunto de datos de deletreo en ASL tiene como objetivo mejorar la comunicación para personas sordas usando smartphones. El conjunto de datos ya está mostrando potencial para influir en el diseño de métodos de entrada de texto. Trabajos futuros pueden llevar a tecnologías aún más efectivas que puedan apoyar una comprensión completa de ASL.

Consideraciones Éticas

Es importante respetar la privacidad de los contribuyentes. Todos los participantes dieron su consentimiento para que sus videos se usaran públicamente. Se tomó especial cuidado para proteger sus identidades mientras se aseguraba que el conjunto de datos cumpla su propósito.

Impacto en la Comunidad

Al centrarse en las necesidades de la comunidad sorda, este conjunto de datos es un paso significativo para hacer la tecnología más accesible. La inclusión de signatarios sordos en el proceso de creación ayuda a asegurar que los resultados sean significativos para quienes los usarán.

Pensamientos Finales

A medida que la tecnología avanza, la necesidad de métodos de comunicación efectivos crecerá. Conjuntos de datos como este son cruciales para proporcionar la información necesaria para desarrollar mejores sistemas de reconocimiento del lenguaje de señas. Esperamos que este trabajo conduzca a herramientas más inclusivas y efectivas para personas sordas y con dificultades auditivas.

Fuente original

Título: FSboard: Over 3 million characters of ASL fingerspelling collected via smartphones

Resumen: Progress in machine understanding of sign languages has been slow and hampered by limited data. In this paper, we present FSboard, an American Sign Language fingerspelling dataset situated in a mobile text entry use case, collected from 147 paid and consenting Deaf signers using Pixel 4A selfie cameras in a variety of environments. Fingerspelling recognition is an incomplete solution that is only one small part of sign language translation, but it could provide some immediate benefit to Deaf/Hard of Hearing signers as more broadly capable technology develops. At >3 million characters in length and >250 hours in duration, FSboard is the largest fingerspelling recognition dataset to date by a factor of >10x. As a simple baseline, we finetune 30 Hz MediaPipe Holistic landmark inputs into ByT5-Small and achieve 11.1% Character Error Rate (CER) on a test set with unique phrases and signers. This quality degrades gracefully when decreasing frame rate and excluding face/body landmarks: plausible optimizations to help models run on device in real time.

Autores: Manfred Georg, Garrett Tanzer, Saad Hassan, Maximus Shengelia, Esha Uboweja, Sam Sepah, Sean Forbes, Thad Starner

Última actualización: 2024-07-22 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.15806

Fuente PDF: https://arxiv.org/pdf/2407.15806

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares