Nouveau dataset améliore la reconnaissance de l'alphabet des signes ASL
Un gros ensemble de données améliore la communication pour les utilisateurs sourds avec des smartphones.
― 6 min lire
Table des matières
- Qu'est-ce que l'alphabet signe ?
- Le Dataset
- But du Dataset
- Comment les Données Ont Été Collectées
- Qualité des Données
- Importance des Données
- Défis avec les Systèmes de Reconnaissance
- Contexte et Cas d'Utilisation
- Travaux antérieurs
- Participants
- Structure du Dataset
- Équité Démographique
- Améliorations Futures
- Performance du Modèle de Reconnaissance
- Conclusion
- Considérations Éthiques
- Impact sur la Communauté
- Dernières Pensées
- Source originale
- Liens de référence
La compréhension des langues des signes a été lente à cause d'un manque de données. Un nouveau dataset axé sur l'alphabet en langue des signes américaine (ASL) a été créé, utilisant des vidéos enregistrées sur des smartphones. Ce dataset est conçu pour améliorer les méthodes de Communication pour les personnes sourdes et malentendantes.
Qu'est-ce que l'alphabet signe ?
L'alphabet signe, c'est le fait d'épeler des mots avec des mouvements de main. Cette technique est souvent utilisée pour les noms propres ou des concepts nouveaux dans les langues des signes. Bien que ce ne soit qu'une partie de la langue des signes, ça peut améliorer la communication quand on développe des technologies plus avancées.
Le Dataset
Le nouveau dataset sur l'alphabet signe ASL est le plus grand de son genre et se compose de vidéos enregistrées par 147 signants Sourds utilisant des caméras selfie Pixel 4A. Les enregistrements ont été faits dans divers endroits pour capturer une large gamme d'environnements. Le dataset contient environ 3,2 millions de caractères et 266 heures de vidéo, ce qui le rend dix fois plus grand que le précédent plus grand dataset.
But du Dataset
L'objectif principal de ce dataset est de fournir une façon pour les utilisateurs sourds de communiquer plus efficacement avec leurs smartphones. L'alphabet signe peut être plus rapide et plus pratique que les méthodes de saisie traditionnelles. Ce dataset pourrait mener à de meilleures méthodes de saisie de texte pour les utilisateurs sourds, rendant leur expérience avec la technologie plus équitable.
Comment les Données Ont Été Collectées
Pour collecter les données, des signants sourds ont été recrutés via un réseau axé sur la communauté sourde. Les participants ont reçu des smartphones avec une application personnalisée pour s'enregistrer en train d'épeler des phrases. L'application leur a permis de commencer et d'arrêter facilement les enregistrements.
Qualité des Données
La qualité des enregistrements vidéo variait à cause de différents facteurs. Certains participants portaient des masques, tandis que d'autres changeaient accidentellement les paramètres de la caméra. Ces variations posent des défis, mais elles fournissent une riche source d'informations pour développer des systèmes de Reconnaissance.
Importance des Données
L'alphabet signe joue un rôle significatif dans l'ASL, représentant environ 12 % à 35 % de la langue des signes. Le nouveau dataset peut aider à améliorer notre capacité à reconnaître l'alphabet signe rapidement et avec précision, aidant ainsi à de meilleures méthodes de communication pour les personnes sourdes.
Défis avec les Systèmes de Reconnaissance
Les précédents systèmes de langue des signes ont tenté de reconnaître des images isolées de l'alphabet signe. Cependant, ces systèmes n'ont souvent pas réussi à prendre en compte la vitesse de l'alphabet signe et les complexités pour comprendre où un mot épelé se termine et un autre commence.
Contexte et Cas d'Utilisation
La saisie de texte sur les smartphones est souvent le premier réflexe quand on pense aux méthodes de communication. Les membres de la communauté sourde ont souligné que l'alphabet signe pourrait être particulièrement utile pour entrer des noms ou des adresses dans des applications. Ce dataset vise à soutenir de tels cas d'utilisation spécifiques.
Travaux antérieurs
Des datasets précédents comme PopSign et ASL Citizen se sont concentrés sur des tâches de reconnaissance de signes isolés. Cependant, ces datasets servent des objectifs différents et ne fournissent pas le même niveau de données pour l'alphabet signe.
Participants
Les signants qui ont contribué au dataset ont été payés pour leur participation. Il était crucial de s'assurer que des individus sourds soient impliqués dans le processus de collecte de données. Leurs perspectives ont aidé à façonner le dataset pour répondre à de réels besoins.
Structure du Dataset
Le dataset est divisé en échantillons de formation, de validation et de test, avec des signants uniques dans chaque groupe. Cette approche garantit qu'il n'y ait pas de chevauchement, rendant l'évaluation des modèles de reconnaissance plus précise.
Équité Démographique
Des efforts ont été faits pour s'assurer que le dataset reflète une diversité de parcours. Cela inclut la couleur de peau et la présentation de genre. Le dataset montre une bonne variation en termes de couleur de peau mais est moins représentatif à deux extrêmes du spectre.
Améliorations Futures
Bien que le dataset actuel soit un pas en avant, il y a encore des domaines à améliorer. Cela inclut une meilleure représentation des symboles et des formats plus diversifiés dans chaque catégorie. Il est également nécessaire d'améliorer les instructions sur la façon de représenter les espaces et la capitalisation dans l'alphabet signe.
Performance du Modèle de Reconnaissance
Le modèle de reconnaissance utilisé avec ce dataset devrait établir un nouveau standard dans la reconnaissance de l'alphabet signe. La performance de base atteinte est significativement meilleure que les efforts précédents. Le modèle montre des promesses de pouvoir reconnaître l'alphabet signe en temps réel sur smartphone.
Conclusion
Ce nouveau dataset sur l'alphabet signe ASL vise à améliorer la communication des personnes sourdes utilisant des smartphones. Le dataset montre déjà un potentiel pour influencer la conception des méthodes de saisie de texte. Les travaux futurs pourraient mener à des technologies encore plus efficaces capables de soutenir une compréhension complète de l'ASL.
Considérations Éthiques
Il est important de respecter la vie privée des contributeurs. Tous les participants ont donné leur consentement pour que leurs vidéos soient utilisées publiquement. Des précautions spéciales ont été prises pour protéger leur identité tout en veillant à ce que le dataset serve son objectif.
Impact sur la Communauté
En se concentrant sur les besoins de la communauté sourde, ce dataset est un pas significatif vers un accès plus équitable à la technologie. L'implication des signants sourds dans le processus de création aide à garantir que les résultats sont significatifs pour ceux qui les utiliseront.
Dernières Pensées
À mesure que la technologie avance, le besoin de méthodes de communication efficaces va grandir. Des datasets comme celui-ci sont cruciaux pour fournir les données nécessaires au développement de meilleurs systèmes de reconnaissance de la langue des signes. On espère que ce travail mène à des outils plus inclusifs et efficaces pour les personnes sourdes et malentendantes.
Titre: FSboard: Over 3 million characters of ASL fingerspelling collected via smartphones
Résumé: Progress in machine understanding of sign languages has been slow and hampered by limited data. In this paper, we present FSboard, an American Sign Language fingerspelling dataset situated in a mobile text entry use case, collected from 147 paid and consenting Deaf signers using Pixel 4A selfie cameras in a variety of environments. Fingerspelling recognition is an incomplete solution that is only one small part of sign language translation, but it could provide some immediate benefit to Deaf/Hard of Hearing signers as more broadly capable technology develops. At >3 million characters in length and >250 hours in duration, FSboard is the largest fingerspelling recognition dataset to date by a factor of >10x. As a simple baseline, we finetune 30 Hz MediaPipe Holistic landmark inputs into ByT5-Small and achieve 11.1% Character Error Rate (CER) on a test set with unique phrases and signers. This quality degrades gracefully when decreasing frame rate and excluding face/body landmarks: plausible optimizations to help models run on device in real time.
Auteurs: Manfred Georg, Garrett Tanzer, Saad Hassan, Maximus Shengelia, Esha Uboweja, Sam Sepah, Sean Forbes, Thad Starner
Dernière mise à jour: 2024-07-22 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.15806
Source PDF: https://arxiv.org/pdf/2407.15806
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.kaggle.com/datasets/garretttanzer/fsboard
- https://www.kaggle.com/datasets/googleai/fsboard
- https://kaggle.com/datasets/garretttanzer/fsboard
- https://datastudio.google.com
- https://www.tensorflow.org/api_docs/python/tf/edit_distance
- https://www.kaggle.com/competitions/asl-fingerspelling/leaderboard
- https://www.rauschenbach.de