Améliorer la détection de la langue des signes grâce à de meilleurs ensembles de données
Aborder le chevauchement des signataires pour améliorer la précision de la détection de la langue des signes.
― 7 min lire
Table des matières
La détection de la langue des signes, c'est essayer de savoir si quelqu'un utilise la langue des signes. C'est de plus en plus important, surtout pour les appels vidéo et pour rassembler des données pour entraîner des systèmes qui reconnaissent ou traduisent la langue des signes. Cependant, on pense que les jeux de données actuels utilisés pour tester la détection de la langue des signes pourraient ne pas donner des résultats fiables car ils mélangent souvent les utilisateurs de langue des signes dans les phases d'entraînement et de test.
Qu'est-ce que la Détection de la Langue des Signes ?
La langue des signes est une langue naturelle utilisée par la communauté sourde. Elle implique divers mouvements du corps pour transmettre des messages, y compris des formes de main, des expressions faciales et une posture corporelle. Les systèmes informatiques traditionnels se concentrent surtout sur les langues parlées, rendant la langue des signes moins visible sur de nombreuses plateformes.
Avec de plus en plus de gens qui travaillent à distance, les logiciels permettant la visioconférence sont devenus courants. Ces programmes mettent souvent en avant le locuteur actif pour que le public puisse se concentrer sur lui. Malheureusement, quand un utilisateur de langue des signes commence à signer, il peut se retrouver caché, rendant la communication difficile. Pour combler cette lacune, les outils de détection de la langue des signes doivent être améliorés pour pouvoir identifier quand quelqu'un signe et quand il ne signe pas.
État Actuel de la Détection de la Langue des Signes
Il y a de plus en plus de recherches sur la détection de la langue des signes, mais c'est encore un domaine difficile. La plupart des systèmes conçus pour détecter la langue des signes suivent un processus en deux étapes : d'abord, ils extraient des caractéristiques importantes de la vidéo, puis ils classifient la vidéo comme contenant un utilisateur de langue des signes ou non.
Par exemple, certaines études utilisent des modèles qui prennent des images vidéo et extraient des caractéristiques pour déterminer si une personne signe. Ils ont atteint des taux de précision assez élevés, mais en y regardant de plus près, on réalise que ces résultats peuvent ne pas être fiables. C'est surtout parce que les mêmes signataires apparaissent souvent dans les phases d'entraînement et de test, créant un chevauchement.
Le Problème du Chevauchement des Signataires
Quand on parle de "chevauchement des signataires", on veut dire que la même personne pourrait être présente à la fois dans les jeux de données d'entraînement et de test. Cela peut donner l'impression que le système fonctionne mieux qu'il ne l'est réellement. Si un modèle a vu un signataire particulier lors de l'entraînement, il est probable qu'il fasse bien quand il rencontre à nouveau le même signataire lors du test. C'est un problème car ça ne montre pas à quel point le système peut bien fonctionner sur de nouveaux signataires.
Pour illustrer ce problème, on a analysé deux grands jeux de données utilisés pour la détection de la langue des signes : le Corpus DGS et Signing in the Wild. Ces deux jeux de données ont montré un chevauchement significatif entre les signataires dans les groupes d'entraînement et de test. On a mesuré l'impact de ce chevauchement et on a constaté des baisses notables de précision en comparant les résultats des jeux de données avec et sans signataires qui se chevauchent.
Solutions Proposées
Pour améliorer la façon dont on évalue les systèmes de détection de la langue des signes, on propose de créer de nouveaux jeux de données sans chevauchement des signataires. En s'assurant qu'un signataire n'apparaisse que dans un seul jeu de données (en entraînement, développement ou test), on peut obtenir une évaluation plus réaliste de la performance de ces systèmes.
Pour le Corpus DGS, on a développé une nouvelle méthode pour diviser les données, en s'assurant qu'il n'y avait pas de signataires dans les ensembles d'entraînement et de test. Cet arrangement va aider à donner une image plus claire des capacités du système. De même, on a fait la même chose pour le jeu de données Signing in the Wild.
Examen des Jeux de Données : Corpus DGS
Le Corpus DGS est une collection de vidéos de langue des signes allemande, avec plus de 1150 heures de matériel enregistré. Seule une partie de ces données est annotée pour montrer quand la signature se produit. Les divisions existantes du Corpus DGS suggéraient un mélange de signataires, que l'on a identifié et quantifié.
En analysant les divisions originales suggérées par les recherches précédentes, on a trouvé que les mêmes signataires apparaissaient dans les ensembles d'entraînement et de test. On a décomposé le jeu de données original pour montrer combien de signataires se chevauchaient entre ces phases. Constater que 88 signataires étaient communs aux ensembles d'entraînement et de développement était inquiétant. Pour démontrer l'effet de ce chevauchement, on a divisé l'ensemble de test original en parties avec et sans chevauchement.
Analyse du Jeu de Données Signing in the Wild
Le jeu de données Signing in the Wild se compose de vidéos collectées sur YouTube, dans le but d'inclure un éventail diversifié de langues des signes et de contextes. Ce jeu de données intègre aussi bien des exemples de signature que non-signature, comme parler et d'autres activités.
Tout comme pour le Corpus DGS, le jeu de données Signing in the Wild a montré que des vidéos du même signataire pouvaient apparaître dans plusieurs divisions, ce qui fausse les résultats de précision. Les premières expériences utilisant les divisions originales ont montré de meilleures performances à cause du chevauchement. Cependant, en créant une nouvelle division sans chevauchement, on s'attendait à voir une baisse de précision, reflétant une évaluation de performance plus honnête.
Regroupement des Signataires pour une Meilleure Gestion des Données
L'un des défis avec le Corpus DGS, c'est qu'il n'y a pas de labels pour les signataires dans les vidéos. Pour y remédier, on a utilisé une méthode appelée regroupement de visages, qui regroupe des visages similaires en fonction des caractéristiques extraites. En utilisant un algorithme de regroupement, on a identifié et regroupé les signataires en fonction des vidéos où ils apparaissaient.
Les résultats ont montré une précision variable selon le nombre d'images utilisées pour le regroupement. On a constaté que l'utilisation de plus d'images menait à une meilleure précision. Cependant, on a encore rencontré des défis pour identifier tous les signataires parfaitement.
Conclusion
Les résultats de l'analyse des jeux de données Corpus DGS et Signing in the Wild indiquent que le chevauchement des signataires impacte significativement l'efficacité des systèmes de détection de la langue des signes. Pour améliorer la précision et assurer la généralisation, on propose de nouveaux jeux de données qui éliminent ce chevauchement.
À l'avenir, réduire le chevauchement des signataires est essentiel pour établir des systèmes justes, responsables et transparents pour la détection de la langue des signes. De plus, la méthode de regroupement aidera à améliorer la gestion des données de langue des signes tout en abordant les préoccupations de confidentialité.
En gros, en créant des jeux de données plus fiables et en évaluant la performance de détection de la langue des signes sans chevauchement, on peut travailler vers de meilleurs outils pour la communauté sourde et améliorer l'accessibilité dans divers contextes, surtout dans la communication à distance.
Titre: On the Importance of Signer Overlap for Sign Language Detection
Résumé: Sign language detection, identifying if someone is signing or not, is becoming crucially important for its applications in remote conferencing software and for selecting useful sign data for training sign language recognition or translation tasks. We argue that the current benchmark data sets for sign language detection estimate overly positive results that do not generalize well due to signer overlap between train and test partitions. We quantify this with a detailed analysis of the effect of signer overlap on current sign detection benchmark data sets. Comparing accuracy with and without overlap on the DGS corpus and Signing in the Wild, we observed a relative decrease in accuracy of 4.17% and 6.27%, respectively. Furthermore, we propose new data set partitions that are free of overlap and allow for more realistic performance assessment. We hope this work will contribute to improving the accuracy and generalization of sign language detection systems.
Auteurs: Abhilash Pal, Stephan Huber, Cyrine Chaabani, Alessandro Manzotti, Oscar Koller
Dernière mise à jour: 2023-03-19 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.10782
Source PDF: https://arxiv.org/pdf/2303.10782
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.