YouTube-SL-25 : Faire avancer la recherche en langue des signes
Un gros jeu de données pour améliorer la technologie et la recherche sur la langue des signes.
― 6 min lire
Table des matières
Les langues des signes sont super importantes pour les communautés sourdes et malentendantes à travers le monde. Beaucoup de langues des signes, comme la Langue des signes américaine (ASL), sont bien connues, mais d'autres sont moins étudiées. Un gros défi pour améliorer la technologie pour ces langues, c'est de trouver suffisamment de données. YouTube-SL-25 est une nouvelle création qui aide à résoudre ce problème. Ce jeu de données comprend une énorme collection de Vidéos avec 25 langues des signes différentes. Les vidéos sont accompagnées de sous-titres correspondants, ce qui facilite le travail des chercheurs sur la traduction et d'autres tâches.
Qu'est-ce que YouTube-SL-25 ?
YouTube-SL-25 est une grande collection de vidéos de langue des signes provenant de YouTube. Le jeu de données contient plus de 3 200 heures de séquences présentant 25 langues des signes différentes. Ces vidéos sont assorties de sous-titres, ce qui signifie qu'il y a du texte qui correspond étroitement à ce qui est signé. Ce jeu de données est notable car il est beaucoup plus grand que les efforts précédents, fournissant une mine de données pour la recherche et le développement dans la technologie des langues des signes.
Pourquoi les données sont importantes ?
Dans n'importe quel domaine de l'intelligence artificielle, les données sont cruciales. Pour le traitement de la langue des signes, avoir beaucoup de données signifie que les chercheurs peuvent entraîner et tester leurs modèles plus efficacement. Plus de données aident à créer de meilleures machines capables de comprendre et de traduire les langues des signes. Les Jeux de données de langue des signes sont particulièrement rares, surtout pour les langues utilisées par des communautés plus petites. YouTube-SL-25 vise à combler cette lacune en fournissant une ressource riche.
Comment YouTube-SL-25 a-t-il été créé ?
Créer YouTube-SL-25 a impliqué un processus en deux étapes :
Trouver des vidéos : La première étape était de rassembler des vidéos. Les chercheurs ont utilisé des systèmes automatiques pour parcourir YouTube à la recherche de contenu lié aux langues des signes. Ils ont utilisé des tags mentionnant la langue des signes ou des langues des signes spécifiques pour identifier les vidéos potentielles.
Filtrer les vidéos : La deuxième étape était de s'assurer que les vidéos étaient de bonne qualité. Au lieu d'engager une grande équipe d'experts pour examiner chaque vidéo, les chercheurs ont utilisé un membre de l'équipe expérimenté pour évaluer rapidement les vidéos. Cette personne a consulté des vidéos de chaînes avec beaucoup de contenu, vérifiant si elles incluaient la langue des signes et si les sous-titres étaient précis.
La taille et la portée du jeu de données
YouTube-SL-25 est le plus grand jeu de données de son genre, avec plus de contenu que les jeux de données précédents comme YouTube-ASL et JWSign. Ce jeu de données comprend des vidéos issus de diverses langues des signes, ce qui signifie qu'il peut aider les chercheurs à travailler sur de nombreux types de langues des signes en même temps.
Les vidéos ne se limitent pas seulement aux langues populaires ; elles incluent aussi des langues des signes moins connues qui ont besoin de plus d'attention. Le jeu de données offre au moins 15 heures de contenu pour chacune des 25 langues des signes incluses, ce qui en fait une ressource précieuse.
Cas d'utilisation pour YouTube-SL-25
YouTube-SL-25 a plein d'applis potentielles :
Traduction : Les vidéos peuvent aider à améliorer les modèles qui traduisent les langues des signes en langues parlées et vice versa.
Alignement des sous-titres : Les chercheurs peuvent utiliser le jeu de données pour développer des systèmes qui améliorent la façon dont les sous-titres s'alignent avec le contenu signé.
Identification de la langue des signes : Le jeu de données permet aussi de rechercher comment identifier la langue des signes spécifique utilisée dans une vidéo.
Pré-entraînement des modèles : Avec autant de données disponibles, YouTube-SL-25 peut être utilisé pour entraîner des modèles d'apprentissage machine, les rendant meilleurs pour comprendre et utiliser les langues des signes.
Défis avec les données de langue des signes
Même si YouTube-SL-25 est un grand pas en avant, il y a encore des défis dans le travail avec les données de langue des signes :
Contrôle de qualité : Comme le jeu de données repose sur un processus de filtrage plus rapide, il pourrait y avoir quelques variations de qualité par rapport aux jeux de données sélectionnés par une équipe d'experts.
Représentation limitée : Bien que le jeu de données inclut beaucoup de langues des signes, certaines régions et langues sont encore sous-représentées, surtout celles des pays moins riches.
Diversité des données : Le jeu de données inclut une variété de signataires, mais les différences dans le style de signature et la maîtrise peuvent affecter l'entraînement des modèles.
Directions futures
Les créateurs de YouTube-SL-25 espèrent que ce jeu de données pourra stimuler plus de recherche et de développement dans la technologie des langues des signes. Ils encouragent les experts au sein des communautés de langue des signes à affiner davantage le jeu de données. Les travaux futurs pourraient impliquer d'améliorer la façon dont les vidéos sont filtrées et traitées, ainsi qu'augmenter la diversité du contenu disponible.
En plus, développer de meilleurs outils pour travailler avec les données de langue des signes est essentiel pour élargir l'impact du jeu de données. Cela peut impliquer de créer des méthodes pour gérer des scénarios plus complexes, comme des vidéos avec plusieurs signataires ou des styles de sous-titres variés.
Conclusion
YouTube-SL-25 représente un avancement significatif dans la recherche et la technologie des langues des signes. En fournissant une grande collection diversifiée de vidéos avec des sous-titres bien alignés, ça ouvre de nouvelles possibilités pour la traduction, l'identification et la compréhension des langues des signes. Le jeu de données vise à rendre la technologie plus inclusive pour les communautés sourdes et malentendantes dans le monde entier, en s'assurant que les avancées dans ce domaine puissent toucher plus de gens autour du globe.
À mesure que le domaine de la technologie des langues des signes continue de croître, des jeux de données comme YouTube-SL-25 joueront un rôle essentiel dans la façonner.
Titre: YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus
Résumé: Even for better-studied sign languages like American Sign Language (ASL), data is the bottleneck for machine learning research. The situation is worse yet for the many other sign languages used by Deaf/Hard of Hearing communities around the world. In this paper, we present YouTube-SL-25, a large-scale, open-domain multilingual corpus of sign language videos with seemingly well-aligned captions drawn from YouTube. With >3000 hours of videos across >25 sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest parallel sign language dataset to date, and c) the first or largest parallel dataset for many of its component languages. We provide baselines for sign-to-text tasks using a unified multilingual multitask model based on T5 and report scores on benchmarks across 4 sign languages. The results demonstrate that multilingual transfer benefits both higher- and lower-resource sign languages within YouTube-SL-25.
Auteurs: Garrett Tanzer, Biao Zhang
Dernière mise à jour: 2024-07-15 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.11144
Source PDF: https://arxiv.org/pdf/2407.11144
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/google-research/google-research/tree/master/youtube_sl_25
- https://www.un.org/en/observances/sign-languages-day
- https://commons.wikimedia.org/wiki/File:BlankMap-World-noborders.png
- https://www.nbcnews.com/news/world/fake-sign-language-interpreter-nelson-mandela-memorial-provokes-anger-flna2d11723934
- https://github.com/google-research/google-research/tree/master/youtube