Nouveau jeu de données pour la reconnaissance de la démarche : DIOR
DIOR propose une nouvelle façon de reconnaître les gens selon leur façon de marcher.
― 6 min lire
Table des matières
Ces dernières années, il y a eu un intérêt croissant pour la reconnaissance des gens de loin. C'est super important pour la sécurité, surtout quand on utilise des caméras sur les toits ou des drones. Les méthodes traditionnelles se concentrent souvent sur les visages, mais un domaine excitant émerge : utiliser les mouvements du corps entier, appelés la démarche, pour la reconnaissance. Cependant, il n'y a pas beaucoup de datasets disponibles pour tester ces méthodes, surtout avec des données étiquetées. Cet article parle d'un nouveau dataset appelé DIOR, créé pour aider à reconnaître les mouvements des gens dans des environnements intérieurs et extérieurs.
Qu'est-ce que DIOR ?
DIOR signifie Dataset pour la Réidentification Indoor-Outdoor. Ça offre un cadre pour collecter des données sur la façon dont les gens marchent, en utilisant des modèles de squelettes 3D et 2D. Ce dataset comprend un nombre énorme d'images, avec plus de 1,6 million de frames, mettant en scène 14 personnes et leurs styles de marche. Il se démarque car il inclut des images prises de loin, où les sujets apparaissent très petits, moins de 25 pixels de haut dans les images.
Pourquoi c'est important ?
Reconnaître les gens de loin grâce à leur style de marche crée plein de possibilités pour différents domaines, comme la sécurité et la surveillance. Par exemple, si une caméra peut identifier quelqu'un en se basant sur sa démarche plutôt que sur son visage, ça pourrait améliorer la sécurité dans des endroits bondés ou en extérieur. Ce dataset répond aux défis associés aux environnements variés, comme les différences d'éclairage et d'angles entre l'intérieur et l'extérieur.
Caractéristiques uniques de DIOR
DIOR introduit deux fonctionnalités importantes qui le distinguent des autres datasets.
Données basse résolution : Il comprend des images de personnes prises de loin où les individus mesurent juste 20-25 pixels de hauteur. Ce type de données est relativement rare dans les datasets existants.
Technologie de capture de mouvement : Le dataset utilise la technologie de capture de mouvement pour les environnements intérieurs afin d'assurer un Étiquetage Précis des mouvements. Une grande partie des données a été collectée avec l'aide de systèmes de capture de mouvement, tandis que d'autres images en extérieur ont été prises avec des caméras standard.
Comment les données ont été collectées ?
Pour construire ce dataset, un processus semi-automatisé a été utilisé pour étiqueter les données efficacement. Le travail peut être divisé en deux configurations principales : intérieure et extérieure.
Configuration intérieure
Dans l'environnement intérieur, plusieurs caméras high-tech ont été utilisées avec un système de capture de mouvement. Les sujets portaient des marqueurs que le système a suivi pour capturer leurs mouvements avec précision. Les caméras ont enregistré des images des sujets, et les chercheurs ont utilisé ces images pour étiqueter les mouvements en temps réel et à grande vitesse.
Le processus consiste à estimer où les caméras sont positionnées, puis à projeter les mouvements 3D sur les images 2D capturées par les caméras RGB. Cela nécessitait une calibration soignée et un suivi pour s'assurer que tout s'alignait correctement.
Configuration extérieure
Pour la collecte de données en extérieur, la procédure était légèrement différente en raison de l'absence d'un système de capture de mouvement. À la place, des caméras à courte portée ont été utilisées pour capturer des images. Les chercheurs ont ensuite appliqué une méthode pour trianguler les positions des personnes en mouvement et projeter ces mouvements sur une vue de caméra à longue portée.
Les conditions extérieures présentent leurs propres défis, comme les variations d'éclairage et les obstacles qui pourraient obstruer la vue. Cependant, les chercheurs ont développé une méthode pour faire face à ces problèmes, permettant un étiquetage efficace des mouvements même dans des conditions moins idéales.
Importance de l'étiquetage précis
Un étiquetage précis des mouvements est crucial pour former des systèmes de reconnaissance. Les chercheurs ont créé un pipeline d'annotation semi-automatisé, ce qui accélère le processus d'étiquetage tout en maintenant l'exactitude. C'est particulièrement important pour l'utilisation future du dataset dans des algorithmes d'apprentissage machine, où des données précises sont essentielles pour former des modèles efficaces.
Applications de DIOR
Le dataset DIOR a plusieurs applications potentielles.
Sécurité et surveillance : Dans des environnements comme les aéroports ou les rues de la ville, reconnaître des individus sur la base de leurs motifs de marche pourrait aider à identifier des comportements suspects ou des personnes disparues.
Systèmes autonomes : Les voitures autonomes pourraient utiliser la Reconnaissance de la démarche pour identifier des personnes traversant la rue ou s'approchant du véhicule.
Santé : Analyser la démarche peut aider à surveiller des conditions de santé, permettant une détection précoce des problèmes de mobilité chez les personnes âgées.
Comparaison avec les datasets existants
De nombreux datasets existants se concentrent soit sur des images à courte portée, soit manquent de données étiquetées suffisantes. DIOR combine les forces des données à longue portée et des mouvements bien étiquetés, ce qui en fait une ressource précieuse pour les chercheurs et les développeurs. Les propriétés uniques du dataset, comme les données basse résolution et l'intégration de la capture de mouvement, présentent des opportunités pour faire avancer la recherche sur la reconnaissance de la démarche.
Directions futures
La sortie du dataset DIOR ouvre la voie à des recherches futures et des avancées dans la technologie de reconnaissance de la démarche. Les chercheurs sont encouragés à utiliser cette ressource pour développer de meilleurs algorithmes et améliorer l’exactitude de la reconnaissance des mouvements. En rendant le dataset public, les créateurs espèrent favoriser la collaboration et l'innovation dans le domaine.
Conclusion
Le dataset DIOR représente un pas en avant significatif dans le domaine de la reconnaissance de la démarche, offrant des données riches provenant d'environnements intérieurs et extérieurs. Avec son accent sur un étiquetage précis et l'inclusion de données basse résolution, il est prêt à améliorer le développement de nouveaux algorithmes et applications dans divers domaines. Alors que les chercheurs continuent de repousser les limites de ce qui est possible, DIOR servira sans aucun doute de fondation pivotale pour les futures découvertes dans la reconnaissance des mouvements humains.
Titre: DIOR: Dataset for Indoor-Outdoor Reidentification -- Long Range 3D/2D Skeleton Gait Collection Pipeline, Semi-Automated Gait Keypoint Labeling and Baseline Evaluation Methods
Résumé: In recent times, there is an increased interest in the identification and re-identification of people at long distances, such as from rooftop cameras, UAV cameras, street cams, and others. Such recognition needs to go beyond face and use whole-body markers such as gait. However, datasets to train and test such recognition algorithms are not widely prevalent, and fewer are labeled. This paper introduces DIOR -- a framework for data collection, semi-automated annotation, and also provides a dataset with 14 subjects and 1.649 million RGB frames with 3D/2D skeleton gait labels, including 200 thousands frames from a long range camera. Our approach leverages advanced 3D computer vision techniques to attain pixel-level accuracy in indoor settings with motion capture systems. Additionally, for outdoor long-range settings, we remove the dependency on motion capture systems and adopt a low-cost, hybrid 3D computer vision and learning pipeline with only 4 low-cost RGB cameras, successfully achieving precise skeleton labeling on far-away subjects, even when their height is limited to a mere 20-25 pixels within an RGB frame. On publication, we will make our pipeline open for others to use.
Auteurs: Yuyang Chen, Praveen Raj Masilamani, Bhavin Jawade, Srirangaraj Setlur, Karthik Dantu
Dernière mise à jour: 2023-09-21 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.12429
Source PDF: https://arxiv.org/pdf/2309.12429
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.