Comprendre le mouvement humain grâce au dataset Nymeria
Un aperçu détaillé d'un ensemble de données capturant les activités humaines quotidiennes.
― 5 min lire
Table des matières
Le dataset Nymeria est une grosse collection d'activités humaines quotidiennes capturées dans différents environnements. Il inclut des enregistrements de personnes portant des lunettes spéciales et des bracelets qui récoltent différents types de données pendant qu'elles vaquent à leurs occupations. L'objectif de ce dataset est d'aider les chercheurs à comprendre comment les gens bougent et interagissent dans des situations réelles.
C'est quoi le dataset Nymeria ?
Le dataset Nymeria capture le mouvement du corps entier sous différents angles et perspectives. Pour ça, il utilise des dispositifs qui suivent les mouvements, y compris des lunettes intelligentes et des bracelets qui enregistrent des vidéos et d'autres infos sensorielles. Le dataset fournit plein d'infos, y compris des descriptions détaillées des mouvements en langage naturel. Ça peut être utile pour étudier le comportement humain et développer de nouvelles technologies.
Comment les données sont collectées
Le processus de collecte des données implique plusieurs étapes. Les participants portent une combinaison spéciale, des lunettes et des bracelets pour capturer leurs mouvements. L'enregistrement se fait dans différents cadres, comme des maisons, des bureaux et des espaces extérieurs, pour montrer une variété d'activités. Des observateurs formés suivent aussi les participants pour donner du contexte et aider à capturer les événements avec précision.
Les différents types de données
Le dataset inclut plusieurs types de données :
Enregistrements vidéo : Ça inclut des vidéos de caméras RGB et de caméras en niveaux de gris. Les vidéos montrent comment les participants interagissent avec leur environnement.
Données de mouvement : Cela provient de capteurs qui suivent les mouvements du corps, y compris la position et l'orientation des membres des participants.
Enregistrements audio : La parole des participants et les sons de l'environnement sont enregistrés pour ajouter plus de contexte aux activités.
Suivi oculaire : Des infos sur où les participants regardent sont collectées pour mieux comprendre leur attention pendant les activités.
Nuages de points 3D : Ceux-ci sont créés pour représenter l'environnement autour des participants, offrant une vue tridimensionnelle des espaces où les activités se déroulent.
Importance du contexte
Collecter des données dans des situations réelles donne aux chercheurs une compréhension plus riche du comportement humain. Ça montre comment les gens bougent et interagissent avec les autres et leur environnement, sans les contraintes artificielles d'un cadre de labo. Ça aide à créer des systèmes qui peuvent réagir aux actions humaines de manière plus naturelle.
Processus d'annotation
Les données enregistrées ne sont pas laissées brutes. Elles sont soigneusement annotées pour ajouter du sens aux mouvements capturés. Des annotateurs humains regardent les vidéos et écrivent des descriptions de ce qu'ils voient, en se concentrant sur les détails des mouvements, les activités réalisées, et les interactions avec des objets et d'autres personnes.
Niveaux d'annotation
Les annotations sont organisées en trois niveaux :
Narration de mouvement détaillée : Des descriptions détaillées sur la façon dont les participants bougent, y compris la posture et l'interaction avec des objets.
Actions atomiques : Des descriptions courtes qui résument les actions clés sans entrer dans autant de détails que le premier niveau.
Résumé d'activité : Ça fournit un aperçu global de l'activité, résumant ce qui se passe sur une plus longue période.
Challenges dans la collecte des données
Collecter ce genre de données vient avec des défis. Par exemple, s'assurer que les dispositifs restent synchronisés pendant l'enregistrement peut être complexe. Si le timing est décalé, ça peut entraîner des inexactitudes dans les données. De plus, les participants peuvent ne pas toujours agir naturellement s'ils savent qu'ils sont enregistrés, ce qui peut affecter l'authenticité des données.
L'échelle du dataset
Le dataset Nymeria est l'un des plus grands de son genre. Il consiste en des milliers d'heures d'activités enregistrées provenant de divers participants, capturant une large gamme de mouvements et d'environnements. Ce dataset vaste fournit une ressource significative pour les chercheurs qui veulent étudier le mouvement humain et développer de nouvelles technologies.
Applications de recherche
Il y a plein d'applications potentielles pour le dataset Nymeria. Il peut être utilisé pour améliorer les systèmes de suivi de mouvement, enrichir les expériences de réalité virtuelle, et développer de nouvelles technologies AI qui comprennent et réagissent au mouvement humain. Les chercheurs peuvent aussi l'utiliser pour étudier les interactions sociales et comment les gens bougent dans différents environnements.
Conclusion
Le dataset Nymeria représente une avancée significative dans l'étude du mouvement humain. En capturant des activités quotidiennes dans divers environnements et en fournissant des annotations détaillées, il offre une ressource précieuse pour les chercheurs. Ce dataset va sûrement mener à de nouvelles découvertes et développements dans plusieurs domaines, y compris l'IA, la robotique et l'interaction homme-ordinateur.
Titre: Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild
Résumé: We introduce Nymeria - a large-scale, diverse, richly annotated human motion dataset collected in the wild with multiple multimodal egocentric devices. The dataset comes with a) full-body ground-truth motion; b) multiple multimodal egocentric data from Project Aria devices with videos, eye tracking, IMUs and etc; and c) a third-person perspective by an additional observer. All devices are precisely synchronized and localized in on metric 3D world. We derive hierarchical protocol to add in-context language descriptions of human motion, from fine-grain motion narration, to simplified atomic action and high-level activity summarization. To the best of our knowledge, Nymeria dataset is the world's largest collection of human motion in the wild; first of its kind to provide synchronized and localized multi-device multimodal egocentric data; and the world's largest motion-language dataset. It provides 300 hours of daily activities from 264 participants across 50 locations, total travelling distance over 399Km. The language descriptions contain 301.5K sentences in 8.64M words from a vocabulary size of 6545. To demonstrate the potential of the dataset, we evaluate several SOTA algorithms for egocentric body tracking, motion synthesis, and action recognition. Data and code are open-sourced for research (c.f. https://www.projectaria.com/datasets/nymeria).
Auteurs: Lingni Ma, Yuting Ye, Fangzhou Hong, Vladimir Guzov, Yifeng Jiang, Rowan Postyeni, Luis Pesqueira, Alexander Gamino, Vijay Baiyya, Hyo Jin Kim, Kevin Bailey, David Soriano Fosas, C. Karen Liu, Ziwei Liu, Jakob Engel, Renzo De Nardi, Richard Newcombe
Dernière mise à jour: 2024-09-19 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.09905
Source PDF: https://arxiv.org/pdf/2406.09905
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.