Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Graphisme

Comprendre le mouvement humain grâce au dataset Nymeria

Un aperçu détaillé d'un ensemble de données capturant les activités humaines quotidiennes.

― 5 min lire


Dataset Nymeria DévoiléDataset Nymeria Dévoilédu dataset Nymeria.Une plongée profonde dans les résultats
Table des matières

Le dataset Nymeria est une grosse collection d'activités humaines quotidiennes capturées dans différents environnements. Il inclut des enregistrements de personnes portant des lunettes spéciales et des bracelets qui récoltent différents types de données pendant qu'elles vaquent à leurs occupations. L'objectif de ce dataset est d'aider les chercheurs à comprendre comment les gens bougent et interagissent dans des situations réelles.

C'est quoi le dataset Nymeria ?

Le dataset Nymeria capture le mouvement du corps entier sous différents angles et perspectives. Pour ça, il utilise des dispositifs qui suivent les mouvements, y compris des lunettes intelligentes et des bracelets qui enregistrent des vidéos et d'autres infos sensorielles. Le dataset fournit plein d'infos, y compris des descriptions détaillées des mouvements en langage naturel. Ça peut être utile pour étudier le comportement humain et développer de nouvelles technologies.

Comment les données sont collectées

Le processus de collecte des données implique plusieurs étapes. Les participants portent une combinaison spéciale, des lunettes et des bracelets pour capturer leurs mouvements. L'enregistrement se fait dans différents cadres, comme des maisons, des bureaux et des espaces extérieurs, pour montrer une variété d'activités. Des observateurs formés suivent aussi les participants pour donner du contexte et aider à capturer les événements avec précision.

Les différents types de données

Le dataset inclut plusieurs types de données :

  1. Enregistrements vidéo : Ça inclut des vidéos de caméras RGB et de caméras en niveaux de gris. Les vidéos montrent comment les participants interagissent avec leur environnement.

  2. Données de mouvement : Cela provient de capteurs qui suivent les mouvements du corps, y compris la position et l'orientation des membres des participants.

  3. Enregistrements audio : La parole des participants et les sons de l'environnement sont enregistrés pour ajouter plus de contexte aux activités.

  4. Suivi oculaire : Des infos sur où les participants regardent sont collectées pour mieux comprendre leur attention pendant les activités.

  5. Nuages de points 3D : Ceux-ci sont créés pour représenter l'environnement autour des participants, offrant une vue tridimensionnelle des espaces où les activités se déroulent.

Importance du contexte

Collecter des données dans des situations réelles donne aux chercheurs une compréhension plus riche du comportement humain. Ça montre comment les gens bougent et interagissent avec les autres et leur environnement, sans les contraintes artificielles d'un cadre de labo. Ça aide à créer des systèmes qui peuvent réagir aux actions humaines de manière plus naturelle.

Processus d'annotation

Les données enregistrées ne sont pas laissées brutes. Elles sont soigneusement annotées pour ajouter du sens aux mouvements capturés. Des annotateurs humains regardent les vidéos et écrivent des descriptions de ce qu'ils voient, en se concentrant sur les détails des mouvements, les activités réalisées, et les interactions avec des objets et d'autres personnes.

Niveaux d'annotation

Les annotations sont organisées en trois niveaux :

  1. Narration de mouvement détaillée : Des descriptions détaillées sur la façon dont les participants bougent, y compris la posture et l'interaction avec des objets.

  2. Actions atomiques : Des descriptions courtes qui résument les actions clés sans entrer dans autant de détails que le premier niveau.

  3. Résumé d'activité : Ça fournit un aperçu global de l'activité, résumant ce qui se passe sur une plus longue période.

Challenges dans la collecte des données

Collecter ce genre de données vient avec des défis. Par exemple, s'assurer que les dispositifs restent synchronisés pendant l'enregistrement peut être complexe. Si le timing est décalé, ça peut entraîner des inexactitudes dans les données. De plus, les participants peuvent ne pas toujours agir naturellement s'ils savent qu'ils sont enregistrés, ce qui peut affecter l'authenticité des données.

L'échelle du dataset

Le dataset Nymeria est l'un des plus grands de son genre. Il consiste en des milliers d'heures d'activités enregistrées provenant de divers participants, capturant une large gamme de mouvements et d'environnements. Ce dataset vaste fournit une ressource significative pour les chercheurs qui veulent étudier le mouvement humain et développer de nouvelles technologies.

Applications de recherche

Il y a plein d'applications potentielles pour le dataset Nymeria. Il peut être utilisé pour améliorer les systèmes de suivi de mouvement, enrichir les expériences de réalité virtuelle, et développer de nouvelles technologies AI qui comprennent et réagissent au mouvement humain. Les chercheurs peuvent aussi l'utiliser pour étudier les interactions sociales et comment les gens bougent dans différents environnements.

Conclusion

Le dataset Nymeria représente une avancée significative dans l'étude du mouvement humain. En capturant des activités quotidiennes dans divers environnements et en fournissant des annotations détaillées, il offre une ressource précieuse pour les chercheurs. Ce dataset va sûrement mener à de nouvelles découvertes et développements dans plusieurs domaines, y compris l'IA, la robotique et l'interaction homme-ordinateur.

Source originale

Titre: Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild

Résumé: We introduce Nymeria - a large-scale, diverse, richly annotated human motion dataset collected in the wild with multiple multimodal egocentric devices. The dataset comes with a) full-body ground-truth motion; b) multiple multimodal egocentric data from Project Aria devices with videos, eye tracking, IMUs and etc; and c) a third-person perspective by an additional observer. All devices are precisely synchronized and localized in on metric 3D world. We derive hierarchical protocol to add in-context language descriptions of human motion, from fine-grain motion narration, to simplified atomic action and high-level activity summarization. To the best of our knowledge, Nymeria dataset is the world's largest collection of human motion in the wild; first of its kind to provide synchronized and localized multi-device multimodal egocentric data; and the world's largest motion-language dataset. It provides 300 hours of daily activities from 264 participants across 50 locations, total travelling distance over 399Km. The language descriptions contain 301.5K sentences in 8.64M words from a vocabulary size of 6545. To demonstrate the potential of the dataset, we evaluate several SOTA algorithms for egocentric body tracking, motion synthesis, and action recognition. Data and code are open-sourced for research (c.f. https://www.projectaria.com/datasets/nymeria).

Auteurs: Lingni Ma, Yuting Ye, Fangzhou Hong, Vladimir Guzov, Yifeng Jiang, Rowan Postyeni, Luis Pesqueira, Alexander Gamino, Vijay Baiyya, Hyo Jin Kim, Kevin Bailey, David Soriano Fosas, C. Karen Liu, Ziwei Liu, Jakob Engel, Renzo De Nardi, Richard Newcombe

Dernière mise à jour: 2024-09-19 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.09905

Source PDF: https://arxiv.org/pdf/2406.09905

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires