Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Grafica

Comprendere il movimento umano attraverso il dataset Nymeria

Uno sguardo dettagliato a un dataset che cattura le attività quotidiane degli esseri umani.

― 4 leggere min


Dataset di NymeriaDataset di NymeriaSvelatodel dataset Nymeria.Un'analisi approfondita dei risultati
Indice

Il dataset Nymeria è una grande raccolta di attività quotidiane umane catturate in vari ambienti. Include registrazioni di persone che indossano occhiali speciali e braccialetti che raccolgono diversi tipi di dati mentre si dedicano alla loro vita quotidiana. L'obiettivo di questo dataset è aiutare i ricercatori a capire come le persone si muovono e interagiscono in situazioni reali.

Cos'è il Dataset Nymeria?

Il dataset Nymeria cattura il movimento del corpo completo da più angolazioni e prospettive. Lo fa usando dispositivi che tracciano il movimento, inclusi occhiali smart e braccialetti che registrano video e altre informazioni sensoriali. Il dataset fornisce una grande quantità di informazioni, comprese descrizioni dettagliate dei movimenti in linguaggio naturale. Questo può essere utile per studiare il comportamento umano e sviluppare nuove tecnologie.

Come Vengono Raccolti i Dati

Il processo di raccolta dei dati prevede diversi passaggi. I partecipanti indossano un vestito speciale, occhiali e braccialetti per catturare i loro movimenti. La registrazione avviene in diverse ambientazioni, come case, uffici e spazi all'aperto, per mostrare una varietà di attività. Osservatori addestrati seguono anche i partecipanti per fornire contesto e aiutare a catturare gli eventi in modo accurato.

I Diversi Tipi di Dati

Il dataset include diversi tipi di dati:

  1. Registrazioni Video: Questi includono video da telecamere RGB e telecamere in scala di grigi. I video mostrano come i partecipanti interagiscono con l'ambiente circostante.

  2. Dati di Movimento: Questi provengono da sensori che tracciano i movimenti del corpo, inclusa la posizione e l'orientamento degli arti dei partecipanti.

  3. Registrazioni audio: La voce dei partecipanti e i suoni ambientali vengono registrati per aggiungere ulteriore contesto alle attività.

  4. Tracciamento Oculare: Vengono raccolte informazioni su dove guardano i partecipanti per capire meglio il loro focus durante le attività.

  5. Nuvole di Punti 3D: Queste vengono create per rappresentare l'ambiente attorno ai partecipanti, fornendo una vista tridimensionale degli spazi in cui avvengono le attività.

Importanza del Contesto

Raccogliere dati in situazioni reali dà ai ricercatori una comprensione più ricca del comportamento umano. Mostra come le persone si muovono e interagiscono con gli altri e con l'ambiente senza le limitazioni artificiali di un laboratorio. Questo aiuta a creare sistemi che possono rispondere alle azioni umane in modo più naturale.

Processo di annotazione

I dati registrati non vengono lasciati grezzi. Vengono accuratamente annotati per dare significato ai movimenti catturati. Annotatori umani guardano i video e scrivono descrizioni di ciò che vedono, focalizzandosi sui dettagli dei movimenti, delle attività svolte e delle interazioni con oggetti e altre persone.

Livelli di Annotazione

Le annotazioni sono organizzate in tre livelli:

  1. Narrazione del Movimento Fine: Descrizioni dettagliate su come si muovono i partecipanti, includendo postura e interazione con oggetti.

  2. Azioni Atomiche: Brevi descrizioni che riassumono le azioni chiave senza entrare nei dettagli del primo livello.

  3. Riepilogo delle Attività: Questo fornisce una panoramica ad alto livello dell'attività, riassumendo cosa sta succedendo in un segmento di tempo più lungo.

Sfide nella Raccolta dei Dati

Raccogliere questo tipo di dati comporta delle sfide. Per esempio, assicurarsi che i dispositivi rimangano sincronizzati durante la registrazione può essere complesso. Se il timing non è corretto, può portare a imprecisioni nei dati. Inoltre, i partecipanti potrebbero non comportarsi sempre in modo naturale se sanno di essere registrati, il che può influenzare l'autenticità dei dati.

La Scala del Dataset

Il dataset Nymeria è uno dei più grandi del suo genere. Consiste in migliaia di ore di attività registrate da vari partecipanti, catturando una vasta gamma di movimenti e ambienti. Questo ampio dataset fornisce una risorsa significativa per i ricercatori che cercano di studiare il movimento umano e sviluppare nuove tecnologie.

Applicazioni di Ricerca

Ci sono molte potenziali applicazioni per il dataset Nymeria. Può essere utilizzato per migliorare i sistemi di tracciamento del movimento, migliorare le esperienze di realtà virtuale e sviluppare nuove tecnologie AI che comprendono e rispondono al movimento umano. I ricercatori possono anche usarlo per studiare le interazioni sociali e come le persone si muovono in contesti diversi.

Conclusione

Il dataset Nymeria rappresenta un significativo avanzamento nello studio del movimento umano. Catturando attività quotidiane in ambienti diversi e fornendo annotazioni dettagliate, offre una risorsa preziosa per i ricercatori. Questo dataset probabilmente porterà a nuove intuizioni e sviluppi in vari campi, inclusi AI, robotica e interazione uomo-computer.

Fonte originale

Titolo: Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild

Estratto: We introduce Nymeria - a large-scale, diverse, richly annotated human motion dataset collected in the wild with multiple multimodal egocentric devices. The dataset comes with a) full-body ground-truth motion; b) multiple multimodal egocentric data from Project Aria devices with videos, eye tracking, IMUs and etc; and c) a third-person perspective by an additional observer. All devices are precisely synchronized and localized in on metric 3D world. We derive hierarchical protocol to add in-context language descriptions of human motion, from fine-grain motion narration, to simplified atomic action and high-level activity summarization. To the best of our knowledge, Nymeria dataset is the world's largest collection of human motion in the wild; first of its kind to provide synchronized and localized multi-device multimodal egocentric data; and the world's largest motion-language dataset. It provides 300 hours of daily activities from 264 participants across 50 locations, total travelling distance over 399Km. The language descriptions contain 301.5K sentences in 8.64M words from a vocabulary size of 6545. To demonstrate the potential of the dataset, we evaluate several SOTA algorithms for egocentric body tracking, motion synthesis, and action recognition. Data and code are open-sourced for research (c.f. https://www.projectaria.com/datasets/nymeria).

Autori: Lingni Ma, Yuting Ye, Fangzhou Hong, Vladimir Guzov, Yifeng Jiang, Rowan Postyeni, Luis Pesqueira, Alexander Gamino, Vijay Baiyya, Hyo Jin Kim, Kevin Bailey, David Soriano Fosas, C. Karen Liu, Ziwei Liu, Jakob Engel, Renzo De Nardi, Richard Newcombe

Ultimo aggiornamento: 2024-09-19 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2406.09905

Fonte PDF: https://arxiv.org/pdf/2406.09905

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili