FreeMan: Un Nuovo Dataset per il Movimento Umano
FreeMan offre dati diversi sul movimento umano in situazioni reali.
― 7 leggere min
Indice
Capire come si muovono gli esseri umani in tre dimensioni è importante per tante aree, come creare animazioni, realtà virtuale e migliorare le interazioni tra umani e robot. Tuttavia, i sistemi attuali che cercano di monitorare i movimenti umani spesso fanno fatica quando vengono messi in situazioni reali. Questo è principalmente dovuto alla mancanza di dati diversificati che riflettano come le persone si comportano negli ambienti quotidiani, dato che la maggior parte dei dataset esistenti presenta solo ambienti controllati e interni.
Per affrontare queste limitazioni, presentiamo un nuovo dataset chiamato FreeMan. Questo è il primo grande insieme di dati che cattura i movimenti umani 3D in vari contesti del mondo reale. Utilizzando smartphone per raccogliere dati da più angolazioni, abbiamo creato un dataset ricco che include diverse scene e condizioni di illuminazione. Questo aiuterà a migliorare l'accuratezza e l'efficacia dei modelli che studiano il movimento umano.
La Necessità di Dati del Mondo Reale
La maggior parte dei dataset attuali sui movimenti umani vengono raccolti in ambienti semplici, spesso all'interno di un laboratorio. Questi ambienti di solito si basano su attrezzature di alta gamma e sfondi fissi, che non rappresentano la complessità delle situazioni reali. Di conseguenza, i modelli addestrati su questi dati limitati spesso falliscono quando vengono applicati nel mondo reale.
Per creare sistemi che possano interpretare accuratamente il movimento umano in contesti quotidiani, sono necessari dataset più vari. FreeMan mira a fornire un tale dataset catturando i movimenti in ambienti naturali e non controllati. Questa diversità è fondamentale per addestrare modelli che devono riconoscere e comprendere le azioni umane in contesti differenti.
Cos'è FreeMan?
FreeMan è un nuovo dataset che consiste in registrazioni video che mostrano i movimenti umani in vari ambienti. Include migliaia di fotogrammi presi da diverse angolazioni utilizzando smartphone. Il dataset presenta una vasta gamma di scene, sia interne che esterne. Inoltre, cattura l'attività in varie condizioni di illuminazione, rendendolo adatto a una varietà di applicazioni.
Il dataset FreeMan è composto da:
- Annotazioni della posa umana in 3D.
- Più visuali da angolazioni diverse.
- Dati raccolti in vari luoghi e condizioni di illuminazione.
I video mostrano persone reali che svolgono attività quotidiane, permettendo ai ricercatori di esaminare come si muovono gli esseri umani in un contesto più realistico.
Caratteristiche Chiave di FreeMan
Selezione di Scene Diversificate
FreeMan include una varietà di scene, rendendolo più ricco rispetto ai dataset precedenti. Ci sono attività sia interne che esterne, così come diversi tipi di ambienti come caffè, biblioteche, parchi e strade. Questa varietà garantisce che i modelli addestrati con FreeMan possano generalizzare meglio quando si trovano di fronte a nuove situazioni.
Diverse Condizioni di Illuminazione
L'illuminazione gioca un ruolo significativo nel modo in cui percepiamo il movimento. FreeMan cattura i movimenti in una gamma di situazioni di luce, dalla luce del giorno brillante agli ambienti poco illuminati. Questo aiuterà i modelli a capire come l'illuminazione influisce sulla visibilità e sull'interpretazione dei movimenti umani.
Interazioni Umane
Il dataset include scenari in cui le persone interagiscono con oggetti e tra di loro. Questo introduce complessità, come le occlusioni, dove una persona può bloccare un'altra. Queste interazioni sono importanti per comprendere il comportamento umano nella vita reale.
Multiple Visuali da Telecamere
Per fornire una visione completa delle azioni umane, FreeMan registra la stessa attività da diversi angoli della telecamera. Questo approccio multi-visione fornisce un contesto maggiore e aiuta a ridurre gli errori nella comprensione dei movimenti del corpo.
Sfide Affrontate da FreeMan
FreeMan è progettato per superare diverse sfide viste nei dataset esistenti:
Varietà Limitata delle Scene
La maggior parte dei dataset attuali viene raccolta in ambienti controllati che non rappresentano la varietà della vita quotidiana. Catturando dati in luoghi diversi, FreeMan aiuta ad addestrare modelli robusti in diversi contesti.
Azioni Fisse
I dataset esistenti presentano spesso un’ampia gamma di attività umane. Al contrario, FreeMan include una vasta serie di movimenti, garantendo che i modelli addestrati su questo dataset possano riconoscere una maggiore varietà di azioni.
Problemi di Annotazione Manuale
Annotare i dati può richiedere tempo e costi elevati. FreeMan utilizza una pipeline semi-automatica per l'annotazione, che snellisce il processo e riduce le possibilità di errore umano. Questo assicura che il dataset rimanga accurato senza un lavoro manuale eccessivo.
Metodologia di Raccolta Dati
FreeMan è stato creato raccogliendo dati video da partecipanti che eseguivano azioni specifiche. Di seguito viene delineata la metodologia utilizzata durante la fase di raccolta dati:
Impostazione dell'Attrezzatura
I dati sono stati raccolti utilizzando diversi smartphone disposti in una formazione circolare attorno ai soggetti. Questa configurazione ha permesso di avere più punti di vista mantenendo semplice e accessibile il processo di ripresa. Ogni smartphone era impostato per catturare video in alta definizione a un frame rate costante.
Processo di Sincronizzazione
Per garantire che tutte le telecamere registrassero footage allo stesso tempo, i ricercatori hanno utilizzato una tecnica che sincronizzava i dispositivi in modalità wireless. Questo ha minimizzato le possibilità di discrepanze tra i filmati delle telecamere.
Calibrazione
Prima della raccolta dati, le telecamere sono state calibrate utilizzando un pattern a scacchiera per stabilire con precisione le loro posizioni e orientamenti. Questo primo passo ha garantito che tutte le visuali delle telecamere si allineassero correttamente, fornendo una solida base per la raccolta dati.
Pipeline di Annotazione
Una volta raccolti i dati, è stato impiegato un sistema all'avanguardia per la rilevazione della posa umana per identificare i punti chiave sul corpo umano. Queste informazioni sulla posa in 2D sono state poi convertite in annotazioni 3D utilizzando tecniche di triangolazione. Eventuali errori in questo processo sono stati filtrati attraverso un sistema di rilevamento degli errori semi-automatico che prevedeva una supervisione umana.
Valutazione e Applicazioni
FreeMan fornisce test di benchmark completi per valutare le performance di vari algoritmi nella stima della posa umana. Questi benchmark includono:
Stima della Posa Umana 3D Monoculare
Questo compito si concentra sull'utilizzo di un'unica immagine per prevedere le posizioni 3D delle articolazioni del corpo. I risultati dei test mostrano che i modelli addestrati su FreeMan performano meglio rispetto a quelli addestrati su altri dataset, dimostrando la robustezza dei dati di addestramento.
Sollevamento della Posa 2D in 3D
In questo compito, le pose 2D provenienti da detector esistenti vengono elevate nello spazio 3D. I risultati indicano che utilizzare FreeMan consente conversioni più accurate rispetto ai dataset tradizionali.
Stima della Posa 3D Multi-Vista
Questa valutazione consente ai modelli di sfruttare più immagini per migliorare la stima della posa. I test cross-domain mostrano che i modelli addestrati su FreeMan superano quelli addestrati su dataset standard, evidenziando le capacità di generalizzazione del dataset.
Rendering Neurale di Soggetti Umani
FreeMan supporta la ricerca sul rendering di figure umane da angolazioni nuove. Utilizzando i dati raccolti, i ricercatori possono esplorare tecniche di rendering di alta qualità che riflettono le condizioni del mondo reale.
Importanza di FreeMan
FreeMan segna un significativo avanzamento nel campo dell'analisi del movimento umano. Le sue scene diversificate, l'illuminazione variata e le interazioni ricche permettono un miglioramento dell'addestramento e della valutazione dei modelli progettati per comprendere le azioni umane.
Inoltre, il dataset è disponibile per i ricercatori, incoraggiando ulteriori sviluppi nel campo. Affrontando le limitazioni esistenti, FreeMan mira a colmare il divario tra i dataset controllati e le applicazioni nel mondo reale.
Direzioni Future
Sebbene FreeMan rappresenti un forte passo avanti, ci sono ancora nuove strade da esplorare:
Espansione delle Annotazioni delle Pose
Attualmente, le annotazioni di FreeMan consistono in un numero limitato di punti chiave. Lavori futuri potrebbero includere la cattura di movimenti corporei più dettagliati, coprendo una rappresentazione completa della forma umana.
Tecniche di Rendering Migliorate
I ricercatori possono costruire su FreeMan per migliorare gli algoritmi di rendering. La diversità del dataset aiuterà a migliorare la qualità e il realismo delle visualizzazioni umane.
Nuovi Algoritmi e Approcci
Il ricco contenuto di FreeMan può fornire le basi per sviluppare nuovi algoritmi volti a risolvere le sfide esistenti nell'analisi del movimento umano. I ricercatori sono incoraggiati a testare e sviluppare nuovi metodi sfruttando il dataset.
Conclusione
FreeMan è un dataset rivoluzionario che migliora il campo dell'analisi del movimento umano fornendo dati diversificati e reali. Le sue caratteristiche uniche danno la possibilità ai ricercatori di addestrare e valutare modelli su interazioni umane complesse, migliorando la comprensione di come le persone si muovono nella loro vita quotidiana. Rendendo disponibile questo dataset, si spera di ispirare continui progressi nella tecnologia che possono interpretare le azioni umane in modo più accurato.
Titolo: FreeMan: Towards Benchmarking 3D Human Pose Estimation under Real-World Conditions
Estratto: Estimating the 3D structure of the human body from natural scenes is a fundamental aspect of visual perception. 3D human pose estimation is a vital step in advancing fields like AIGC and human-robot interaction, serving as a crucial technique for understanding and interacting with human actions in real-world settings. However, the current datasets, often collected under single laboratory conditions using complex motion capture equipment and unvarying backgrounds, are insufficient. The absence of datasets on variable conditions is stalling the progress of this crucial task. To facilitate the development of 3D pose estimation, we present FreeMan, the first large-scale, multi-view dataset collected under the real-world conditions. FreeMan was captured by synchronizing 8 smartphones across diverse scenarios. It comprises 11M frames from 8000 sequences, viewed from different perspectives. These sequences cover 40 subjects across 10 different scenarios, each with varying lighting conditions. We have also established an semi-automated pipeline containing error detection to reduce the workload of manual check and ensure precise annotation. We provide comprehensive evaluation baselines for a range of tasks, underlining the significant challenges posed by FreeMan. Further evaluations of standard indoor/outdoor human sensing datasets reveal that FreeMan offers robust representation transferability in real and complex scenes. Code and data are available at https://wangjiongw.github.io/freeman.
Autori: Jiong Wang, Fengyu Yang, Wenbo Gou, Bingliang Li, Danqi Yan, Ailing Zeng, Yijun Gao, Junle Wang, Yanqing Jing, Ruimao Zhang
Ultimo aggiornamento: 2024-04-03 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.05073
Fonte PDF: https://arxiv.org/pdf/2309.05073
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://opendatalab.com/OpenXDLab/HuMMan
- https://support.apple.com/en-ca/guide/preview/prvw11793/mac#:~:text=Delete%20a%20page%20from%20a,or%20choose%20Edit%20%3E%20Delete
- https://www.adobe.com/acrobat/how-to/delete-pages-from-pdf.html#:~:text=Choose%20%E2%80%9CTools%E2%80%9D%20%3E%20%E2%80%9COrganize,or%20pages%20from%20the%20file
- https://superuser.com/questions/517986/is-it-possible-to-delete-some-pages-of-a-pdf-document
- https://github.com/wangjiongw/FreeMan
- https://www.huggingface.co
- https://openxlab.org.cn/
- https://wangjiongw.github.io/freeman
- https://www.computer.org/about/contact
- https://github.com/cvpr-org/author-kit