Migliorare la previsione del movimento umano nella realtà virtuale
Un nuovo metodo migliora la previsione dei movimenti del corpo per i dispositivi montati sulla testa.
― 6 leggere min
Indice
Capire e prevedere i movimenti del corpo umano dal punto di vista di una persona è un’area di ricerca importante. Questo è particolarmente rilevante per i dispositivi indossati sulla testa, come i visori di realtà virtuale. Quando questi dispositivi catturano immagini, guardano verso il corpo dell'utente. Tuttavia, capire con precisione la posizione delle parti del corpo da queste immagini può essere un po' complicato.
Spesso, alcune parti del corpo possono essere fuori vista o bloccate, rendendo difficile per i metodi tradizionali funzionare in modo efficace. Alcuni tentativi precedenti hanno usato obiettivi grandangolari per catturare più del corpo, ma questi obiettivi possono creare problemi riguardo al design del dispositivo e alla chiarezza dell'immagine.
Problema con i Metodi Correnti
Molte tecniche attuali si basano su algoritmi complessi che prevedono posizioni 2D delle articolazioni nelle immagini e poi le convertono in posizioni 3D. Anche se questi metodi possono funzionare in alcuni casi, spesso richiedono grandi quantità di potenza computazionale, cosa non sempre praticabile per i dispositivi montati sulla testa. Questo può portare a ritardi nel processamento, che non è l’ideale per creare un'esperienza utente fluida.
Per affrontare questi problemi, è stato introdotto un Nuovo Metodo che utilizza obiettivi fotografici normali invece di grandangolari per catturare immagini. Questo semplifica il design dell'hardware, pur riconoscendo che alcune parti del corpo potrebbero essere fuori campo.
Invece di cercare di generare mappe di calore per ogni articolazione, il nuovo metodo calcola direttamente i movimenti delle articolazioni come distribuzioni di probabilità. In questo modo, può tenere conto dell'incertezza su dove potrebbero trovarsi le articolazioni, specialmente quando non sono completamente visibili nell'immagine.
Introduzione di un Nuovo Dataset
Per addestrare questo nuovo metodo in modo efficace, è stato creato un Dataset Sintetico speciale. Questo dataset include 60.000 immagini stereo che mostrano una grande varietà di pose corporee, forme, abbigliamento e toni della pelle. Questa diversità è fondamentale per assicurare che il modello possa capire e prevedere tenendo conto di scenari del mondo reale.
Questo nuovo dataset consente un miglior addestramento del software, fondamentale per migliorare l'accuratezza delle previsioni delle Pose del corpo. Di conseguenza, il nuovo approccio ha mostrato un miglioramento significativo rispetto ai metodi passati in termini di riduzione degli errori quando si prevedono le posizioni delle articolazioni.
Vantaggi del Nuovo Approccio
Uno dei maggiori vantaggi del nuovo metodo è la sua capacità di funzionare in modo più efficiente sui dispositivi montati sulla testa. Con meno parametri necessari e velocità di elaborazione più rapide, il modello può fornire feedback tempestivi agli utenti. Questo è particolarmente importante in situazioni in cui gli utenti sono molto consapevoli dei ritardi nei movimenti.
Inoltre, il nuovo metodo non si limita a generare le posizioni delle articolazioni; cattura anche le incertezze relative a queste previsioni. Comprendendo quanto il modello sia certo o incerto riguardo alle sue previsioni, si possono intraprendere ulteriori azioni in applicazioni come l'animazione degli avatar o l'interazione virtuale.
Stima della Pose Corporea Umana
Stimare i movimenti del corpo umano è diventato un campo ben studiato. I sistemi tradizionali spesso si concentrano su punti di vista esterni, mentre i metodi più recenti eocentrici guardano dalla prospettiva dell'utente. Anche se gli approcci egocentrici mostrano promesse, sono stati in gran parte limitati dall'accuratezza della Stima della posa 3D.
Il nuovo metodo si posiziona come un approccio basato su modelli. Questo consente un recupero più completo della forma 3D del corpo umano, aprendo la strada a rappresentazioni virtuali più accurate. A differenza dei tentativi precedenti che spesso creano dati sintetici in condizioni più semplici, questo nuovo metodo mira a casi d'uso più impegnativi ma realistici, dove parti del corpo potrebbero non essere visibili.
Importanza della Previsione Accurata delle Rotazioni delle Articolazioni
Una caratteristica chiave del nuovo metodo è la sua capacità di prevedere le rotazioni delle articolazioni direttamente da immagini egocentriche. I metodi tradizionali spesso adottano un approccio indiretto, il che può introdurre errori.
Prevedendo i movimenti delle articolazioni come probabilità, il sistema può tenere conto delle incertezze legate a articolazioni non visibili o parzialmente visibili nell'immagine. Questa flessibilità aggiunge robustezza alle previsioni, rendendole più affidabili per applicazioni nel mondo reale dove le condizioni sono spesso variabili e imprevedibili.
Raccolta di Dati Sintetici
Raccogliere un dataset del mondo reale che catturi diverse pose, forme e ambienti è sia difficile che costoso. Pertanto, utilizzare dataset sintetici è diventata una pratica comune nell'addestramento di modelli di machine learning.
Il nuovo dataset sintetico non si concentra solo sulle pose corporee, ma include anche rappresentazioni realistiche di abbigliamento, texture della pelle e diverse condizioni di illuminazione. Questa significativa diversità nel dataset è fondamentale per addestrare efficacemente il modello, minimizzando il divario di dominio quando applicato a immagini reali.
Il sistema rende immagini utilizzando un modello di fotocamera più rappresentativo dei veri dispositivi hardware. Questo processo consente una visione più chiara delle potenziali difficoltà nella stima delle pose.
Valutazione delle Prestazioni
Per convalidare l'efficacia di questo nuovo approccio, sono stati condotti ampi esperimenti con dataset sia sintetici che reali. Le prestazioni del nuovo modello sono state confrontate con diversi metodi esistenti.
Utilizzando una serie di valutazioni, il nuovo metodo ha costantemente superato gli altri, specialmente in termini di riduzione degli errori nella previsione delle posizioni delle articolazioni.
Il processo di validazione ha anche coinvolto l'uso di vari metriche per garantire che le previsioni del modello fossero precise e affidabili. L'uso di più dataset ha permesso di comprendere meglio le capacità di generalizzazione del modello, cosa fondamentale in situazioni del mondo reale.
Conclusione
Questo nuovo modello per la stima della posa umana egocentrica da telecamere montate sulla testa rappresenta un significativo avanzamento nel campo. Concentrandosi sulla previsione delle rotazioni delle articolazioni direttamente e incorporando le incertezze, il modello offre un'accuratezza migliorata pur essendo efficiente in termini di risorse.
Creare un dataset sintetico consente al modello di essere addestrato in modo efficace, permettendogli di generalizzare bene per applicazioni nel mondo reale. Questa combinazione di innovazione e praticità posiziona il nuovo metodo per giocare un ruolo vitale nel futuro delle interazioni virtuali e delle applicazioni di dispositivi montati sulla testa.
La capacità di prevedere i movimenti in modo preciso e tempestivo migliorerà l'esperienza dell'utente in ambienti di realtà virtuale e aumentata. Inoltre, le implicazioni di questa ricerca si estendono oltre la semplice stima della posa; pongono le basi per ambienti virtuali più immersivi e reattivi, in grado di mimare meglio la realtà.
Con l'avanzare della tecnologia, i metodi sviluppati in questa ricerca aprono la strada a migliori interazioni negli spazi digitali. Alla fine, comprendere il movimento umano in un contesto virtuale sarà cruciale per creare connessioni più profonde nelle interazioni digitali, rendendo avatar realistici e ambienti reattivi una realtà tangibile.
Titolo: SimpleEgo: Predicting Probabilistic Body Pose from Egocentric Cameras
Estratto: Our work addresses the problem of egocentric human pose estimation from downwards-facing cameras on head-mounted devices (HMD). This presents a challenging scenario, as parts of the body often fall outside of the image or are occluded. Previous solutions minimize this problem by using fish-eye camera lenses to capture a wider view, but these can present hardware design issues. They also predict 2D heat-maps per joint and lift them to 3D space to deal with self-occlusions, but this requires large network architectures which are impractical to deploy on resource-constrained HMDs. We predict pose from images captured with conventional rectilinear camera lenses. This resolves hardware design issues, but means body parts are often out of frame. As such, we directly regress probabilistic joint rotations represented as matrix Fisher distributions for a parameterized body model. This allows us to quantify pose uncertainties and explain out-of-frame or occluded joints. This also removes the need to compute 2D heat-maps and allows for simplified DNN architectures which require less compute. Given the lack of egocentric datasets using rectilinear camera lenses, we introduce the SynthEgo dataset, a synthetic dataset with 60K stereo images containing high diversity of pose, shape, clothing and skin tone. Our approach achieves state-of-the-art results for this challenging configuration, reducing mean per-joint position error by 23% overall and 58% for the lower body. Our architecture also has eight times fewer parameters and runs twice as fast as the current state-of-the-art. Experiments show that training on our synthetic dataset leads to good generalization to real world images without fine-tuning.
Autori: Hanz Cuevas-Velasquez, Charlie Hewitt, Sadegh Aliakbarian, Tadas Baltrušaitis
Ultimo aggiornamento: 2024-01-26 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2401.14785
Fonte PDF: https://arxiv.org/pdf/2401.14785
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.