Nuovo metodo per tenere traccia delle interazioni 3D tra esseri umani e oggetti
Un approccio innovativo per tracciare con precisione i movimenti 3D con una sola macchina fotografica.
― 11 leggere min
Indice
- Importanza del Tracciamento delle Interazioni Umano-Oggetto
- Il Nostro Metodo Proposto
- Valutazione del Metodo
- Contributi Chiave
- Panoramica del Metodo
- Lavori Correlati
- Sfide nel Tracciamento Monoculare
- Approccio Tecnico
- Recupero delle Pose degli Oggetti
- Ottimizzazione Congiunta
- Risultati Sperimentali
- Importanza del Condizionamento
- Confronti con Altri Metodi
- Limitazioni e Direzioni Future
- Conclusione
- Fonte originale
- Link di riferimento
Catturare come le persone interagiscono con l'ambiente in uno spazio tridimensionale (3D) è fondamentale per vari settori come la robotica, i giochi e la realtà virtuale. Tuttavia, i recenti sforzi per ricostruire immagini 3D di persone e oggetti a partire da foto standard affrontano ancora delle difficoltà, soprattutto quando gli oggetti sono nascosti o quando la profondità di questi oggetti non viene considerata correttamente. Questo rende difficile monitorare i movimenti con precisione attraverso diverse immagini.
In questo articolo, presentiamo un nuovo metodo che traccia efficacemente i movimenti 3D di persone e oggetti utilizzando una sola telecamera, anche quando parti degli oggetti sono nascoste o fuori dalla vista. Il nostro approccio si basa su due idee principali. Primo, miglioriamo la precisione delle nostre ricostruzioni 3D utilizzando stime dei modelli per ogni fotogramma, il che aiuta a mantenere movimenti coerenti nel tempo. Secondo, utilizziamo il movimento visibile per prevedere cosa sta accadendo con oggetti non completamente visibili, permettendoci di fare congetture migliori sulle loro posizioni.
Attraverso esperimenti su set di dati specifici, dimostriamo che il nostro metodo supera le tecniche esistenti, mostrando la sua efficacia nel catturare Interazioni tra umani e oggetti anche quando la visibilità è limitata.
Importanza del Tracciamento delle Interazioni Umano-Oggetto
Capire come gli esseri umani interagiscono con gli oggetti è importante per molte applicazioni. Il tracciamento preciso può migliorare le funzioni in settori come la robotica e i giochi. Tuttavia, catturare queste interazioni non è facile.
I metodi precedenti si basavano su hardware costosi come configurazioni di telecamere dense per raggiungere l'accuratezza. Approcci più recenti utilizzano più telecamere RGBD, ma impostare questi sistemi può essere complicato e costoso, rendendoli poco pratici per l'uso quotidiano. Pertanto, c'è bisogno di metodi che possano tracciare efficacemente le interazioni umano-oggetto utilizzando una sola telecamera RGB, il che sarebbe molto più facile per i consumatori.
Catturare movimenti 3D di persone e oggetti da una sola telecamera è una sfida. Senza informazioni sulla profondità, diventa difficile monitorare i movimenti con precisione. Questo è particolarmente complicato in situazioni in cui oggetti o persone sono parzialmente bloccati dalla vista, causando incertezze nelle previsioni.
I metodi precedenti spesso utilizzavano regole create manualmente per affrontare questi problemi ma non mostrano un’alta precisione o scalabilità. Altri, come CHORE, hanno combinato tecniche di modellazione con metodi di ricostruzione, ottenendo alcuni successi. Tuttavia, CHORE si basa su assunzioni di profondità fisse che creano problemi nel monitoraggio preciso dei movimenti nel tempo. Inoltre, CHORE ha difficoltà in situazioni altamente occluse dove la telecamera non riesce a vedere chiaramente gli oggetti.
Il Nostro Metodo Proposto
Proponiamo un nuovo metodo che traccia con successo sia gli esseri umani che gli oggetti in 3D, anche usando solo una telecamera. La nostra tecnica unisce due approcci avanzati: previsioni sui campi neurali e adattamento del modello. Questa combinazione si è dimostrata più efficace dei metodi più datati che si concentravano solo sul regressore delle pose umane.
Invece di imporre una profondità fissa, il nostro metodo utilizza stime del modello per ogni fotogramma per mantenere una comprensione coerente del movimento. Questo approccio porta a risultati di tracciamento e ricostruzione migliori.
Inoltre, riconosciamo che durante le interazioni, il movimento di un oggetto è spesso strettamente legato al movimento di una persona. Questa intuizione ci consente di utilizzare i dati di movimento dei fotogrammi visibili per inferire informazioni sugli oggetti occlusi. Il nostro metodo utilizza un tipo speciale di Rete Neurale che combina sia i dati di movimento umano che di visibilità degli oggetti per migliorare le previsioni per i fotogrammi occlusi.
Grazie al nostro approccio, possiamo monitorare sia gli esseri umani che gli oggetti con maggiore affidabilità, anche in situazioni complesse dove la visibilità è compromessa.
Valutazione del Metodo
Per convalidare il nostro metodo, abbiamo condotto esperimenti su due set di dati che presentano interazioni umano-oggetto. I risultati mostrano che il nostro metodo può tracciare efficacemente i movimenti e le interazioni realistiche tra persone e oggetti, anche quando si verificano pesanti occlusioni.
Abbiamo anche confrontato il nostro approccio con tecniche esistenti, PHOSA e CHORE. Questi metodi precedenti spesso hanno difficoltà con le occlusioni, portando a problemi di accuratezza nel tracciamento. Al contrario, il nostro metodo combina informazioni sul movimento umano con dati di visibilità, permettendogli di monitorare robustamente i movimenti anche quando parti dell'oggetto non sono chiaramente visibili.
Contributi Chiave
Tracciamento Congiunto di Umani e Oggetti: Il nostro metodo è il primo a tracciare congiuntamente i movimenti del corpo intero degli esseri umani mentre interagiscono con oggetti mobili usando una sola telecamera.
Campi di Interazione Condizionati: Abbiamo introdotto una rete speciale che prevede i movimenti basati su stime dei modelli, consentendo un tracciamento coerente delle interazioni tra umani e oggetti.
Previsione della Posizione degli Oggetti: Il nostro approccio include una rete che può prevedere accuratamente le pose degli oggetti, anche quando sono parzialmente occlusi.
I nostri esperimenti confermano che queste innovazioni portano a miglioramenti significativi rispetto ai metodi attuali. Il nostro codice e i modelli disponibili pubblicamente mirano a incoraggiare ulteriori ricerche in questo campo.
Panoramica del Metodo
Il nostro approccio inizia con una sequenza di immagini in cui un umano interagisce con un oggetto. L'obiettivo è ricostruire e tracciare i movimenti 3D sia dell'umano che dell'oggetto, insieme a qualsiasi contatto che si verifica tra di loro.
La prima idea chiave è una rete specializzata che prevede i campi neurali basati su modelli stimati dallo spazio della telecamera. Questo processo ci consente di mantenere il tracciamento coerente tra i fotogrammi. La nostra seconda intuizione chiave si concentra sulla previsione delle pose degli oggetti considerando i movimenti umani e le informazioni di visibilità. Questo processo aiuta a monitorare gli oggetti con precisione, anche sotto pesanti occlusioni.
Insieme, questi componenti migliorano la nostra capacità di ottimizzare congiuntamente il tracciamento sia degli umani che degli oggetti, tenendo conto delle sfide poste dalle occlusioni.
Lavori Correlati
Tracciamento dei Movimenti Umani e degli Oggetti
L'introduzione di modelli corporei come SMPL ha spinto notevoli progressi nel recupero dei movimenti umani da immagini e video. Sebbene ci siano stati miglioramenti nella stima della posa degli oggetti utilizzando il deep learning, il tracciamento dei movimenti degli oggetti nei video non ha ricevuto la stessa attenzione. Ci sono alcuni metodi che sfruttano la localizzazione della telecamera dalle prove visive, ma potrebbero avere difficoltà in scenari occlusi e non monitorano le interazioni umano-oggetto.
Interazione Umano-Oggetto
La modellazione delle interazioni tra umani e oggetti è un’area di ricerca in crescita. Alcuni lavori studiano specificamente come le mani interagiscono con gli oggetti utilizzando vari tipi di input, come immagini RGB o RGBD. Sono stati creati diversi set di dati, come BEHAVE e InterCap, per testare le interazioni del corpo intero con oggetti mobili. Tuttavia, molti metodi attuali si basano ancora su installazioni complesse e non catturano efficacemente le interazioni da un'unica vista della telecamera.
Affrontare le Occlusioni
La maggior parte dei sistemi esistenti presume che le immagini di input siano prive di occlusioni, il che limita la loro robustezza. Alcuni metodi considerano occlusioni parziali o a lungo termine, ma non trattano in modo completo le interazioni umano-oggetto. Il nostro metodo è unico in quanto considera sia il movimento umano che la visibilità degli oggetti quando traccia le interazioni, fornendo un approccio più preciso a questo problema.
Sfide nel Tracciamento Monoculare
La principale sfida nel tracciare i movimenti di umani e oggetti da una sola telecamera è gestire le informazioni sulla profondità. Molti metodi esistenti si basano su assunzioni di profondità fisse, che possono creare incoerenze nel tracciamento nel tempo.
Per risolvere questi problemi, adattiamo un modello umano attraverso la sequenza video per ottenere traduzioni coerenti nello spazio della telecamera. Questo processo di adattamento ci aiuta a mantenere movimenti coerenti tra i fotogrammi e consente un'efficace modellazione congiunta di umani, oggetti e le loro interazioni.
La difficoltà aumenta quando gli oggetti sono solo parzialmente visibili. Per affrontare questo, incorporiamo una rete che sfrutta i dati di movimento dai fotogrammi vicini per recuperare la posa degli oggetti occlusi. Questo metodo si basa sia sul movimento umano che su quello degli oggetti per migliorare l'accuratezza del tracciamento.
Approccio Tecnico
Il primo passo del nostro approccio consiste nell'ottenere mesh umane coerenti dalla sequenza di immagini. Inizializziamo i parametri del modello umano utilizzando previsioni provenienti da un altro modello, assicurandoci che le traduzioni risultanti siano coerenti in tutto il video.
Successivamente, introduciamo campi di interazione che ci permettono di ragionare congiuntamente sui movimenti umani e degli oggetti. La nostra rete elabora le immagini di input insieme alle mesh stimate per prevedere i campi di interazione, che includono distanze dalle superfici umane e degli oggetti e informazioni sui rapporti tra di loro.
Per il tracciamento degli oggetti, sfruttiamo un decodificatore di visibilità che prevede quanto sia visibile l'oggetto nel fotogramma corrente. Questo decodificatore gioca un ruolo cruciale nel recupero delle informazioni per i fotogrammi occlusi.
Recupero delle Pose degli Oggetti
Per prevedere accuratamente le pose degli oggetti in situazioni in cui sono fortemente occlusi, sfruttiamo le informazioni dai fotogrammi visibili. Questo processo coinvolge l'aggregazione delle caratteristiche di movimento sia dai dati umani che da quelli degli oggetti per migliorare le previsioni.
Utilizziamo un tipo di rete neurale nota come transformer per catturare informazioni temporali, aiutando a prevedere le pose degli oggetti in modo più accurato durante le occlusioni. Combinando caratteristiche dai fotogrammi visibili, il nostro approccio supera metodi più semplici come l'interpolazione lineare, che non considerano le informazioni contestuali dal movimento umano.
Ottimizzazione Congiunta
Per raggiungere un tracciamento preciso dei movimenti, ottimizziamo il nostro metodo attraverso una robusta procedura di ottimizzazione congiunta. Questo processo si concentra sull'allineamento dei movimenti umani e degli oggetti con le osservazioni 2D e sull'assicurare vincoli realistici nell'interazione.
Il processo di ottimizzazione è suddiviso in fasi, dove prima perfezioniamo i parametri del modello umano seguiti dai parametri dell'oggetto. Questo approccio a due fasi migliora i risultati finali del tracciamento.
Risultati Sperimentali
Abbiamo convalidato il nostro metodo utilizzando i set di dati BEHAVE e InterCap, che includono vari scenari di interazioni umano-oggetto. I nostri risultati dimostrano che il nostro approccio può tracciare i movimenti in modo molto più efficace rispetto ai metodi esistenti, specialmente sotto pesanti occlusioni.
Abbiamo anche condotto studi di ablazione per valutare l'importanza di diversi componenti nel nostro metodo. I risultati hanno confermato che condizionare le stime dei modelli porta a miglioramenti significativi nell'accuratezza del tracciamento.
Importanza del Condizionamento
Il condizionamento del nostro approccio sulle stime dei modelli consente una migliore coerenza nel tracciamento dei movimenti relativi tra i fotogrammi. Questo sta in contrasto con i sistemi che operano a profondità fisse, che spesso portano a incoerenze.
Analizzando le previsioni delle pose degli oggetti, abbiamo scoperto che il nostro metodo riduce sostanzialmente gli errori di tracciamento, anche rispetto alle uscite grezze di altre tecniche. Il processo di condizionamento è cruciale per raggiungere un'alta accuratezza sia nel tracciamento degli oggetti che degli esseri umani.
Confronti con Altri Metodi
Oltre a confrontare il nostro metodo con approcci esistenti come PHOSA e CHORE, abbiamo anche valutato varie alternative per la previsione delle pose degli oggetti. Molte di queste alternative hanno avuto difficoltà con le occlusioni, mentre il nostro metodo ha mantenuto robustezza sfruttando i dati dei fotogrammi visibili per inferire le pose occluse.
Abbiamo inoltre dimostrato che il nostro metodo si generalizza bene al set di dati NTU-RGBD, mantenendo la sua efficacia anche quando non è stato diretto addestrato su di esso. Questa adattabilità indica la versatilità e il potenziale per applicazioni più ampie della nostra tecnica di tracciamento.
Limitazioni e Direzioni Future
Sebbene il nostro metodo dimostri progressi nel tracciamento anche sotto pesanti occlusioni, ha ancora alcune limitazioni. Prima di tutto, presume che i modelli degli oggetti siano noti, il che potrebbe non essere sempre il caso. I lavori futuri potrebbero coinvolgere lo sviluppo di sistemi che creano automaticamente i modelli degli oggetti dai video.
Inoltre, affrontare situazioni che coinvolgono più persone o oggetti è ancora una sfida che intendiamo affrontare. Questo miglioramento consentirebbe di catturare interazioni più realistiche in scenari reali.
Conclusione
Il nostro metodo rappresenta un avanzamento nella cattura delle interazioni umano-oggetto da video RGB monoculari.
Proponendo una rete neurale condizionata per una ricostruzione 3D coerente e una rete separata che tiene conto del movimento umano e della visibilità, abbiamo ottenuto miglioramenti significativi rispetto ai metodi tradizionali. La nostra ricerca mostra anche il potenziale di generalizzazione ad altri set di dati, aprendo la strada a ulteriori sviluppi in questo campo.
Invitiamo a continuare la ricerca in quest’area, mirata a soluzioni che affrontino le sfide presentate dalle occlusioni e migliorino l'accuratezza nel tracciamento delle interazioni che coinvolgono umani e oggetti.
Titolo: Visibility Aware Human-Object Interaction Tracking from Single RGB Camera
Estratto: Capturing the interactions between humans and their environment in 3D is important for many applications in robotics, graphics, and vision. Recent works to reconstruct the 3D human and object from a single RGB image do not have consistent relative translation across frames because they assume a fixed depth. Moreover, their performance drops significantly when the object is occluded. In this work, we propose a novel method to track the 3D human, object, contacts between them, and their relative translation across frames from a single RGB camera, while being robust to heavy occlusions. Our method is built on two key insights. First, we condition our neural field reconstructions for human and object on per-frame SMPL model estimates obtained by pre-fitting SMPL to a video sequence. This improves neural reconstruction accuracy and produces coherent relative translation across frames. Second, human and object motion from visible frames provides valuable information to infer the occluded object. We propose a novel transformer-based neural network that explicitly uses object visibility and human motion to leverage neighbouring frames to make predictions for the occluded frames. Building on these insights, our method is able to track both human and object robustly even under occlusions. Experiments on two datasets show that our method significantly improves over the state-of-the-art methods. Our code and pretrained models are available at: https://virtualhumans.mpi-inf.mpg.de/VisTracker
Autori: Xianghui Xie, Bharat Lal Bhatnagar, Gerard Pons-Moll
Ultimo aggiornamento: 2023-10-31 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.16479
Fonte PDF: https://arxiv.org/pdf/2303.16479
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.