Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Avanzamenti nel recupero di forme 3D da video

Un nuovo metodo migliora l'accuratezza e l'efficienza nella cattura delle forme 3D di più persone.

― 4 leggere min


Rivoluzione nel RecuperoRivoluzione nel Recuperodelle Forme 3Dtracciamento 3D di più persone.Nuovo metodo migliora l'efficienza del
Indice

Recuperare forme 3D di più persone dai video è fondamentale per capire le interazioni in vari contesti come la realtà virtuale e la terapia fisica. I metodi tradizionali si basano su diversi passaggi, che includono il rilevamento e il tracciamento di ogni persona una alla volta. Questo approccio a più fasi ha dei limiti perché non tiene conto di come le persone interagiscono tra loro nel tempo, portando a problemi di precisione.

Il Nuovo Approccio: CoordFormer

Per superare queste sfide, è stato introdotto un nuovo approccio chiamato CoordFormer. Questo metodo riesce a recuperare più forme 3D in una sola fase, a differenza dei metodi più vecchi che richiedono più fasi. CoordFormer impara direttamente come le persone sono collegate tra loro sia nello spazio che nel tempo, rendendolo più veloce ed efficiente.

Come Funziona CoordFormer

CoordFormer utilizza un tipo speciale di meccanismo di attenzione chiamato Coordinate-Aware Attention (CAA). Questo meccanismo aiuta a mantenere dettagli precisi a livello di pixel mentre tiene traccia delle posizioni delle persone nel video. Ha anche una tecnica nota come Body Center Attention (BCA), che si concentra sulle posizioni probabili del centro del corpo di ciascuna persona. La combinazione di queste tecniche permette a CoordFormer di ottenere risultati migliori rispetto ai metodi precedenti.

Miglioramenti delle Prestazioni

Test su un dataset noto come 3DPW hanno dimostrato che CoordFormer ha performato meglio dei migliori metodi precedenti. È riuscito a ridurre gli errori nelle misurazioni di percentuali notevoli ed è stato anche più veloce del 40%. Questo significa che CoordFormer può recuperare forme 3D in modo più preciso e rapido rispetto ai metodi più vecchi.

Come Funzionano Altri Metodi

La maggior parte dei metodi esistenti per il recupero di forme 3D basato su video opera in due fasi principali. Prima usano un sistema di rilevamento di persone bidimensionale (2D) per trovare gli individui nei video. Poi, tracciano queste persone attraverso i vari fotogrammi. Questo metodo a due fasi spesso ha difficoltà quando le persone si sovrappongono o ci sono imprecisioni nel rilevamento. Le prestazioni dipendono molto dalle fasi di rilevamento e tracciamento, portando a tempi di elaborazione più lenti e a potenziali imprecisioni.

Vantaggi del Metodo a Fase Singola

Con il design a fase singola di CoordFormer, il sistema impara a rilevare e tracciare le persone contemporaneamente. Questo approccio crea più sequenze di forme 3D in una volta, rendendo l'intero processo più efficiente. Il nuovo modello cattura anche come le persone si muovono insieme, il che aiuta a fornire forme 3D più realistiche.

Caratteristiche Chiave di CoordFormer

CoordFormer integra due innovazioni principali per migliorare le sue prestazioni. Il meccanismo Body Center Attention permette al modello di concentrarsi su dove si trovano le persone nel video. Questa attenzione consente un'estrazione migliore delle caratteristiche rilevanti necessarie per creare forme 3D accurate. La Coordinate-Aware Attention tiene traccia dei dettagli a livello di pixel, assicurando che le forme rappresentino accuratamente i movimenti di una persona mentre interagisce con gli altri.

Risultati Sperimentali

Le prestazioni di CoordFormer sono state validate attraverso test approfonditi sul dataset 3DPW, noto per la sua complessità. I risultati hanno mostrato che ha superato significativamente i metodi precedenti in termini di precisione. Queste scoperte hanno evidenziato l'importanza di capire le posizioni e i movimenti di più persone nei video, fondamentale per applicazioni come interazioni virtuali o terapie di riabilitazione.

Applicazioni nel Mondo Reale

I miglioramenti offerti da CoordFormer possono beneficiare vari settori, soprattutto quelli che richiedono di analizzare il comportamento di gruppo. Ad esempio, nelle impostazioni di realtà virtuale, un tracciamento accurato di più utenti migliora l'esperienza complessiva. Allo stesso modo, nella terapia fisica, capire come si muovono i pazienti può portare a piani di trattamento migliori.

Limiti Attuali e Direzioni Future

Sebbene CoordFormer mostri grandi potenzialità, ha ancora dei limiti. Attualmente ha difficoltà a recuperare le forme di persone che sono completamente nascoste dalla vista. La ricerca futura potrebbe concentrarsi su modi per migliorare il processo di recupero per gli individui occlusi utilizzando le informazioni temporali catturate nei dati video.

Conclusione

L'introduzione di CoordFormer segna un passo avanti significativo nel recupero di forme 3D di più persone dai video. Combinando rilevamento, tracciamento e modellazione delle forme in una sola fase, offre una soluzione più efficiente e precisa rispetto ai metodi tradizionali a più fasi. Con il progresso della tecnologia, CoordFormer potrebbe aprire nuove strade per la ricerca e le applicazioni nella comprensione del comportamento di gruppo in contesti diversi.

Fonte originale

Titolo: Coordinate Transformer: Achieving Single-stage Multi-person Mesh Recovery from Videos

Estratto: Multi-person 3D mesh recovery from videos is a critical first step towards automatic perception of group behavior in virtual reality, physical therapy and beyond. However, existing approaches rely on multi-stage paradigms, where the person detection and tracking stages are performed in a multi-person setting, while temporal dynamics are only modeled for one person at a time. Consequently, their performance is severely limited by the lack of inter-person interactions in the spatial-temporal mesh recovery, as well as by detection and tracking defects. To address these challenges, we propose the Coordinate transFormer (CoordFormer) that directly models multi-person spatial-temporal relations and simultaneously performs multi-mesh recovery in an end-to-end manner. Instead of partitioning the feature map into coarse-scale patch-wise tokens, CoordFormer leverages a novel Coordinate-Aware Attention to preserve pixel-level spatial-temporal coordinate information. Additionally, we propose a simple, yet effective Body Center Attention mechanism to fuse position information. Extensive experiments on the 3DPW dataset demonstrate that CoordFormer significantly improves the state-of-the-art, outperforming the previously best results by 4.2%, 8.8% and 4.7% according to the MPJPE, PAMPJPE, and PVE metrics, respectively, while being 40% faster than recent video-based approaches. The released code can be found at https://github.com/Li-Hao-yuan/CoordFormer.

Autori: Haoyuan Li, Haoye Dong, Hanchao Jia, Dong Huang, Michael C. Kampffmeyer, Liang Lin, Xiaodan Liang

Ultimo aggiornamento: 2023-08-20 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2308.10334

Fonte PDF: https://arxiv.org/pdf/2308.10334

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili