Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Grafica

Progressi nell'apprendimento del movimento umano dai video

Un nuovo sistema migliora la cattura del movimento 3D da filmati video 2D.

― 6 leggere min


Cattura del MovimentoCattura del MovimentoUmano Potenziatapartendo da video 2D.ricostruire il movimento 3D avanzatoIl nuovo sistema VTM riesce a
Indice

Imparare come si muovono le persone dai video è un obiettivo importante nella visione artificiale e nella grafica. Può essere usato in molte aree, inclusi i videogiochi e la realtà virtuale. Tradizionalmente, i ricercatori hanno avuto difficoltà a estrarre movimenti tridimensionali (3D) da filmati video bidimensionali (2D). Questo compito è complicato perché le immagini 2D possono apparire diverse a seconda dell'angolo, dell'illuminazione e di altri fattori. I metodi precedenti spesso cercavano di affrontare questa sfida utilizzando regole su come si muovono le persone. Tuttavia, definire quelle regole completamente è difficile.

In un lavoro recente, è stato creato un nuovo sistema per imparare meglio il movimento umano dai video. Questo sistema collega i movimenti visti nei Video 2D con le mosse 3D di uno scheletro virtuale. Separa il corpo in parti superiori e inferiori, rendendo più facile modellare il movimento. Allinea anche i movimenti con uno scheletro standard per minimizzare le differenze causate da variazioni nei tipi di corpo. Il nuovo sistema ha mostrato risultati promettenti quando testato, catturando efficacemente il movimento umano 3D da video presi da angolazioni diverse.

La sfida dell'apprendimento del movimento umano

Capire il movimento umano da input 2D è fondamentale per varie applicazioni, come il riconoscimento delle azioni e l'analisi del comportamento. Tuttavia, questo compito è difficile a causa dell'ambiguità che si presenta quando si prova a convertire immagini 2D in movimenti 3D.

Per migliorare l'accuratezza della cattura del movimento, molti approcci precedenti hanno usato regole specifiche sul movimento umano. Queste regole mirano a garantire che le pose 3D stimate siano realistiche. Tali regole possono essere ampiamente catalogate in due tipi: metodi espliciti e metodi impliciti.

I metodi espliciti si concentrano sulla definizione dei movimenti basati sull'anatomia umana. Anche se può sembrare semplice, l'insieme completo delle regole che governano il movimento umano non è ancora completamente noto. I metodi impliciti, d'altra parte, lavorano modellando i modelli generali di movimento visti attraverso una gamma di movimenti. Tuttavia, questi modelli spesso affrontano difficoltà di addestramento.

Il sistema sviluppato nello studio attuale si chiama Video-to-Motion Generator (VTM). Mira a superare alcune delle limitazioni dei modelli precedenti trattando il corpo umano in parti e allineando i movimenti con uno scheletro standard. Questo nuovo modo di vedere il movimento ha portato a risultati migliori.

Il Video-to-Motion Generator (VTM)

Il VTM si concentra sul suddividere il corpo umano in parti superiori e inferiori. Questa separazione semplifica il processo di cattura del movimento e riduce la complessità associata alla modellazione dell'intero corpo umano. Il sistema utilizza anche uno scheletro virtuale che non è influenzato dalle differenze di dimensioni tra individui. Questo rende più facile apprendere i modelli di movimento evitando complicazioni derivanti da variazioni nelle dimensioni del corpo.

Il VTM impara da un dataset contenente video 2D e i corrispondenti dati di movimento 3D. Questo consente al sistema di sviluppare una comprensione di come si muovono insieme le diverse parti del corpo. Una volta che il sistema ha imparato questi modelli, può essere utilizzato per creare movimenti 3D realistici da nuovi video 2D.

Addestramento del VTM

Per addestrare il VTM, vengono utilizzate due parti separate. La prima parte si concentra sull'apprendimento dei modelli di movimento dai dati 3D. Questa fase è cruciale perché stabilisce un insieme di regole che il sistema utilizzerà successivamente. Una volta che i priors di movimento sono stati appresi, la seconda parte dell'addestramento coinvolge l'allineamento di questi movimenti appresi con le caratteristiche estratte dai video 2D.

Utilizzare una struttura a due parti per l'addestramento consente una riduzione significativa della complessità. Trattando il corpo superiore e inferiore separatamente, il modello può concentrarsi sui movimenti chiave senza essere sopraffatto dall'intero corpo.

Priors di movimento

Il concetto di priors di movimento è essenziale nel processo di apprendimento. Questi priors servono da guida per ricostruire i movimenti dai video. Riflettono i modi comuni in cui gli esseri umani si muovono e forniscono una cornice per valutare quanto bene il sistema sta funzionando.

Durante l'addestramento, il VTM utilizza un auto-encoder di movimento a due parti. Questo encoder è responsabile dell'apprendimento dei diversi schemi di movimento per le parti superiori e inferiori del corpo. Questa tecnica consente al sistema di catturare i dettagli necessari su come si muove ogni parte senza interferenze dalle altre.

Da caratteristiche video a previsioni di movimento

Dopo che i modelli di movimento sono stati stabiliti, il VTM elabora gli input video 2D. Una parte specifica del sistema, nota come Encoder Visivo, traduce questi video in caratteristiche che possono essere allineate con i priors di movimento appresi.

Questa parte del sistema utilizza modelli pre-addestrati per estrarre caratteristiche video e combina queste con le caratteristiche dei punti chiave del corpo. Il risultato di questa combinazione è un insieme di caratteristiche visive che possono essere allineate con i priors di movimento, garantendo una ricostruzione del movimento più accurata.

Valutazione del VTM

Il VTM è stato testato su diversi dataset standard, come l'AIST++. I risultati di queste valutazioni mostrano che il VTM supera molti metodi tradizionali. Il sistema non è solo in grado di ricostruire movimenti 3D basati sui video forniti, ma mostra anche la flessibilità di adattarsi a video presi da angolazioni diverse.

Generalizzazione e applicazione nel mondo reale

Uno dei vantaggi critici del VTM è la sua capacità di generalizzare su angoli non visti e condizioni non pianificate. Questo significa che il sistema può gestire video presi in ambienti non controllati, che è comune nelle situazioni del mondo reale.

Le prestazioni del sistema sono state validate testandolo su video raccolti al di fuori delle condizioni controllate presenti durante l'addestramento. I risultati hanno dimostrato che il VTM può mantenere un'alta precisione nella ricostruzione dei movimenti umani anche in questi ambienti più difficili.

Conclusione

In sintesi, catturare il movimento umano dai video presenta sfide significative, ma il Video-to-Motion Generator (VTM) ha mostrato una via da seguire. Concentrandosi su parti separate del corpo e allineando i movimenti con uno scheletro virtuale, il VTM impara efficacemente a ricostruire movimenti 3D realistici da video 2D.

I lavori futuri mirano a migliorare questo sistema esplorando metodi di apprendimento non supervisionati. Questo potrebbe migliorare ulteriormente la capacità del modello di generalizzare, consentendo anche l'integrazione di set di dati di movimento di alta qualità senza la necessità di coppie video esatte.

Lo sviluppo continuo di tali sistemi porterà senza dubbio avanti i campi della visione artificiale e della grafica, portando rappresentazioni di movimento umano più sofisticate nelle applicazioni nei videogiochi, nella realtà virtuale e oltre.

Fonte originale

Titolo: Learning Human Motion from Monocular Videos via Cross-Modal Manifold Alignment

Estratto: Learning 3D human motion from 2D inputs is a fundamental task in the realms of computer vision and computer graphics. Many previous methods grapple with this inherently ambiguous task by introducing motion priors into the learning process. However, these approaches face difficulties in defining the complete configurations of such priors or training a robust model. In this paper, we present the Video-to-Motion Generator (VTM), which leverages motion priors through cross-modal latent feature space alignment between 3D human motion and 2D inputs, namely videos and 2D keypoints. To reduce the complexity of modeling motion priors, we model the motion data separately for the upper and lower body parts. Additionally, we align the motion data with a scale-invariant virtual skeleton to mitigate the interference of human skeleton variations to the motion priors. Evaluated on AIST++, the VTM showcases state-of-the-art performance in reconstructing 3D human motion from monocular videos. Notably, our VTM exhibits the capabilities for generalization to unseen view angles and in-the-wild videos.

Autori: Shuaiying Hou, Hongyu Tao, Junheng Fang, Changqing Zou, Hujun Bao, Weiwei Xu

Ultimo aggiornamento: 2024-04-15 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2404.09499

Fonte PDF: https://arxiv.org/pdf/2404.09499

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili