Progredire nel recupero della mesh a corpo intero con un approccio in un'unica fase
Un nuovo metodo migliora il recupero della forma 3D del corpo da immagini singole.
― 7 leggere min
Il recupero della mesh del corpo intero è un processo che prevede la previsione delle forme e delle posizioni 3D del corpo, del viso e delle mani di una persona a partire da un'immagine singola. I metodi tradizionali di solito consistono in diversi passaggi in cui vengono utilizzati modelli differenti per analizzare ciascuna parte del corpo separatamente. Questi modelli lavorano per comprendere la testa, le mani e il corpo e poi combinano i risultati. Tuttavia, questo metodo può portare a posizioni innaturali dei polsi e delle mani.
Al contrario, il nostro metodo utilizza un unico modello chiamato Component Aware Transformer (CAT) per gestire tutte le parti del corpo insieme in un colpo solo. Questo approccio migliora l'accuratezza e fornisce forme più naturali. L'obiettivo principale è creare una rappresentazione 3D dettagliata di una figura umana a partire da un'immagine standard, che può essere un compito difficile dato che parti del corpo, come il viso e le mani, sono spesso molto piccole e possono essere difficili da vedere chiaramente.
Sfide Attuali nel Recupero della Mesh del Corpo Intero
Il processo di recupero di una mesh del corpo intero implica la stima di vari parametri del corpo umano da un'immagine. Questa attività non è semplice perché le diverse parti del corpo sono spesso a risoluzioni diverse. Il viso e le mani sono piccoli rispetto al resto del corpo, rendendo difficile per i modelli ottenere letture accurate.
Nella maggior parte dei metodi esistenti, le mani e i volti vengono rilevati e ingranditi a una risoluzione più alta prima di essere inviati a reti diverse per l'analisi. Infine, i risultati vengono combinati, il che può causare problemi nel risultato finale, come pose imbarazzanti e rotazioni irrealistiche.
La Nostra Soluzione Proposta: Pipeline a Un Solo Passo
Proponiamo un sistema più semplice a un solo passo per il recupero della mesh del corpo intero. Questo sistema, chiamato OSX, non richiede modelli separati per la testa, le mani e il corpo. Invece, utilizza un encoder globale per comprendere l'intero corpo e un decoder locale per affinare le caratteristiche relative alle mani e al viso.
L'encoder crea una rappresentazione dettagliata delle caratteristiche del corpo e passa queste informazioni al decoder, che poi si concentra su mani e viso. Questo metodo elimina molti problemi presenti nelle pipeline tradizionali a più fasi e produce movimenti e posizioni più naturali per le parti del corpo.
Costruzione del Component Aware Transformer
Il CAT è progettato per riconoscere vari componenti del corpo mantenendo le connessioni tra di essi. L'architettura è semplice ma efficace, permettendo di generare modelli 3D dettagliati basati solo sulle informazioni di un'immagine.
Ecco come funziona il processo:
- Input dell'Immagine Umana: L'immagine di input viene suddivisa in parti più piccole. Ogni sezione viene analizzata con attenzione per catturare le caratteristiche importanti.
- Fase di Encoder: L'encoder prende questi segmenti e li combina con specifici token del corpo, che sono parametri apprendibili che aiutano a comprendere la struttura complessiva del corpo. Dopo aver elaborato una serie di blocchi di transformer, l'encoder produce mappe dettagliate delle caratteristiche del corpo.
- Fase di Decoder: Il decoder è progettato per affinare queste mappe di caratteristiche per prevedere con precisione le articolazioni e le forme delle mani e del viso. Utilizza un metodo per aumentare le immagini a bassa risoluzione in risoluzioni più elevate senza perdere dettagli importanti.
- Meccanismo di Attenzione: Il decoder utilizza un'attenzione guidata dai punti chiave per concentrarsi su parti specifiche, migliorando la stima dei parametri delle mani e del viso.
Utilizzando questo metodo, possiamo generare in modo efficace una rappresentazione 3D più accurata e coerente del corpo, del viso e delle mani di una persona, superando molte limitazioni dei metodi precedenti.
Formazione e Valutazione
Per assicurarci che il nostro metodo funzioni bene, abbiamo bisogno di addestrarlo su set di dati estesi. Abbiamo creato un nuovo set di dati chiamato Upper-Body (UBody) che include una varietà di scenari in cui le parti superiori dei corpi sono visibili ma potrebbero non essere completamente chiare. Questo set di dati presenta video di persone in varie posizioni e ambienti, aiutando il modello a imparare a gestire situazioni della vita reale.
Durante l'addestramento, abbiamo misurato quanto bene il sistema si comporta utilizzando vari parametri. La misura principale è l'errore medio di posizione per vertice (MPVPE), che ci aiuta a vedere quanto la mesh prevista sia vicina alla forma reale.
I Risultati
Il nostro modello a un solo passo ha dimostrato prestazioni migliori rispetto ai sistemi multi-stadio esistenti su vari benchmark. Abbiamo scoperto che può produrre risultati accurati non solo per l'intero corpo, ma anche per parti specifiche come mani e volti senza fare affidamento su set di dati separati per quelle aree.
Costruzione di un Dataset Migliore: UBody
Il set di dati UBody è stato creato per aiutare a colmare il divario tra compiti di recupero di base e applicazioni più complesse, come il riconoscimento della lingua dei segni e la generazione di gesti. Comprende video di alta qualità che mostrano diverse azioni e interazioni, consentendo al modello di imparare in modo efficace da scene della vita reale.
I dati sono stati raccolti da fonti diverse, inclusi video di performance e corsi online, fornendo un insieme ben arrotondato di esempi da cui il modello può apprendere. Ogni video è stato attentamente ritagliato per concentrarsi su azioni pertinenti, garantendo input di alta qualità per il nostro processo di addestramento.
Processo di Annotazione
Per l'annotazione, abbiamo sviluppato una pipeline dettagliata che include annotazioni sia 2D che 3D. Il primo passo consiste nel localizzare le parti chiave del corpo in 2D. Utilizzando modelli avanzati di stima della posa, possiamo identificare con precisione le posizioni dei punti chiave per il corpo, le mani e il viso. Questo ci consente di creare annotazioni 2D accurate che servono come base per ulteriori analisi.
Successivamente, traduciamo questi punti chiave 2D in parametri della mesh 3D, adattandoli al nostro modello scelto per una maggiore accuratezza. Questo processo implica un ciclo continuo di addestramento e affinamento delle annotazioni per migliorare la qualità nel tempo.
Caratteristiche Uniche di UBody
Il set di dati UBody ha diverse caratteristiche uniche:
- Scenari della vita reale: A differenza di altri set di dati che potrebbero concentrarsi su ambienti controllati, UBody presenta azioni spontanee che sono rappresentative della vita reale.
- Condizioni Diversificate: Il set di dati include varie condizioni di illuminazione e angolazioni, aiutando il modello a imparare a gestire diversi scenari che potrebbe incontrare.
Risultati Sperimentali
Nei nostri esperimenti, abbiamo riscontrato che il nostro sistema supera significativamente i metodi multi-stadio tradizionali. I risultati mostrano un chiaro miglioramento nell'accuratezza delle mesh recuperate, soprattutto in situazioni difficili in cui l'ostruzione e il movimento sfocato possono complicare le previsioni.
Direzioni Future
Sebbene il nostro approccio attuale abbia mostrato risultati promettenti, c'è ancora spazio per miglioramenti. Lavori futuri potrebbero includere l'integrazione di ulteriori set di dati focalizzati specificamente su mani e visi per migliorare ulteriormente le prestazioni del modello. Inoltre, convalidare l'efficacia di UBody in applicazioni del mondo reale, come il riconoscimento dei gesti o l'analisi delle emozioni, fornirebbe preziose intuizioni.
Conclusione
In sintesi, abbiamo sviluppato una pipeline a un solo passo per il recupero della mesh del corpo intero che semplifica il processo raggiungendo risultati superiori. Il nostro nuovo set di dati, UBody, insieme al nostro metodo, mira a contribuire significativamente al campo fornendo sia una piattaforma di addestramento robusta sia una comprensione più chiara di come recuperare forme corporee 3D dalle immagini.
Affrontando le principali sfide incontrate nei modelli precedenti, offriamo un nuovo approccio per comprendere le pose e le espressioni umane in una varietà di contesti, aprendo la strada a future ricerche e applicazioni in questo importante area di studio.
Titolo: One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer
Estratto: Whole-body mesh recovery aims to estimate the 3D human body, face, and hands parameters from a single image. It is challenging to perform this task with a single network due to resolution issues, i.e., the face and hands are usually located in extremely small regions. Existing works usually detect hands and faces, enlarge their resolution to feed in a specific network to predict the parameter, and finally fuse the results. While this copy-paste pipeline can capture the fine-grained details of the face and hands, the connections between different parts cannot be easily recovered in late fusion, leading to implausible 3D rotation and unnatural pose. In this work, we propose a one-stage pipeline for expressive whole-body mesh recovery, named OSX, without separate networks for each part. Specifically, we design a Component Aware Transformer (CAT) composed of a global body encoder and a local face/hand decoder. The encoder predicts the body parameters and provides a high-quality feature map for the decoder, which performs a feature-level upsample-crop scheme to extract high-resolution part-specific features and adopt keypoint-guided deformable attention to estimate hand and face precisely. The whole pipeline is simple yet effective without any manual post-processing and naturally avoids implausible prediction. Comprehensive experiments demonstrate the effectiveness of OSX. Lastly, we build a large-scale Upper-Body dataset (UBody) with high-quality 2D and 3D whole-body annotations. It contains persons with partially visible bodies in diverse real-life scenarios to bridge the gap between the basic task and downstream applications.
Autori: Jing Lin, Ailing Zeng, Haoqian Wang, Lei Zhang, Yu Li
Ultimo aggiornamento: 2023-03-28 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.16160
Fonte PDF: https://arxiv.org/pdf/2303.16160
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.