Avanzamento della ricostruzione della mano per applicazioni AR/VR
Un nuovo framework migliora la stima delle pose della mano usando più angolazioni.
― 7 leggere min
Indice
Ricostruire le mani dalle immagini è importante per campi come la realtà virtuale e aumentata (AR/VR). I metodi esistenti spesso si concentrano su una mano alla volta e possono incontrare difficoltà quando si tratta di due mani. Questo documento presenta un nuovo framework che migliora il modo in cui ricostruiamo due mani utilizzando più immagini scattate da angolazioni diverse. Questo ci consente di creare rappresentazioni più realistiche di due mani, integrando gli avambracci per un contesto migliore nei movimenti delle mani, che è cruciale per le applicazioni interattive.
Il Problema
La stima della posa della mano è una sfida chiave in AR/VR. Molti metodi attuali funzionano bene per singole mani, ma non per due mani, specialmente quando interagiscono. Un problema significativo è la mancanza di dataset adatti che coprano le posizioni delle due mani da una prospettiva in prima persona, nota anche come vista egocentrica, il che rende difficile addestrare i modelli in modo efficace.
La Soluzione Proposta
Il nostro approccio utilizza un nuovo tipo di modello basato su un’architettura a trasformatore che sfrutta più viste delle mani. L'idea è di catturare pose più dettagliate e accurate di entrambe le mani. Abbiamo anche creato un Dataset Sintetico specificamente progettato per affrontare le lacune trovate nei dataset esistenti.
Caratteristiche Chiave del Framework
Ricostruzione Multi-Vista: Invece di usare solo un'immagine, prendiamo più immagini delle mani da angolazioni diverse. Questo fornisce al modello più informazioni su cui lavorare.
Dataset Sintetico: Molti dataset esistenti non sono adatti a catturare il modo in cui le mani appaiono da angolazioni diverse. Abbiamo creato un dataset sintetico che include una varietà di movimenti delle mani in diversi sfondi e situazioni di illuminazione.
Fusione delle Caratteristiche Immagine: Abbiamo sviluppato una tecnica per combinare le caratteristiche delle diverse viste, assicurandoci di mantenere solo i dettagli importanti relativi ai movimenti delle mani.
Approccio Basato su Grafi: Trattiamo le maglie delle mani come una struttura a grafo, utilizzando idee dalla teoria dei grafi per migliorare il modo in cui rappresentiamo e ricostruiamo le forme delle mani.
Fase di rifinitura: Dopo la ricostruzione iniziale, applichiamo un passaggio di ottimizzazione per correggere eventuali sovrapposizioni o penetrazioni non realistiche nella maglia, assicurandoci che le mani appaiano più naturali.
Contesto
La ricostruzione delle mani è un'area di interesse da un po' di tempo. Molti ricercatori hanno creato sistemi per catturare i movimenti delle mani utilizzando immagini di profondità o immagini RGB. La sfida nasce quando si cerca di fare questo per entrambe le mani contemporaneamente, specialmente quando le mani interagiscono.
Lavori Precedenti
I metodi iniziali si concentravano tipicamente su una sola mano, utilizzando varie tecniche per stimarne la posa. Alcuni usavano modelli parametrici, che si basano su forme e dimensioni note delle mani. Recentemente, sono emerse tecniche più avanzate che calcolano direttamente le maglie delle mani dalle immagini. Tuttavia, queste spesso incontrano difficoltà con due mani.
La Necessità di un Nuovo Dataset
Anche se ci sono alcuni dataset disponibili per il movimento delle mani, non forniscono abbastanza varietà negli sfondi o non catturano efficacemente le viste egocentriche. Questo rende difficile addestrare modelli che funzioneranno bene in applicazioni reali. La nostra soluzione è stata quella di creare un dettagliato dataset sintetico che presenta due mani in contesti diversi, con un focus sulle prospettive egocentriche.
Creazione del Dataset Sintetico
Abbiamo creato il nostro dataset sintetico rendendo modelli di mani realistici in diverse pose e sfondi utilizzando tecniche di illuminazione avanzate. Questo ci ha permesso di raccogliere un gran numero di immagini, ognuna abbinata a dati annotati di alta qualità sulle posizioni e le orientazioni delle mani.
Come Funziona il Framework
Il framework opera in diversi passaggi chiave.
Passo 1: Input Immagine
Raccogliamo più immagini RGB di due mani da angolazioni varie. Queste immagini vengono scattate con un set di telecamere calibrato attentamente per garantire precisione.
Passo 2: Estrazione delle Caratteristiche
Il primo passo comporta l'uso di una rete neurale per estrarre le caratteristiche rilevanti dalle immagini. Utilizziamo una rete neurale convoluzionale condivisa (CNN) per questo compito.
Passo 3: Fusione Soft-Attention
Una volta che abbiamo le caratteristiche da diverse viste, le combiniamo utilizzando un meccanismo di soft-attention. Questo consente al modello di concentrarsi sulle parti più importanti delle immagini, come le aree delle mani e degli avambracci, senza essere distratto da dettagli meno rilevanti.
Passo 4: Segmentazione della Maglia
Applichiamo una tecnica di segmentazione alle maglie delle mani per categorizzare diverse parti delle mani. Questo facilita al nostro modello la gestione di interazioni complesse tra le mani.
Passo 5: Codificatore a Trasformatore
Le caratteristiche combinate e segmentate vengono quindi alimentate in un codificatore a trasformatore. Questo modello impara a creare una rappresentazione grezza delle maglie delle mani prima di raffinarle in output di alta qualità.
Passo 6: Decodificatore a Grafo Spettrale
L'ultimo passo utilizza un decodificatore a grafo spettrale per ingrandire la rappresentazione della maglia grezza. Questo decodificatore è progettato per mantenere l'integrità strutturale delle forme delle mani mentre rifinisce i dettagli nelle maglie di output.
Passo 7: Ottimizzazione per il Realismo
Dopo la creazione iniziale delle maglie delle mani, eseguiamo un processo di ottimizzazione per garantire che non ci siano sovrapposizioni o penetrazioni non realistiche tra le dita o le mani. Questo passaggio migliora la plausibilità fisica dell'output.
Valutazione Sperimentale
Per valutare il nostro metodo, abbiamo condotto una serie di esperimenti.
Test del Dataset Sintetico
Abbiamo testato il nostro framework utilizzando il dataset sintetico creato. I risultati hanno mostrato che il nostro approccio ha superato significativamente i metodi esistenti in termini di precisione.
Confronto con Metodi Esistenti
Abbiamo confrontato il nostro metodo con un baseline ben noto chiamato METRO, progettato per ricostruire maglie umane dalle immagini. Il nostro metodo non solo ha fornito una migliore precisione, ma ha anche mantenuto una dimensione del modello più piccola.
Risultati su Dati Reali
Abbiamo anche testato il nostro modello su dati del mondo reale raccolti da un setup multi-camera. I risultati hanno confermato che il nostro modello sintetico poteva generalizzare bene su immagini reali, evidenziando la sua robustezza.
Vantaggi del Framework
Ricostruzioni ad Alta Fedeltà: Il nostro metodo produce output di alta qualità per entrambe le mani, migliorando il realismo delle pose.
Efficienza: Il design del modello garantisce che funzioni in modo efficiente, rendendolo adatto per applicazioni in tempo reale in AR/VR.
Generalizzabilità: Il framework è adattabile, rendendolo applicabile ad altri compiti che coinvolgono la ricostruzione multi-vista.
Ampia Applicazione: La capacità di ricostruire accuratamente due mani apre nuove possibilità per varie applicazioni, dai giochi agli ambienti di training virtuale.
Sfide e Limitazioni
Sebbene il nostro metodo mostri promesse, ci sono ancora sfide da superare. I problemi relativi all'auto-penetrazione durante interazioni complesse rimangono un problema, specialmente quando le mani sono molto vicine tra loro.
Direzioni Future
In futuro, puntiamo ad affrontare le sfide menzionate. Un approccio potrebbe essere quello di incorporare informazioni temporali da sequenze video, permettendo al modello di comprendere come le mani si muovono e interagiscono nel tempo.
Conclusione
Il framework proposto rappresenta un passo significativo avanti nel compito di ricostruire due mani da più immagini. Sfrutta metodi innovativi e un dataset personalizzato per fornire risultati che fanno progredire la nostra comprensione e capacità in quest'area. Migliorando il modo in cui rappresentiamo i gesti e le interazioni delle mani, apriamo nuove strade per miglioramenti nelle applicazioni AR/VR. Con la ricerca e sviluppo in corso, puntiamo a rifinire ulteriormente questo processo e ad estendere le sue capacità per gestire scenari più complessi.
Titolo: Spectral Graphormer: Spectral Graph-based Transformer for Egocentric Two-Hand Reconstruction using Multi-View Color Images
Estratto: We propose a novel transformer-based framework that reconstructs two high fidelity hands from multi-view RGB images. Unlike existing hand pose estimation methods, where one typically trains a deep network to regress hand model parameters from single RGB image, we consider a more challenging problem setting where we directly regress the absolute root poses of two-hands with extended forearm at high resolution from egocentric view. As existing datasets are either infeasible for egocentric viewpoints or lack background variations, we create a large-scale synthetic dataset with diverse scenarios and collect a real dataset from multi-calibrated camera setup to verify our proposed multi-view image feature fusion strategy. To make the reconstruction physically plausible, we propose two strategies: (i) a coarse-to-fine spectral graph convolution decoder to smoothen the meshes during upsampling and (ii) an optimisation-based refinement stage at inference to prevent self-penetrations. Through extensive quantitative and qualitative evaluations, we show that our framework is able to produce realistic two-hand reconstructions and demonstrate the generalisation of synthetic-trained models to real data, as well as real-time AR/VR applications.
Autori: Tze Ho Elden Tse, Franziska Mueller, Zhengyang Shen, Danhang Tang, Thabo Beeler, Mingsong Dou, Yinda Zhang, Sasa Petrovic, Hyung Jin Chang, Jonathan Taylor, Bardia Doosti
Ultimo aggiornamento: 2023-08-21 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2308.11015
Fonte PDF: https://arxiv.org/pdf/2308.11015
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.