Progretti nelle tecniche di rendering 3D per umani
Nuovi metodi migliorano il rendering degli esseri umani nei video con occlusioni.
― 6 leggere min
Creare modelli 3D di umani in movimento da video presi con una sola camera non è affatto semplice. Questo è particolarmente vero quando oggetti bloccano la vista della camera, rendendo difficile avere un quadro completo. Anche se ci sono stati miglioramenti nella tecnologia, rendere gli umani in modo preciso in queste situazioni resta una sfida.
Molti metodi esistenti hanno problemi con le occlusioni. Un grande problema è che generalmente si basano su un sistema semplice che cerca di abbinare punti sulle parti visibili del corpo a punti nel video. Questo può portare a grandi lacune nel modello quando parti del corpo sono nascoste. Un altro problema si presenta perché molti metodi non considerano regole o informazioni aggiuntive che potrebbero aiutare a riempire i buchi dove alcune parti del corpo non sono visibili.
Per risolvere questi problemi, sono state proposte nuove tecniche. Questi metodi utilizzano un approccio di Rendering Neurale che gestisce meglio le scene in cui il corpo umano è parzialmente nascosto. Fanno questo combinando forme geometriche che formano il corpo con informazioni su quali parti sono visibili. Testando questi nuovi metodi su video simulati e reali, i ricercatori hanno dimostrato che funzionano meglio delle tecniche tradizionali.
Creare rappresentazioni 3D di umani da una serie di fotogrammi video è importante per diversi settori, come la robotica e la salute. La sfida è poter ricreare dettagliatamente il corpo umano, compresa la sua forma e movimento, da dati incompleti. Spesso è difficile catturare la stessa persona da angolazioni diverse nello stesso momento, quindi usare una sola camera per fare un video è il metodo più comune.
La maggior parte dei metodi attuali per il rendering degli umani non affronta cosa succede quando alcune parti del corpo sono bloccate. Tendono a supporre che la persona filmata sia completamente visibile. Ma nella vita reale, gli ostacoli bloccano spesso la vista, il che può rovinare il processo di rendering. Per questo motivo, se i ricercatori cercano di applicare questi metodi esistenti a video in cui parti del corpo sono nascoste, i risultati sono spesso scarsi.
In una scena ideale, la camera può vedere chiaramente l'intero corpo umano. Tuttavia, nel mondo reale, oggetti possono bloccare la vista, rendendo difficile creare un buon rendering della persona. Questo porta a ulteriori problemi perché molti metodi non considerano le forme geometriche che compongono il corpo umano.
La maggior parte dei metodi tradizionali si concentra sulle parti visibili del corpo e ignora le aree nascoste. Questo porta a risultati inaspettati e fa apparire il rendering finale poco realistico. Se il modello non ha abbastanza informazioni per riempire le parti occluse, può portare ad artefatti: difetti indesiderati nel rendering.
Per migliorare il modo in cui gli umani vengono resi nei video dove alcune parti sono nascoste, sono stati creati nuovi metodi che prendono in considerazione queste occlusioni. Una delle innovazioni chiave coinvolge un nuovo approccio al rendering che guarda a un'area più ampia del corpo invece di concentrarsi solo su punti specifici. Questo consente al processo di rendering di fare migliori ipotesi su cosa potrebbe succedere nelle aree occluse.
Utilizzando un metodo di rendering basato sulle superfici, il nuovo approccio può attingere a più dati sulla forma del corpo umano e su quali parti sono visibili. Questo rende più facile generare un quadro completo del corpo umano anche quando alcune aree non sono visibili. Il nuovo metodo applica attenzione alle aree del corpo che vengono viste più spesso, consentendo renderizzazioni più accurate e realistiche.
I ricercatori hanno anche introdotto una nuova funzione di perdita che incoraggia il modello a mantenere una forma corporea completa, anche quando alcune parti sono nascoste. Utilizzando queste tecniche, la qualità delle immagini renderizzate migliora significativamente.
Per testare i nuovi metodi, i ricercatori hanno utilizzato vari dataset. Un dataset conteneva video di persone che eseguivano diverse attività. Questi video sono stati catturati senza ostacoli e i ricercatori hanno simulato occlusioni bloccando parti del video. Questo li ha aiutati a capire quanto bene i nuovi metodi funzionassero in condizioni controllate.
Un altro dataset si è concentrato su video di persone che interagivano con diversi oggetti in scenari reali. Questi video contenevano naturalmente occlusioni a causa della presenza di oggetti, dando ai ricercatori l'opportunità di vedere quanto bene i nuovi metodi potessero gestire tali complicazioni.
In entrambi gli esperimenti, i nuovi metodi di rendering sono stati valutati rispetto a tecniche precedenti all'avanguardia. Per le valutazioni qualitative, i ricercatori hanno esaminato la qualità visiva degli umani renderizzati. Per le valutazioni quantitative, hanno utilizzato metriche come il rapporto segnale-rumore di picco e la somiglianza strutturale.
I risultati hanno mostrato che i nuovi metodi hanno superato significativamente le tecniche esistenti. Per i casi con occlusioni simulate, il nuovo approccio poteva rendere una geometria più completa e produrre meno effetti indesiderati. Nelle situazioni reali, i nuovi metodi hanno dimostrato anche un miglior dettaglio e qualità complessiva, anche quando molte parti del corpo erano nascoste.
Attraverso la valutazione di diversi aspetti del processo di rendering, i ricercatori hanno scoperto che le nuove tecniche non solo migliorano le aree visibili del modello umano, ma forniscono anche soluzioni per riempire le parti occluse. Il loro approccio ha utilizzato informazioni sulla superficie del corpo umano e sui modelli di Visibilità per creare un quadro più completo.
Questa ricerca dimostra il potenziale di queste nuove tecniche di rendering per far avanzare il campo della modellazione 3D umana. I risultati mostrano che è possibile creare renderizzazioni più realistiche degli umani in condizioni difficili, come quando parti del corpo sono bloccate dalla vista.
Tenendo conto dell'importanza sia della geometria che della visibilità del corpo, questi nuovi metodi aprono la strada a migliori risultati di rendering in vari settori, dall'intrattenimento ad applicazioni reali come realtà virtuale o robotica.
Inoltre, c'è molta strada da fare per ulteriori indagini. Anche se i nuovi metodi si sono dimostrati efficaci, ci sono ancora alcune sfide, come artefatti sottili che possono verificarsi a causa della minore disponibilità di dati di addestramento dalle aree occluse. I lavori futuri potrebbero concentrarsi sul perfezionare le metodologie per minimizzare questi problemi e migliorare ulteriormente il processo di rendering.
In generale, questo studio segna un passo avanti significativo nel rendering degli umani in varie condizioni e apre la strada a ulteriori miglioramenti nella tecnologia utilizzata per creare rappresentazioni realistiche del corpo umano usando una sola camera. Continuando a perfezionare questi metodi, i ricercatori sperano di spingere i confini di ciò che è realizzabile nel mondo della modellazione e del rendering 3D.
Titolo: Rendering Humans from Object-Occluded Monocular Videos
Estratto: 3D understanding and rendering of moving humans from monocular videos is a challenging task. Despite recent progress, the task remains difficult in real-world scenarios, where obstacles may block the camera view and cause partial occlusions in the captured videos. Existing methods cannot handle such defects due to two reasons. First, the standard rendering strategy relies on point-point mapping, which could lead to dramatic disparities between the visible and occluded areas of the body. Second, the naive direct regression approach does not consider any feasibility criteria (ie, prior information) for rendering under occlusions. To tackle the above drawbacks, we present OccNeRF, a neural rendering method that achieves better rendering of humans in severely occluded scenes. As direct solutions to the two drawbacks, we propose surface-based rendering by integrating geometry and visibility priors. We validate our method on both simulated and real-world occlusions and demonstrate our method's superiority.
Autori: Tiange Xiang, Adam Sun, Jiajun Wu, Ehsan Adeli, Li Fei-Fei
Ultimo aggiornamento: 2023-08-08 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2308.04622
Fonte PDF: https://arxiv.org/pdf/2308.04622
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.