Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Generare scene 3D da video 2D

Un nuovo metodo crea scene 3D complesse da video semplici con più oggetti.

― 6 leggere min


Generazione di scene 3DGenerazione di scene 3Dda videoin ambienti 3D dinamici.Un metodo innovativo trasforma video 2D
Indice

Generare scene da video ha molte applicazioni, come robotica, riconoscimento di azioni, creazione di contenuti e realtà aumentata. Questo lavoro parla di un nuovo approccio per creare scene 3D da video 2D che mostrano più oggetti. I metodi precedenti si concentravano principalmente su oggetti singoli o scene più semplici. Il nostro metodo affronta la sfida di gestire scene complesse dove molti oggetti si muovono velocemente.

La Sfida

Ci sono due problemi principali quando si cerca di generare scene dinamiche con più oggetti da video:

  1. Gli oggetti che si muovono veloce spesso portano a errori di rendering.
  2. I modelli esistenti funzionano meglio per oggetti singoli che per scene intere, rendendo difficile applicarli direttamente a scene complesse.

Il Nostro Approccio

Presentiamo un approccio innovativo che scompone una scena video nei suoi elementi e li elabora separatamente prima di rimetterli insieme. Questo metodo, chiamato "decomporre-ricomporre", ci consente di gestire il movimento degli oggetti in modo più efficace. La nostra strategia coinvolge la comprensione di tre tipi di movimento per ogni oggetto in relazione alla scena:

  1. Come l'oggetto stesso si deforma.
  2. Come si muove rispetto al mondo.
  3. Come si muove la telecamera.

Separando questi movimenti, possiamo stimare meglio come ogni oggetto interagisce all'interno della scena.

Rendering delle Scene

La nostra tecnica consente ricostruzioni accurate di oggetti 3D e dei loro movimenti nei video. Dimostriamo il nostro approccio usando dataset difficili da DAVIS e Kubric, tra gli altri. I risultati mostrano che possiamo generare rappresentazioni affidabili in 2D e 3D della scena.

Panoramica del Metodo

Per creare queste scene dinamiche dai video, dobbiamo prima seguire tutti gli oggetti nel video. Identifichiamo e segmentiamo ogni oggetto e lo sfondo. Successivamente, recuperiamo l'aspetto delle aree occluse (nascoste), assicurandoci che nessuna parte della scena venga trascurata. Una volta che abbiamo una rappresentazione chiara di tutti gli oggetti, li convertiamo in un formato 3D.

Tracciamento degli Oggetti e Fattorizzazione del Movimento

Il tracciamento degli oggetti in movimento nei video è vitale per generare risultati precisi. Utilizziamo una tecnica chiamata Gaussian Splatting, che ci permette di rappresentare ogni oggetto come una nuvola di punti. Ogni punto è definito dalla sua posizione, dimensione, rotazione e colore.

I movimenti degli oggetti singoli vengono poi analizzati separatamente, permettendo una migliore ottimizzazione in quanto ogni oggetto può essere gestito in base al suo movimento specifico. Stimando il movimento relativo alla telecamera e agli oggetti, miglioriamo la nostra capacità di generare rappresentazioni 3D accurate.

Separazione dello Sfondo e degli Oggetti

Per separare gli oggetti dallo sfondo in un video, utilizziamo tecniche di tracciamento visivo. Questo metodo cattura gli oggetti singoli e riempie i vuoti dove potrebbero essere stati occlusi. Gestendo efficacemente le occlusioni, manteniamo l'integrità dell'aspetto dell'oggetto.

Sollevamento degli Oggetti 3D

Una volta tracciati gli oggetti, puntiamo a sollevarli in uno spazio 3D. Per ogni oggetto, creiamo una rappresentazione 3D basata sul suo aspetto nel video. Ci assicuriamo che queste rappresentazioni siano accurate riproponendole e allineandole ai fotogrammi del video. Ogni oggetto riceve una rappresentazione gaussiana separata per mantenere le proprie caratteristiche uniche.

Ottimizzazione del movimento

Dopo aver sollevato gli oggetti in 3D, ci concentriamo sull'ottimizzazione del loro movimento. Questo implica comprendere la loro deformazione, come si relazionano al fotogramma del mondo e il movimento della telecamera. Analizzando questi tre componenti separatamente, possiamo lavorare con loro in modo più efficiente. A ogni oggetto viene assegnato un insieme unico di parametri di movimento, permettendo un tracciamento preciso mentre si muovono nella scena.

Incorporazione della Fisica nel Movimento

Nel mondo reale, gli oggetti seguono specifiche regole fisiche. Ad esempio, gli oggetti mantengono dimensioni simili tra i fotogrammi. Incorporiamo questi principi fisici nel nostro processo di ottimizzazione, il che aiuta a tenere traccia del movimento di ogni oggetto in modo più realistico. Questo aiuta anche a evitare grandi cambiamenti improvvisi di dimensione o forma, che possono sembrare innaturali.

Stima del Movimento della Telecamera

Oltre a tracciare gli oggetti, è fondamentale capire come si muove la telecamera. Stimiamo il movimento della telecamera utilizzando immagini di sfondo e le posizioni degli oggetti. Questo è importante per creare una rappresentazione 3D accurata, poiché angoli di camera diversi possono cambiare notevolmente come appaiono gli oggetti.

Stima della profondità e Composizione della Scena

Per comporre la scena finale, stimiamo la profondità di ogni oggetto e dello sfondo. Utilizzando un estimatore di profondità, ci assicuriamo che ogni oggetto sia posizionato correttamente all'interno della scena. Questo passaggio implica calcolare le posizioni relative di tutti gli oggetti e allinearli all'interno di un framework comune per creare un ambiente 3D coeso.

Risultati Sperimentali

Abbiamo testato il nostro metodo usando una varietà di dataset difficili come DAVIS, Kubric e alcuni video catturati da noi. I criteri di valutazione si concentrano sulla qualità delle immagini renderizzate e sulla precisione del tracciamento del movimento 3D. Abbiamo confrontato i nostri risultati con altri metodi esistenti e osservato miglioramenti significativi sia nella qualità del rendering che nella precisione del movimento.

Studio di Preferenza degli Utenti

Per valutare la qualità delle nostre scene generate, abbiamo condotto uno studio di preferenza degli utenti. I partecipanti hanno confrontato il nostro metodo con tecniche esistenti e fornito feedback su quali scene sembravano più realistiche. I risultati hanno indicato una forte preferenza per il nostro approccio, confermando la sua efficacia.

Applicazioni

Il nostro approccio ha diverse applicazioni pratiche, specialmente in campi come la robotica e la realtà aumentata. Generando modelli 3D realistici da semplici video 2D, permettiamo ai robot di comprendere meglio il loro ambiente e svolgere compiti più efficacemente. Nell'intrattenimento, il nostro metodo può essere usato per creare esperienze immersive con scene dinamiche.

Limitazioni e Lavoro Futuro

Sebbene il nostro metodo mostri risultati promettenti, esistono comunque alcune limitazioni. Ad esempio, possono sorgere problemi quando i video sono girati da angolazioni di camera insolite. Inoltre, scene con forti occlusioni possono portare ad artefatti nelle immagini renderizzate. Pianifichiamo di affrontare queste limitazioni affinando le nostre tecniche ed esplorando nuovi metodi basati sui dati per la generazione di scene.

Conclusione

Abbiamo sviluppato un nuovo modo per generare scene 3D dinamiche da video monoculari con più oggetti. Il nostro metodo separa e ricompone efficacemente gli elementi video usando un approccio innovativo che migliora il rendering del movimento e la stabilità in scene complesse. Affrontando le sfide esistenti nella generazione video-to-4D, abbiamo posto le basi per future ricerche e applicazioni nella visione artificiale e nei campi correlati.

Fonte originale

Titolo: DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos

Estratto: View-predictive generative models provide strong priors for lifting object-centric images and videos into 3D and 4D through rendering and score distillation objectives. A question then remains: what about lifting complete multi-object dynamic scenes? There are two challenges in this direction: First, rendering error gradients are often insufficient to recover fast object motion, and second, view predictive generative models work much better for objects than whole scenes, so, score distillation objectives cannot currently be applied at the scene level directly. We present DreamScene4D, the first approach to generate 3D dynamic scenes of multiple objects from monocular videos via 360-degree novel view synthesis. Our key insight is a "decompose-recompose" approach that factorizes the video scene into the background and object tracks, while also factorizing object motion into 3 components: object-centric deformation, object-to-world-frame transformation, and camera motion. Such decomposition permits rendering error gradients and object view-predictive models to recover object 3D completions and deformations while bounding box tracks guide the large object movements in the scene. We show extensive results on challenging DAVIS, Kubric, and self-captured videos with quantitative comparisons and a user preference study. Besides 4D scene generation, DreamScene4D obtains accurate 2D persistent point track by projecting the inferred 3D trajectories to 2D. We will release our code and hope our work will stimulate more research on fine-grained 4D understanding from videos.

Autori: Wen-Hsuan Chu, Lei Ke, Katerina Fragkiadaki

Ultimo aggiornamento: 2024-05-23 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2405.02280

Fonte PDF: https://arxiv.org/pdf/2405.02280

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili