Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Générer des scènes 3D à partir de vidéos 2D

Une nouvelle méthode crée des scènes 3D complexes à partir de vidéos simples avec plusieurs objets.

― 7 min lire


Génération de scènes 3D àGénération de scènes 3D àpartir de vidéosdynamiques.vidéos 2D en environnements 3DUne méthode innovante transforme des
Table des matières

Générer des scènes à partir de vidéos a plein d'applications, comme la robotique, la reconnaissance d'action, la création de contenu et la réalité augmentée. Ce travail parle d'une nouvelle méthode pour créer des scènes 3D à partir de vidéos 2D qui montrent plusieurs objets. Les méthodes précédentes se concentraient surtout sur des objets uniques ou des scènes plus simples. Notre méthode relève le défi de gérer des scènes complexes où plein d'objets bougent vite.

Le défi

Deux problèmes principaux apparaissent quand on essaie de générer des scènes dynamiques avec plusieurs objets à partir de vidéos :

  1. Les objets qui bougent vite mènent souvent à des erreurs dans le rendu.
  2. Les modèles existants fonctionnent mieux pour des objets individuels que pour des scènes entières, ce qui rend leur application directe sur des scènes complexes difficile.

Notre approche

On introduce une approche nouvelle qui décompose une scène vidéo en ses parties et les traite séparément avant de tout remettre ensemble. Cette méthode, appelée "décomposer-recomposer," nous permet de gérer le mouvement des objets plus efficacement. Notre stratégie consiste à comprendre trois types de mouvement pour chaque objet par rapport à la scène :

  1. Comment l'objet lui-même se déforme.
  2. Comment il bouge par rapport au monde.
  3. Comment la caméra bouge.

En séparant ces mouvements, on peut mieux estimer comment chaque objet interagit dans la scène.

Rendu des scènes

Notre technique permet de reconstruire précisément des objets 3D et leurs mouvements dans les vidéos. On démontre notre approche en utilisant des ensembles de données difficiles de DAVIS et Kubric, entre autres. Les résultats montrent qu'on peut générer des représentations 2D et 3D fiables de la scène.

Vue d'ensemble de la méthode

Pour créer ces scènes dynamiques à partir de vidéos, on doit d'abord suivre tous les objets dans la vidéo. On identifie et segmente chaque objet et l'arrière-plan. Ensuite, on récupère l'apparence des régions occultées (cachées), en s'assurant qu'aucune partie de la scène ne soit laissée de côté. Une fois qu'on a une représentation claire de tous les objets, on les convertit en un format 3D.

Suivi des objets et factorisation du mouvement

Suivre les objets en mouvement dans les vidéos est crucial pour générer des résultats précis. On utilise une technique appelée Gaussian Splatting, qui nous permet de représenter chaque objet comme un nuage de points. Chaque point est défini par sa position, sa taille, sa rotation et sa couleur.

Les mouvements individuels des objets sont ensuite analysés séparément, permettant une meilleure optimisation car chaque objet peut être géré selon son mouvement spécifique. En estimant le mouvement lié à la caméra ainsi qu'aux objets, on améliore notre capacité à générer des représentations 3D précises.

Séparation arrière-plan et objet

Pour séparer les objets de l'arrière-plan dans une vidéo, on utilise des techniques de suivi visuel. Cette méthode capture les objets individuels et remplit les lacunes où ils ont pu être occultés. En gérant efficacement les occultations, on maintient l'intégrité de l'apparence de l'objet.

Élévation d'objets 3D

Une fois les objets suivis, on vise à les élever dans un espace 3D. Pour chaque objet, on crée une représentation 3D basée sur son apparence dans la vidéo. On s'assure que ces représentations soient précises en les redimensionnant et en les alignant sur les images vidéo. Chaque objet obtient une représentation gaussienne distincte pour maintenir ses caractéristiques uniques.

Optimisation du mouvement

Après avoir élevé les objets en 3D, on se concentre sur l'optimisation de leur mouvement. Cela implique de comprendre leur déformation, comment ils se rapportent au cadre du monde et le mouvement de la caméra. En analysant ces trois composants séparément, on peut travailler avec eux plus efficacement. Chaque objet se voit attribuer un ensemble unique de paramètres de mouvement, permettant un suivi précis lorsqu'ils bougent dans la scène.

Incorporation de la physique dans le mouvement

Dans le monde réel, les objets suivent des règles physiques spécifiques. Par exemple, les objets conservent des tailles similaires entre les images. On incorpore ces principes physiques dans notre processus d’optimisation, ce qui aide à suivre le mouvement de chaque objet de manière plus réaliste. Cela aide aussi à éviter de grands changements soudains de taille ou de forme, qui peuvent sembler non naturels.

Estimation du mouvement de la caméra

En plus de suivre les objets, c’est crucial de comprendre comment la caméra bouge. On estime le mouvement de la caméra en utilisant des images d'arrière-plan et les positions des objets. C'est important pour créer une représentation 3D précise, car différents angles de caméra peuvent changer considérablement l'apparence des objets.

Estimation de la profondeur et composition de la scène

Pour composer la scène finale, on estime la profondeur de chaque objet et de l'arrière-plan. En utilisant un estimateur de profondeur, on s'assure que chaque objet est placé correctement dans la scène. Cette étape implique de calculer les positions relatives de tous les objets et de les aligner dans un cadre commun pour créer un environnement 3D cohérent.

Résultats expérimentaux

On a testé notre méthode en utilisant une variété d'ensembles de données difficiles comme DAVIS, Kubric, et quelques vidéos capturées soi-même. Les critères d'évaluation se concentrent sur la qualité des images rendues et la précision du suivi des mouvements en 3D. On a comparé nos résultats avec d'autres méthodes existantes et observé des améliorations significatives tant en qualité de rendu qu'en précision de mouvement.

Étude de préférence utilisateur

Pour évaluer la qualité de nos scènes générées, on a réalisé une étude de préférence utilisateur. Les participants ont comparé notre méthode avec des techniques existantes et ont donné leur avis sur lesquelles des scènes paraissaient plus réalistes. Les résultats ont montré une forte préférence pour notre approche, confirmant son efficacité.

Applications

Notre approche a plusieurs applications pratiques, surtout dans des domaines comme la robotique et la réalité augmentée. En générant des modèles 3D réalistes à partir de vidéos 2D simples, on permet aux robots de mieux comprendre leur environnement et d'effectuer des tâches plus efficacement. Dans le divertissement, notre méthode peut être utilisée pour créer des expériences immersives avec des scènes dynamiques.

Limites et travaux futurs

Bien que notre méthode montre des résultats prometteurs, certaines limites existent encore. Par exemple, des problèmes peuvent survenir lorsque les vidéos sont tournées sous des angles de caméra inhabituels. De plus, les scènes avec de fortes occultations peuvent mener à des artefacts dans les images rendues. On prévoit d'aborder ces limites en améliorant nos techniques et en explorant de nouvelles méthodes basées sur les données pour la génération de scènes.

Conclusion

On a développé une nouvelle façon de générer des scènes 3D dynamiques à partir de vidéos monoculaires avec plusieurs objets. Notre méthode sépare et recompose efficacement les éléments vidéo en utilisant une approche novatrice qui améliore le rendu du mouvement et la stabilité dans des scènes complexes. En abordant les défis existants dans la génération vidéo-4D, on a posé les bases pour de futures recherches et applications dans la vision par ordinateur et des domaines connexes.

Source originale

Titre: DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos

Résumé: View-predictive generative models provide strong priors for lifting object-centric images and videos into 3D and 4D through rendering and score distillation objectives. A question then remains: what about lifting complete multi-object dynamic scenes? There are two challenges in this direction: First, rendering error gradients are often insufficient to recover fast object motion, and second, view predictive generative models work much better for objects than whole scenes, so, score distillation objectives cannot currently be applied at the scene level directly. We present DreamScene4D, the first approach to generate 3D dynamic scenes of multiple objects from monocular videos via 360-degree novel view synthesis. Our key insight is a "decompose-recompose" approach that factorizes the video scene into the background and object tracks, while also factorizing object motion into 3 components: object-centric deformation, object-to-world-frame transformation, and camera motion. Such decomposition permits rendering error gradients and object view-predictive models to recover object 3D completions and deformations while bounding box tracks guide the large object movements in the scene. We show extensive results on challenging DAVIS, Kubric, and self-captured videos with quantitative comparisons and a user preference study. Besides 4D scene generation, DreamScene4D obtains accurate 2D persistent point track by projecting the inferred 3D trajectories to 2D. We will release our code and hope our work will stimulate more research on fine-grained 4D understanding from videos.

Auteurs: Wen-Hsuan Chu, Lei Ke, Katerina Fragkiadaki

Dernière mise à jour: 2024-05-23 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.02280

Source PDF: https://arxiv.org/pdf/2405.02280

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires