Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Reconstruire des scènes dynamiques avec DySurf

Une nouvelle méthode pour créer des reconstructions dynamiques réalistes de scènes à partir de vidéos multi-vues.

― 7 min lire


DySurf : Innovation deDySurf : Innovation descène dynamiquenovatrices.scènes dynamiques avec des techniquesFaire avancer la reconstruction de
Table des matières

Reconstituer des scènes en mouvement, c'est super important pour plein de domaines comme les graphismes et la vision par ordinateur. Les méthodes récentes utilisent de nouvelles technos pour créer des images réalistes à partir de vidéos de Scènes Dynamiques. Par contre, ces méthodes galèrent parfois à capturer la vraie forme des objets. Pour améliorer ça, on présente une nouvelle approche qui permet de créer des formes et des apparences à partir de vidéos sans se baser sur des modèles de forme préexistants.

Contexte

Dans le monde de la vision par ordinateur, de nouvelles techniques ont émergé pour représenter les scènes via des réseaux neuronaux. Le champ de radiance neurale (NeRF) est une méthode qui montre comment représenter une scène en encodant sa géométrie et son apparence. Ça permet de créer des vues réalistes sous différents angles. Par contre, le NeRF original était prévu pour des scènes statiques, et les méthodes ultérieures qui se concentrent sur les scènes dynamiques ont souvent du mal à capturer la géométrie avec précision.

Certaines méthodes utilisent la fonction de distance signée (SDF) pour représenter les surfaces, ce qui gère mieux la géométrie. Cependant, ces approches traitent principalement des scènes statiques. D'autres recherches ont regardé l'utilisation de modèles corporels articulés pour les humains dynamiques, mais ces méthodes requièrent des modèles spécifiques qui limitent leur utilisation dans des situations plus larges.

Méthode Proposée

Pour résoudre ces défis, on introduit DySurf, une nouvelle méthode pour reconstruire des scènes dynamiques à partir de plusieurs vues vidéo sans avoir besoin de connaissances spécifiques sur les formes. DySurf associe des points de vues de caméra à un espace canonique, permettant au modèle de suivre les changements au fil du temps. C'est crucial pour gérer les changements complexes de formes qui se produisent dans les scènes en mouvement.

Pour le rendu, on utilise une combinaison de réseaux neuronaux pour représenter la forme de surface et l'apparence de manière à produire des images claires et réalistes. Une innovation majeure dans notre approche est une nouvelle stratégie pour sélectionner les pixels à privilégier durant le processus d'optimisation, surtout dans les zones où le mouvement est dynamique.

Entrée et Données

Notre méthode prend en entrée des vidéos multi-vues qui incluent divers cadres et angles de vue de la scène. Ça comprend des images et des masques de segmentation qui aident à différencier les objets et l'arrière-plan. Les réglages de la caméra, qui sont essentiels pour un rendu précis, sont aussi fournis et nécessitent généralement un processus de calibration.

Le but est de créer une représentation cohérente de la scène dynamique au fil du temps, nous permettant de récupérer des formes de haute qualité et de produire des images réalistes sous de nouveaux angles de vue.

Représentation de Surface

Dans notre méthode, on introduit un champ de déformation qui relie les observations capturées par les caméras à un espace de base où on peut explorer la géométrie et l'apparence sous-jacentes. On utilise un réseau spécialisé qui permet une représentation flexible des différentes formes dans une scène dynamique.

On utilise une SDF neurale pour modéliser les formes de surface, ce qui aide à générer des normales plus claires pour la surface. Ça, à son tour, aide à distinguer la géométrie et l'apparence de manière efficace. Pour le rendu, on suit des méthodes spécifiques pour convertir les valeurs SDF en densité, permettant une intégration précise du volume.

Stratégie de Sélection de Rayons

Les méthodes traditionnelles échantillonnent souvent les pixels de manière uniforme sur toute l'image pour l'entraînement, ce qui peut mener à de mauvais résultats puisque beaucoup de l'arrière-plan ne contribue pas à la reconstruction finale. Pour y remédier, on a développé une nouvelle stratégie de sélection de rayons basée sur des masques qui mettent en évidence les zones d'intérêt.

La stratégie consiste à créer une carte de probabilité qui guide notre échantillonnage de pixels afin de se concentrer sur des zones significatives, surtout là où il y a du mouvement. Ça améliore le processus d'optimisation pour les régions dynamiques de premier plan tout en s'occupant bien de l'arrière-plan.

Fonction de Perte

Pendant l'entraînement, on cherche à minimiser les différences entre les couleurs rendues par notre modèle et les couleurs réelles des images. On applique aussi des fonctions de perte supplémentaires pour superviser la géométrie et régulariser le comportement du modèle afin d'assurer de meilleures performances pendant le processus de reconstruction.

Configuration Expérimentale

Nos expériences se déroulent sur deux ensembles de données contenant une variété de sujets montrant différents mouvements et poses. Les ensembles de données incluent des captures vidéo de plusieurs caméras en haute résolution. Après le processus d'entraînement, on extrait des modèles de surface pour représenter les scènes reconstruites.

Résultats et Comparaisons

On a réalisé des comparaisons qualitatives pour évaluer la performance de notre méthode par rapport aux techniques existantes. Notre méthode gère efficacement les mouvements complexes, préservant les formes et les détails des objets, tandis que les méthodes précédentes avaient du mal à reconstruire ces détails avec précision.

Lors de la génération d'images à partir de points de vue non inclus dans les données d'entraînement, notre méthode a produit des images avec moins d'artefacts. On a évalué la qualité du rendu en utilisant des métriques spécifiques pour comparer nos résultats avec ceux produits par d'autres techniques.

Conclusion

Dans cette étude, on a introduit DySurf, une nouvelle approche pour reconstruire des scènes dynamiques à partir de vidéos multi-vues en utilisant des représentations implicites neuronales. Notre méthode capte efficacement les formes et les apparences sans avoir besoin de connaissances préalables sur les scènes impliquées. En utilisant un champ de déformation et en concentrant notre optimisation sur les zones dynamiques, on améliore considérablement la qualité des reconstructions de surface et le réalisme des images générées. Nos expériences montrent que DySurf surpasse les méthodes existantes, établissant ainsi un outil robuste et efficace pour la reconstruction de scènes dynamiques.

Travaux Futurs

En regardant vers l'avenir, on prévoit d'élargir l'application de notre méthode à des scènes encore plus complexes et différents types d'objets. On s'intéresse aussi à explorer différentes architectures pour les réseaux neuronaux impliqués et à optimiser davantage le processus de sélection des rayons. L'objectif ultime est de rendre notre approche adaptable à un plus large éventail de scénarios, en améliorant la robustesse et la précision de la reconstruction de scènes dynamiques.

Source originale

Titre: Dynamic Multi-View Scene Reconstruction Using Neural Implicit Surface

Résumé: Reconstructing general dynamic scenes is important for many computer vision and graphics applications. Recent works represent the dynamic scene with neural radiance fields for photorealistic view synthesis, while their surface geometry is under-constrained and noisy. Other works introduce surface constraints to the implicit neural representation to disentangle the ambiguity of geometry and appearance field for static scene reconstruction. To bridge the gap between rendering dynamic scenes and recovering static surface geometry, we propose a template-free method to reconstruct surface geometry and appearance using neural implicit representations from multi-view videos. We leverage topology-aware deformation and the signed distance field to learn complex dynamic surfaces via differentiable volume rendering without scene-specific prior knowledge like template models. Furthermore, we propose a novel mask-based ray selection strategy to significantly boost the optimization on challenging time-varying regions. Experiments on different multi-view video datasets demonstrate that our method achieves high-fidelity surface reconstruction as well as photorealistic novel view synthesis.

Auteurs: Decai Chen, Haofei Lu, Ingo Feldmann, Oliver Schreer, Peter Eisert

Dernière mise à jour: 2023-02-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.00050

Source PDF: https://arxiv.org/pdf/2303.00050

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires