Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancer la modélisation 3D à partir de vidéos

Une nouvelle méthode fournit des modèles 3D détaillés à partir de vidéos rapidement et efficacement.

― 8 min lire


Techniques deTechniques demodélisation 3D denouvelle générationvidéo.modélisation 3D à partir de séquencesUne nouvelle méthode révolutionne la
Table des matières

Reconstituer un Modèle 3D d'une personne à partir de vidéos, c'est pas de la tarte. Y a plein de défis, comme la façon dont les vêtements s'ajustent, les parties du corps qui peuvent être cachées, les changements de position soudains et les différentes textures à la surface. Beaucoup de méthodes actuelles utilisent des techniques avancées pour représenter les gens, mais ces approches galèrent souvent avec les complications liées aux vêtements et autres détails.

Dans cet article, on vous propose une nouvelle façon de créer un modèle 3D détaillé d'une personne juste avec des vidéos, des silhouettes simples et quelques points de référence. Notre processus accélère le temps de création de ces modèles et permet de capturer des détails bien mieux que les anciennes méthodes.

Défis de la Reconstruction 3D

Faire un modèle 3D d'une personne à partir d'une vidéo, c'est compliqué. Les problèmes principaux incluent :

  1. Vêtements : Les différents types de vêtements peuvent avoir des apparences super variées selon comment ça s'ajuste et bouge. Les vêtements amples, les jupes et les designs complexes peuvent être vraiment galères à modéliser avec précision.

  2. Occlusion : Parfois, des parties du corps sont cachées de la vue de la caméra. Par exemple, quand un bras passe devant un autre, ça peut foutre le bazar dans la construction du modèle 3D.

  3. Changements de Texture : La peau, les cheveux et les vêtements ont tous des textures différentes qu'il faut capturer pour créer un modèle réaliste.

  4. Changements de Pose : Les gens bougent dans les vidéos, et leur corps peut changer de position rapidement. Capturer ces changements est crucial pour l'exactitude.

Les Limites des Méthodes Actuelles

Pas mal de techniques dépendent de scans détaillés qui peuvent donner des résultats de haute qualité. Cependant, ces scans sont souvent chers et pas pratiques pour un usage quotidien. Certains systèmes récents de vision par ordinateur peuvent créer des modèles à partir de photos ou vidéos standards, mais ils s'appuient souvent sur un seul point de vue, ce qui rend difficile d'avoir une vue complète de la structure 3D.

Même en utilisant plusieurs caméras ou de la vidéo à 360 degrés, il faut souvent beaucoup de puissance de traitement pour combiner toutes les images en un seul modèle cohérent. Ça peut rendre le processus lent et compliqué.

Notre Approche

On introduit une nouvelle façon de créer des modèles 3D détaillés qui peuvent s'adapter à différents mouvements et styles juste avec des vidéos. En utilisant un modèle 3D simple appelé SMPL+D et en le combinant avec des méthodes de représentation de texture intelligentes, on peut obtenir des résultats rapides et clairs.

Points Clés de Notre Méthode

  • Vitesse : Notre approche réduit considérablement le temps de création des modèles 3D, permettant de générer des modèles détaillés en moins d'une heure, contre plusieurs jours pour les méthodes traditionnelles.
  • Efficacité : Le système est conçu pour bien fonctionner sur du matériel standard de consommation, le rendant accessible à plus de monde.
  • Détail : On capture des formes et textures compliquées dans les vêtements et les cheveux, permettant d'avoir des modèles réalistes et personnalisés.

Comparaison avec les Techniques Précédentes

Certaines méthodes sont récemment devenues populaires pour créer des modèles humains 3D. Elles incluent diverses techniques avancées, mais elles ont aussi leurs limites. La plupart de ces méthodes peuvent être lentes et nécessitent beaucoup de puissance informatique. Notre technique les surpasse en vitesse et en efficacité tout en maintenant la qualité visuelle nécessaire pour des représentations 3D réalistes.

Forces des Méthodes Basées sur les Maillages

Les méthodes basées sur les maillages, comme la nôtre, se concentrent sur l'utilisation d'une structure définie pour capturer les détails sans avoir besoin de beaucoup de puissance de calcul. C'est particulièrement bénéfique lorsqu'on travaille avec différents points de vue, où le maillage peut aider à combler les lacunes laissées par les méthodes traditionnelles.

Décomposition Technique

Dans notre méthodologie, on utilise :

  1. Images RGB : Ce sont des images standards prises à partir des vidéos. Elles fournissent les détails de base pour la texture et la couleur.

  2. Silhouettes : En extrayant le contour d'une personne dans la vidéo, on peut mieux comprendre la forme générale et la position du corps.

  3. Points Clés 2D : Ce sont des points cruciaux sur le corps, comme la position des coudes et des genoux. Ils aident à guider la forme du modèle.

Optimisation

On combine ces éléments dans un problème d'optimisation. L'objectif est d'ajuster notre modèle 3D pour qu'il corresponde étroitement à ce qui est observé dans la vidéo tout en s'assurant que tous les détails s'alignent. Ça nous permet de produire une représentation 3D très détaillée et précise.

Aspects Uniques de Notre Méthode

On propose une nouvelle façon de voir les méthodes traditionnelles en se concentrant sur l'optimisation d'un modèle maillé. Voici quelques aspects uniques :

  1. Optimisation en Deux Étapes : Notre processus utilise une approche à deux étapes. D'abord, on se concentre sur l'alignement de la forme globale basé sur la couleur de base. Ensuite, on affine la texture séparément pour garantir le meilleur match.

  2. Texturation Multi-Résolution : En utilisant une méthode de texturation intelligente, on peut capturer efficacement les détails fins. Ça fait qu'on ne gaspille pas de ressources sur des zones qui n'ont pas besoin d'une haute résolution.

  3. Rendu Différenciable Souple : Cette technique nous permet de prendre en compte les parties du corps occluses pour ajuster comment le rendu apparaît. C'est crucial pour gérer les poses où des parties du corps peuvent être cachées.

Résultats et Conclusions

On a testé notre méthode contre d'autres techniques et on a trouvé qu'elle fonctionne plutôt bien.

Critères d'Évaluation

On s'est concentré sur plusieurs domaines clés :

  • Synthèse de Nouvelles Vues : Ça fait référence à la capacité de créer de nouvelles vues de la personne qui n'étaient pas présentes dans la vidéo originale. Notre méthode excelle là-dessus.

  • Vitesse d'Entraînement et d'Inférence : Notre méthode est beaucoup plus rapide que les autres, permettant des ajustements et des rendus rapides.

  • Qualité de la Reconstruction Géométrique : L'exactitude de la forme produite est significativement plus élevée par rapport aux anciennes méthodes.

Performance Comparée à D'autres Méthodes

Quand on les met côte à côte avec des méthodes populaires, notre approche a montré qu'elle surpasse les autres en vitesse et qualité. Elle capture avec succès des détails complexes comme des vêtements amples et des textures, qui ont posé problème à d'autres.

Applications de Notre Méthode

La capacité de créer des modèles humains 3D précis et détaillés a de nombreuses applications possibles dans divers domaines :

  • Téléconférence : Créer des avatars personnalisés utilisables pendant les appels vidéo.

  • Divertissement : Créer des personnages réalistes pour des films ou des jeux vidéo basés sur de vraies personnes.

  • Surveillance : Améliorer la précision du suivi humain dans les vidéos de sécurité.

  • Génération de Données Synthétiques : Produire des données d'entraînement pour d'autres systèmes d'IA sans avoir besoin de temps d'enregistrement supplémentaire.

Conclusion

Les méthodes traditionnelles de création de modèles humains 3D à partir de vidéos se heurtent souvent à des obstacles majeurs en termes de vitesse, d'efficacité et de précision. Notre nouvelle approche prend un chemin différent en se concentrant sur la combinaison d'un modèle maillé simple avec des techniques intelligentes pour produire des représentations détaillées et réalistes.

Grâce à des améliorations significatives en termes de vitesse et de capture de détails, on propose une alternative valable aux méthodes existantes. Cette technologie ouvre de nouvelles possibilités dans divers domaines, rendant plus facile la création de modèles 3D personnalisés pour n'importe quel cas d'utilisation. L'avenir de la reconstruction 3D s'annonce prometteur avec cette nouvelle approche, repoussant les limites de ce qui est possible pour créer des avatars humains à partir de vidéos standards.

Source originale

Titre: Mesh Strikes Back: Fast and Efficient Human Reconstruction from RGB videos

Résumé: Human reconstruction and synthesis from monocular RGB videos is a challenging problem due to clothing, occlusion, texture discontinuities and sharpness, and framespecific pose changes. Many methods employ deferred rendering, NeRFs and implicit methods to represent clothed humans, on the premise that mesh-based representations cannot capture complex clothing and textures from RGB, silhouettes, and keypoints alone. We provide a counter viewpoint to this fundamental premise by optimizing a SMPL+D mesh and an efficient, multi-resolution texture representation using only RGB images, binary silhouettes and sparse 2D keypoints. Experimental results demonstrate that our approach is more capable of capturing geometric details compared to visual hull, mesh-based methods. We show competitive novel view synthesis and improvements in novel pose synthesis compared to NeRF-based methods, which introduce noticeable, unwanted artifacts. By restricting the solution space to the SMPL+D model combined with differentiable rendering, we obtain dramatic speedups in compute, training times (up to 24x) and inference times (up to 192x). Our method therefore can be used as is or as a fast initialization to NeRF-based methods.

Auteurs: Rohit Jena, Pratik Chaudhari, James Gee, Ganesh Iyer, Siddharth Choudhary, Brandon M. Smith

Dernière mise à jour: 2023-03-15 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.08808

Source PDF: https://arxiv.org/pdf/2303.08808

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires