Avancées dans le rendu de humains 3D à partir de vidéos
Nouvelle approche améliore la modélisation 3D humaine dans des scènes occluses.
― 7 min lire
Table des matières
Rendre des humains en 3D à partir de vidéos, c'est vraiment un gros challenge, surtout quand certaines parties de la personne sont cachées par d'autres objets. Ça arrive souvent dans la vraie vie, comme quand quelqu'un marche dans un endroit bondé. La plupart des méthodes qui visent à créer ces modèles 3D demandent que la personne soit complètement visible pendant toute la vidéo. C'est problématique quand des gens sont occultés, ou bloqués, par autre chose.
Pour régler ce souci, des chercheurs ont développé une méthode qui combine le 3D Gaussian splatting et les modèles de diffusion 2D. Cette méthode aide à faire de meilleurs rendus d'humains qui ne sont que partiellement visibles. La nouvelle approche surpasse les anciennes méthodes en termes de qualité et de rapidité, offrant des images plus claires et complètes sans artefacts indésirables.
Problèmes avec les Méthodes Actuelles
La plupart des méthodes existantes se concentrent sur la reconstruction des humains uniquement quand ils sont clairement visibles. Elles négligent souvent les difficultés qui surviennent dans des situations réelles où les occultations sont fréquentes. Quand des gens sont bloqués, ces méthodes produisent des images mal rendues avec des parties du corps incomplètes et des trucs flottants bizarres qui n'ont rien à faire là. D'autres méthodes qui essaient de gérer les humains occultés demandent souvent beaucoup de puissance de calcul, ce qui les rend lentes et impraticables. Ça limite leur utilisation dans des applications de tous les jours.
La méthode récemment proposée combine le 3D Gaussian splatting avec des modèles de diffusion 2D pour améliorer le rendu des humains occultés. Ça donne des images de meilleure qualité avec plus d'efficacité, ce qui la rend adaptée aux applications réelles.
Comment la Nouvelle Méthode Fonctionne
La méthode se divise en trois étapes principales : Initialisation, Optimisation et Affinage.
Étape d'Initialisation : Dans la première étape, les chercheurs créent des masques complets pour les humains à partir des données de visibilité partielle disponibles en utilisant des connaissances préalables sur la pose de l'humain. Ces masques aident à guider les prochaines étapes du processus.
Étape d'Optimisation : Dans la deuxième étape, ils optimisent les modèles 3D des humains en se basant sur ce qui est vu dans les images. Cela implique d'utiliser une technique appelée Score-Distillation Sampling (SDS) pour s'assurer que les modèles comprennent toutes les parties du corps, même si elles ne sont pas complètement visibles dans chaque image.
Étape d'Affinage : Dans la dernière étape, ils utilisent le contexte des rendus précédents pour remplir les zones manquantes de l'humain. Ça aide à améliorer la qualité globale des rendus, surtout dans les zones qui étaient moins visibles.
Bien que chaque étape soit assez complexe, l'ensemble du processus peut être entraîné en environ 10 minutes sur un GPU classique. Ça veut dire qu'on peut l'utiliser rapidement et efficacement sans trop de temps d'attente.
Importance de la Méthode
Rendre des humains en 3D de manière précise a une grande valeur dans de nombreux domaines. Par exemple, dans le domaine de la santé, ça peut être utilisé pour la télémédecine, permettant aux médecins de mieux visualiser et analyser les patients à distance. Dans les univers de la réalité virtuelle et augmentée, avoir des modèles 3D précis améliore l'expérience utilisateur. Les athlètes peuvent aussi bénéficier de cette technologie, car elle peut être utile dans l'analyse sportive, aidant les entraîneurs à améliorer les performances de leurs athlètes en donnant des retours visuels détaillés.
Travaux Connus dans le Rendu Humain
Avant cette nouvelle méthode, les façons traditionnelles de reconstruire les humains exigeaient souvent des configurations complexes avec plusieurs caméras ou des informations de profondeur spéciales. Ces méthodes n'étaient pas pratiques pour des vidéos capturées dans des environnements quotidiens. Certaines méthodes récentes ont commencé à utiliser des Neural Radiance Fields (NeRFs) pour créer des modèles 3D à partir de vidéos monoculaires. Bien qu'elles produisent des images de haute qualité, elles étaient gourmandes en calcul et prenaient beaucoup plus de temps à rendre.
Les méthodes basées sur les points, comme le 3D Gaussian splatting, ont émergé pour accélérer le processus de rendu. Ces techniques simplifient la représentation d'un humain, permettant un entraînement rapide et un rendu en temps réel. Cependant, beaucoup de ces approches peinaient avec les humains occultés, ce qui les rendait moins applicables dans des contextes réels.
Le Défi du Rendu des Humains Occultés
Rendre des humains occultés est un nouveau défi crucial. De nombreux travaux antérieurs ont essayé de séparer l'humain des obstacles sans grand succès à cause de leur lenteur et de leur inefficacité. D'autres méthodes, comme OccNeRF et Wild2Avatar, ont également cherché à s'attaquer à ce problème mais souffraient de fortes demandes computationnelles et de longs temps d'entraînement.
La nouvelle méthode se distingue parce qu'elle parvient à équilibrer qualité et efficacité, la rendant beaucoup plus applicable pour un usage courant. Elle simplifie intelligemment la représentation du modèle humain en utilisant des Gaussiens 3D tout en intégrant des modèles de diffusion pour améliorer la qualité des régions occultées.
Trois Étapes Clés Expliquées
Les trois étapes de la méthode sont essentielles pour garantir que le résultat final soit à la fois de haute qualité et complet.
Dans l'Étape d'Initialisation, l'information de segmentation et de pose est utilisée pour créer des masques d'occupation complets pour l'humain. Ça veut dire que même si certaines parties de l'humain ne sont pas visibles, le modèle peut quand même comprendre où ces parties devraient être.
L'Étape d'Optimisation vise à améliorer les modèles 3D Gaussian initiaux en les entraînant avec les informations recueillies lors de la première étape. Ça assure que le modèle humain est aussi précis que possible, même quand certaines parties sont cachées. Ça se fait en utilisant SDS pour imposer un modèle plus complet.
Enfin, l'Étape d'Affinage se concentre sur l'amélioration de l'apparence visuelle du modèle humain. Elle utilise les rendus des étapes précédentes comme références pour remplir les détails manquants, garantissant que l'image finale de l'humain soit fluide et cohérente à travers différentes images.
Évaluation et Résultats
La nouvelle méthode a été testée contre des techniques existantes de pointe dans des environnements simulés et des scénarios réels. Les résultats montrent qu'elle performe constamment mieux dans le rendu des humains occultés. Des métriques comme le Peak Signal-to-Noise Ratio (PSNR) et d'autres montrent que la méthode produit des images de meilleure qualité tout en étant plus rapide et plus efficace que les approches précédentes.
Directions Futures
Bien que la méthode soit un avancement significatif, des défis restent. Par exemple, générer un modèle humain 3D complet de manière cohérente à travers des poses dynamiques et des occultations variables peut être difficile. Les chercheurs espèrent développer de meilleurs modèles à l'avenir qui pourraient aborder ces problèmes plus en profondeur.
Les possibilités d'amélioration sont énormes, et ces développements pourraient mener à des applications encore plus robustes dans divers secteurs. Cette technologie pourrait potentiellement changer notre approche dans des domaines comme la santé, le divertissement et l'analyse sportive.
Conclusion
Cette nouvelle méthode pour rendre des humains occultés représente un progrès notable dans le domaine de la modélisation humaine en 3D. En combinant des techniques innovantes, elle obtient des résultats impressionnants autant en efficacité qu'en qualité d'image. À mesure que la technologie continue d'évoluer, d'autres avancées pourraient apporter encore plus de capacités pour capturer et rendre précisément les formes humaines, ouvrant la voie à des applications passionnantes dans de nombreux domaines de la vie.
Titre: OccFusion: Rendering Occluded Humans with Generative Diffusion Priors
Résumé: Most existing human rendering methods require every part of the human to be fully visible throughout the input video. However, this assumption does not hold in real-life settings where obstructions are common, resulting in only partial visibility of the human. Considering this, we present OccFusion, an approach that utilizes efficient 3D Gaussian splatting supervised by pretrained 2D diffusion models for efficient and high-fidelity human rendering. We propose a pipeline consisting of three stages. In the Initialization stage, complete human masks are generated from partial visibility masks. In the Optimization stage, 3D human Gaussians are optimized with additional supervision by Score-Distillation Sampling (SDS) to create a complete geometry of the human. Finally, in the Refinement stage, in-context inpainting is designed to further improve rendering quality on the less observed human body parts. We evaluate OccFusion on ZJU-MoCap and challenging OcMotion sequences and find that it achieves state-of-the-art performance in the rendering of occluded humans.
Auteurs: Adam Sun, Tiange Xiang, Scott Delp, Li Fei-Fei, Ehsan Adeli
Dernière mise à jour: 2024-06-29 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.00316
Source PDF: https://arxiv.org/pdf/2407.00316
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.