Révolutionner la récupération de mailles humaines : l'avenir des modèles 3D
GenHMR transforme la façon dont on crée des modèles humains 3D à partir d'images.
Muhammad Usama Saleem, Ekkasit Pinyoanuntapong, Pu Wang, Hongfei Xue, Srijan Das, Chen Chen
― 6 min lire
Table des matières
La récupération de maillage humain (HMR) est un truc super important en vision par ordinateur, ça aide les machines à comprendre et à recréer à quoi ressemblent les humains en 3D. C'est crucial pour plein de domaines comme la santé, le cinéma, les jeux vidéo et même l'interaction humain-machine. Tu t'es déjà demandé comment les jeux vidéo te font ressembler à un super héros alors que tu es juste affalé sur ton canapé ? C'est HMR en action !
Le Défi de HMR
Un des plus gros défis en HMR, c'est que la plupart des méthodes essaient de deviner à quoi ressemble une personne juste avec une seule photo. Imagine quelqu'un qui essaie de dessiner un humain, mais qui ne peut voir qu'un profil. Ils pourraient avoir les cheveux et la chemise corrects, mais ils pourraient totalement rater le dos, oubliant que la personne a une queue de cheval !
Quand on récupère un Modèle 3D à partir d'une seule image, c'est compliqué parce que la profondeur de la scène peut être déroutante. Des gens peuvent avoir l'air super similaires de face, mais quand tu les retournes, ils peuvent paraître complètement différents. C'est ce qu'on appelle l'ambiguïté de profondeur. En plus, parfois des parties du corps peuvent être cachées par d'autres objets ou personnes, rendant encore plus difficile de deviner ce qui est derrière. C'est un peu comme essayer de jouer à cache-cache avec une statue.
Méthodes Traditionnelles de HMR
La plupart des méthodes en HMR se divisent en deux catégories : méthodes déterministes et probabilistes.
-
Méthodes Déterministes : Ces méthodes essaient de donner une réponse solide pour à quoi ressemble le modèle 3D. Pense à eux comme des personnes qui disent, "C'est ça !" après avoir regardé l'image 2D. Le souci, c'est qu'ils oublient souvent qu'il peut y avoir d'autres possibilités. Du coup, ils peuvent être un peu limités quand l'image a une confusion de profondeur.
-
Méthodes Probabilistes : Ce sont les versions plus décontractées qui sont ouvertes aux possibilités. Ces méthodes prennent en compte qu'il peut y avoir plusieurs façons d'interpréter la même image. Elles génèrent plusieurs options mais ont du mal à combiner ces options en une seule réponse précise. C'est comme dire, "J'ai dix idées de ce à quoi pourrait ressembler ton dessin, mais je ne peux pas décider laquelle est la meilleure."
Malheureusement, aucune de ces méthodes n'est parfaite. Les modèles déterministes peuvent rater des vues cachées, tandis que les méthodes probabilistes peuvent créer le chaos avec trop d'options.
Voici GenHMR
Pour simplifier les choses en HMR, une nouvelle méthode appelée GenHMR est arrivée. Pense à elle comme le nouveau gamin à l'école qui remue tout mais a aussi une meilleure méthode pour faire ses devoirs. GenHMR fait quelques trucs astucieux pour améliorer la façon dont on récupère le maillage humain à partir des images.
Les Composants de GenHMR
GenHMR combine deux parties principales pour fonctionner :
-
Pose Tokenizer : C'est comme un traducteur qui transforme les poses humaines 3D en simples tokens, des morceaux d'infos faciles à traiter. C’est comme mettre une playlist de tes chansons préférées au lieu de rédiger les paroles de chacune. En faisant ça, le processus devient beaucoup plus facile à gérer et à analyser.
-
Image-Conditional Masked Transformer : Ce nom un peu frime désigne un système qui apprend comment ces tokens se rapportent à l'image. Pense à ça comme un pote intelligent qui t'aide à relier les points entre la playlist et la vraie fête. Ça utilise les infos de l'image pour combler les vides, découvrant comment les tokens fonctionnent ensemble.
Comment GenHMR Fonctionne
Quand le système est entraîné, il regarde plein d'images différentes pour essayer d'apprendre comment les humains sont constitués en 3D. C'est important parce que le modèle doit comprendre comment transformer une image plate en une image complète d'une personne.
Entraînement
Pendant la phase d'entraînement, GenHMR collecte des informations provenant d'un grand nombre d'images pour apprendre plein de poses et de gestes humains. Il utilise des morceaux d'infos aléatoires, qui sont masqués, pour apprendre à mieux deviner. C'est un peu comme étudier pour un exam en cachant les réponses et en essayant de te les rappeler.
Processus d'Inférence
Une fois entraîné, GenHMR entre en action. Voilà comment ça marche :
-
Échantillonnage Guidé par l'Incertitude : C'est là où GenHMR brille. Au lieu de donner une réponse unique tout de suite, il commence par beaucoup de suppositions. Il échantillonne quelques poses possibles et choisit celles sur lesquelles il se sent le plus confiant. Chaque fois, il essaie de rendre ses devinettes meilleures, un peu comme un gamin qui passe des tests pratiques avant le vrai.
-
Affinage Guidé par la Pose 2D : Après les premières suppositions, GenHMR vérifie les poses par rapport aux infos 2D de l'image originale. C'est le moment où il revient en arrière et fait des ajustements pour aligner le modèle 3D plus étroitement avec ce qu'on a vu dans l'image. C'est un peu comme corriger un dessin avec une gomme après avoir regardé de près le sujet à nouveau.
Résultats
À travers divers tests, GenHMR a montré qu'il performe mieux que les anciennes méthodes, avec moins d'erreurs et de meilleures reconstructions 3D. Il peut même gérer des images avec des poses complexes ou où les gens sont partiellement cachés. Un vrai petit génie !
Où est Utilisé HMR ?
HMR a diverses applications, incluant :
- Jeux Vidéo : Créer des personnages plus réalistes avec lesquels les joueurs peuvent interagir. Imagine pouvoir créer un avatar qui te ressemble vraiment !
- Films et Animation : Aider les réalisateurs à créer facilement des personnages numériques sans avoir besoin de toute une équipe CGI pour chaque scène.
- Sport : Analyser les mouvements des athlètes pour améliorer l'entraînement de performance. Les coachs pourraient obtenir des insights super cool pour aider leurs équipes !
- Santé : Aider en thérapie physique en analysant les mouvements pour faciliter la récupération.
Conclusion
Même si HMR est un domaine complexe avec plein de défis, des méthodes comme GenHMR offrent des possibilités excitantes en abordant la confusion de profondeur et les occlusions. C'est comme ajouter des paillettes à un gâteau – ça rend juste tout beaucoup mieux ! Qui aurait cru que transformer une image plate en un modèle 3D pourrait être une aventure si originale ? À mesure que la technologie évolue, on peut s'attendre à encore plus d'améliorations dans la façon dont on capture et représente la forme humaine. Maintenant, ça, c'est quelque chose à célébrer !
Source originale
Titre: GenHMR: Generative Human Mesh Recovery
Résumé: Human mesh recovery (HMR) is crucial in many computer vision applications; from health to arts and entertainment. HMR from monocular images has predominantly been addressed by deterministic methods that output a single prediction for a given 2D image. However, HMR from a single image is an ill-posed problem due to depth ambiguity and occlusions. Probabilistic methods have attempted to address this by generating and fusing multiple plausible 3D reconstructions, but their performance has often lagged behind deterministic approaches. In this paper, we introduce GenHMR, a novel generative framework that reformulates monocular HMR as an image-conditioned generative task, explicitly modeling and mitigating uncertainties in the 2D-to-3D mapping process. GenHMR comprises two key components: (1) a pose tokenizer to convert 3D human poses into a sequence of discrete tokens in a latent space, and (2) an image-conditional masked transformer to learn the probabilistic distributions of the pose tokens, conditioned on the input image prompt along with randomly masked token sequence. During inference, the model samples from the learned conditional distribution to iteratively decode high-confidence pose tokens, thereby reducing 3D reconstruction uncertainties. To further refine the reconstruction, a 2D pose-guided refinement technique is proposed to directly fine-tune the decoded pose tokens in the latent space, which forces the projected 3D body mesh to align with the 2D pose clues. Experiments on benchmark datasets demonstrate that GenHMR significantly outperforms state-of-the-art methods. Project website can be found at https://m-usamasaleem.github.io/publication/GenHMR/GenHMR.html
Auteurs: Muhammad Usama Saleem, Ekkasit Pinyoanuntapong, Pu Wang, Hongfei Xue, Srijan Das, Chen Chen
Dernière mise à jour: 2024-12-18 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2412.14444
Source PDF: https://arxiv.org/pdf/2412.14444
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://m-usamasaleem.github.io/publication/GenHMR/GenHMR.html
- https://aaai.org/example/code
- https://aaai.org/example/datasets
- https://aaai.org/example/extended-version
- https://aaai.org/example/guidelines
- https://aaai.org/example
- https://www.ams.org/tex/type1-fonts.html
- https://titlecaseconverter.com/
- https://aaai.org/ojs/index.php/aimagazine/about/submissions#authorGuidelines
- https://anonymous-ai-model.github.io/GenHMR/