Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans la récupération de maillage humain 3D avec Diff-HMR

Une nouvelle méthode génère des maillages 3D humains variés à partir d'une seule image.

― 7 min lire


Innovation dans laInnovation dans larécupération de maillage3Dd'images uniques.maillages humains variés à partirUne nouvelle méthode génère des
Table des matières

La Récupération de maillage humain, c'est le fait de créer un modèle 3D d'une personne à partir d'une seule image 2D. Ce processus peut être compliqué à cause des multiples façons dont un corps humain peut apparaître sur une photo. Différentes poses, angles et obstructions rendent difficile de savoir comment une personne est réellement positionnée. Les méthodes traditionnelles se concentrent souvent sur une seule solution, ce qui peut ne pas capturer toutes les possibilités. Pour mieux gérer ce problème, une nouvelle approche appelée Récupération de Maillage Humain Basée sur la Diffusion (Diff-HMR) propose une nouvelle perspective. Cette méthode utilise une stratégie générative pour créer plusieurs maillages de corps humain possibles à partir d'une image donnée.

C'est quoi la Récupération de Maillage Humain Basée sur la Diffusion ?

Diff-HMR utilise un processus qui intègre du bruit pour aider à générer des résultats divers. Pendant l'entraînement, il apprend à prendre les bonnes données de maillage humain et à les transformer en une version avec du bruit aléatoire ajouté. Cela aide le modèle à comprendre comment inverser le processus pour trouver le bon maillage qui correspond à l'image qu'il analyse. Essentiellement, au lieu de produire un seul résultat, Diff-HMR est conçu pour fournir plusieurs maillages 3D humains possibles pour la même image.

Comment ça marche ?

La méthode fonctionne en deux phases principales : l'entraînement et l'inférence.

Phase d'entraînement

Dans la phase d'entraînement, le modèle reçoit de vraies données sur les poses humaines et y ajoute du bruit. Cela aide le modèle à apprendre à gérer le côté aléatoire des entrées qu'il rencontrera plus tard. En pratiquant ce processus, Diff-HMR comprend mieux à quoi peuvent ressembler diverses poses humaines.

Phase d'Inference

Une fois l'entraînement terminé, le modèle passe à la Phase d'inférence. Là, il commence avec un ensemble de paramètres aléatoires et les affine progressivement pour correspondre à la pose de la personne sur l'image donnée. En traitant les données, Diff-HMR génère plusieurs maillages potentiels, reflétant les différentes manières dont la personne pourrait se tenir ou bouger.

Caractéristiques Clés de Diff-HMR

Diff-HMR se démarque pour plusieurs raisons. D'abord, il reconnaît l'incertitude des poses humaines et offre plusieurs résultats plausibles au lieu d'une seule réponse. C'est particulièrement utile dans des domaines comme l'animation et le jeu vidéo, où les différentes positions de personnage peuvent rendre l'expérience plus dynamique.

De plus, Diff-HMR utilise une représentation des angles articulaires appelée rotations 6D qui améliorent sa capacité à maintenir un entraînement stable. Ce raffinement permet de mieux comprendre les poses modélisées et conduit à de meilleurs résultats en général.

Le Défi de l'Ambiguïté

Une des principales difficultés dans la récupération de maillage humain est que différentes images peuvent montrer la même pose de diverses manières à cause de la perspective et des obstructions. Par exemple, si une partie du corps est cachée ou hors de vue, il devient compliqué d'inférer avec précision toute la pose. Les méthodes traditionnelles Manquent souvent cet aspect important, menant à des modèles moins précis. En se concentrant sur plusieurs résultats plausibles, Diff-HMR aborde mieux ces défis, offrant une gamme de maillages qui pourraient correspondre à la même image.

Relation avec d'Autres Méthodes

Les méthodes de récupération de maillage humain peuvent généralement être classées en trois types : basées sur l'optimisation, basées sur la régression, et des approches hybrides.

  • Méthodes basées sur l'optimisation ajustent un modèle prédéfini pour minimiser les différences entre le maillage estimé et les preuves du monde réel comme les points clés.

  • Méthodes basées sur la régression utilisent des réseaux neuronaux pour inférer directement les paramètres du maillage humain à partir des images, visant des résultats plus rapides.

  • Approches hybrides combinent les deux stratégies pour créer une solution plus équilibrée et précise.

Malgré ces avancées, la plupart des méthodes existantes ont du mal à capturer l'incertitude inhérente aux poses, menant à des interprétations limitées. Diff-HMR se distingue en abordant directement cette ambiguïté à travers son cadre génératif.

Avantages d'Utiliser des Modèles de Diffusion Dénoyautés

Les modèles de diffusion dénoyautés sont des outils puissants pour modéliser des distributions de données. Ils fonctionnent en ajoutant du bruit aux observations et en apprenant ensuite comment retirer ce bruit pour récupérer les données originales. Cette capacité est essentielle pour gérer l'ambiguïté présente dans les poses humaines.

Diff-HMR utilise ces modèles pour générer des maillages humains divers, montrant le potentiel d'une compréhension plus large du mouvement et du positionnement humain. En intégrant cette approche dans le processus de récupération de maillage, il améliore la capacité de créer des poses humaines réalistes et variées à partir d'images uniques.

Résultats Expérimentaux

Pour valider l'efficacité de Diff-HMR, des tests ont été réalisés en comparant ses résultats avec des méthodes traditionnelles sur plusieurs ensembles de données. Les résultats ont montré que Diff-HMR produisait des résultats comparables, voire meilleurs en termes d'exactitude. L'utilisation des rotations 6D a également contribué positivement à la performance du modèle, offrant une approche plus équilibrée de la représentation des angles articulaires.

Résultats Quantitatifs

Dans les évaluations quantitatives, Diff-HMR a démontré ses forces dans la modélisation précise des ambiguïtés inhérentes aux poses humaines. À mesure que la variété des sorties échantillonnées augmentait, les erreurs dans les mesures diminuaient considérablement, indiquant un niveau de compétence plus élevé dans la production de plusieurs résultats plausibles.

Démonstrations Qualitatives

Dans l'analyse qualitative, des exemples visuels de reconstructions de maillage humain ont illustré comment Diff-HMR pouvait générer une gamme de maillages à partir de différentes entrées de bruit. Ces représentations visuelles ont confirmé la capacité du modèle à aborder la nature complexe du mouvement humain.

Directions Futures

Le travail sur Diff-HMR ouvre de nombreuses opportunités intéressantes pour des améliorations et des recherches futures. Un axe de travail pourrait être d'améliorer la compréhension par le modèle du contexte spatial des images qu'il traite. En affinant son module de conditionnement, il pourrait devenir encore meilleur pour générer des résultats plausibles dans des situations où des parties du corps peuvent être cachées ou obscurcies.

Une autre voie potentielle serait d'explorer comment ce cadre pourrait être étendu à des applications en temps réel, où une génération rapide et précise de maillage est nécessaire. Cela pourrait mener à des avancées dans la réalité virtuelle, le jeu vidéo, et même la production cinématographique, où un mouvement humain réaliste est essentiel.

Conclusion

En conclusion, la récupération de maillage humain est une tâche difficile qui bénéficie grandement d'innovations comme Diff-HMR. En adoptant une approche générative qui prend en compte l'incertitude des poses humaines, ce cadre propose une solution convaincante pour créer des maillages de corps humain 3D divers et précis à partir d'images 2D. Sa capacité à générer plusieurs résultats plausibles le distingue des méthodes traditionnelles, faisant de lui un développement passionnant dans le domaine de la vision par ordinateur et des graphiques. À mesure que la recherche continue, les possibilités d'améliorer et d'appliquer ces techniques sont prometteuses et pourraient mener à des avancées significatives dans diverses applications.

Source originale

Titre: Generative Approach for Probabilistic Human Mesh Recovery using Diffusion Models

Résumé: This work focuses on the problem of reconstructing a 3D human body mesh from a given 2D image. Despite the inherent ambiguity of the task of human mesh recovery, most existing works have adopted a method of regressing a single output. In contrast, we propose a generative approach framework, called "Diffusion-based Human Mesh Recovery (Diff-HMR)" that takes advantage of the denoising diffusion process to account for multiple plausible outcomes. During the training phase, the SMPL parameters are diffused from ground-truth parameters to random distribution, and Diff-HMR learns the reverse process of this diffusion. In the inference phase, the model progressively refines the given random SMPL parameters into the corresponding parameters that align with the input image. Diff-HMR, being a generative approach, is capable of generating diverse results for the same input image as the input noise varies. We conduct validation experiments, and the results demonstrate that the proposed framework effectively models the inherent ambiguity of the task of human mesh recovery in a probabilistic manner. The code is available at https://github.com/hanbyel0105/Diff-HMR

Auteurs: Hanbyel Cho, Junmo Kim

Dernière mise à jour: 2023-08-16 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.02963

Source PDF: https://arxiv.org/pdf/2308.02963

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires