Avancées dans la reconstruction 3D du corps humain
Le sampling conscient de la structure fine améliore la reconstruction 3D d'une image unique de l'humain.
― 9 min lire
Table des matières
- Le défi de la reconstruction des corps humains
- Qu'est-ce que le Fine Structure-Aware Sampling (FSS) ?
- Caractéristiques clés du FSS
- 1. Points d'échantillonnage jumelés
- 2. Déplacement adaptatif de proximité
- 3. Points d'échantillonnage d'ancrage
- 4. Points d'échantillonnage contre
- 5. Échantillonnage guidé par Smplx
- Utilisation des normales des points d'échantillonnage (NSP)
- Introduction à la perte d'épaisseur du maillage (MTL)
- Apprentissage et évaluation
- Comparaison du FSS avec les méthodes existantes
- Importance des caractéristiques clés
- Évaluer l'impact des NSP et du MTL
- Conclusion
- Source originale
- Liens de référence
La reconstruction 3D des corps humains est un domaine super intéressant parce qu'il a plein d'utilités pratiques. Parmi ces utilisations, on trouve la réalité virtuelle, l'impression 3D et les jeux vidéo. Même si les systèmes haut de gamme peuvent créer un modèle 3D d'une personne avec plusieurs vues de caméra, ces systèmes ne sont pas accessibles aux consommateurs lambda. Ce manque a poussé les chercheurs à développer des méthodes qui ne nécessitent qu'une seule image, comme une simple photo, pour reconstruire un corps humain en 3D.
Une approche qui a gagné en popularité dans ce domaine s'appelle les modèles implicites alignés sur les pixels. Ces modèles apprennent une fonction qui représente la surface d'un corps humain. À partir de cette fonction apprise, on peut créer un maillage 3D du corps.
Le défi de la reconstruction des corps humains
Reconstruire des corps humains en 3D pose plusieurs défis. L'un des défis majeurs est de capturer des surfaces fines, comme les oreilles et les doigts. Les méthodes existantes ont souvent du mal avec ces caractéristiques. C'est important parce que ces parties contribuent au réalisme du modèle 3D. Quand ces caractéristiques ne sont pas bien représentées, le modèle 3D final a l'air bizarre ou irréaliste.
Un autre problème qui se pose est la présence de bruit ou d'artefacts indésirables dans les maillages reconstruits. Ces artefacts peuvent rendre le modèle ondulé ou irréel, ce qui nuit à la qualité générale de la reconstruction. Pour surmonter ces problèmes, de nouveaux schémas d'apprentissage par échantillonnage doivent être développés.
Qu'est-ce que le Fine Structure-Aware Sampling (FSS) ?
Pour s'attaquer aux problèmes rencontrés par les modèles existants, on introduit le Fine Structure-Aware Sampling (FSS). Le FSS est un nouveau schéma d'apprentissage conçu pour les modèles implicites alignés sur les pixels, qui se concentre sur la reconstruction humaine à partir d'une seule vue. La méthode FSS s'attaque aux défis de la capture des surfaces fines et de la réduction du bruit dans les maillages reconstruits en s'adaptant à l'épaisseur et à la complexité des parties du corps.
Le FSS utilise une façon unique de gérer les points d'échantillonnage pendant le processus d'apprentissage. Contrairement aux méthodes traditionnelles qui génèrent des points d'échantillonnage de manière aléatoire, le FSS vise à améliorer la qualité de ces points. Il le fait en regardant à quel point une surface est fine ou complexe et en ajustant l'apprentissage en conséquence.
Caractéristiques clés du FSS
Le FSS comprend plusieurs caractéristiques importantes qui le rendent efficace pour améliorer la reconstruction des corps humains.
1. Points d'échantillonnage jumelés
Dans le FSS, chaque point d'échantillonnage a un point jumeau correspondant. Ça veut dire que pour chaque point échantillonné, il y a un autre point qui est à égale distance de la surface du corps. En utilisant des paires de points, le FSS peut déterminer plus précisément l'emplacement de la surface. C'est crucial pour capturer des caractéristiques fines comme les oreilles et les doigts.
2. Déplacement adaptatif de proximité
Le FSS introduit aussi une méthode appelée déplacement adaptatif de proximité. Ça veut dire que la façon dont les points d'échantillonnage sont déplacés par rapport à la surface dépend de l'épaisseur de la surface. Pour les zones plus épaisses, le déplacement peut être plus grand, tandis que pour les zones plus fines, il est plus petit. Ça aide à s'assurer que les points d'échantillonnage sont plus susceptibles de se situer dans ou très près de la surface réelle, ce qui améliore les résultats.
3. Points d'échantillonnage d'ancrage
Une autre innovation dans le FSS est l'utilisation de points d'échantillonnage d'ancrage. Ces points se trouvent à la partie la plus profonde des caractéristiques corporelles fines. Ils aident à garantir que la reconstruction est plus précise en indiquant où les valeurs d'étiquette les plus élevées devraient se trouver. Ça aide à guider le modèle pour faire de meilleures prédictions sur la surface.
4. Points d'échantillonnage contre
Le FSS inclut une caractéristique appelée points d'échantillonnage contre, qui aident à éviter les artefacts flottants. Ces artefacts peuvent se produire dans des zones où il ne devrait pas y avoir de maillage. Les points d'échantillonnage contre se trouvent en dehors du maillage et aident à guider le modèle pour éviter de faire des prédictions incorrectes dans ces zones vides. En ayant un point principal et un point contre secondaire, le FSS donne des signaux clairs sur où les prédictions devraient être plus faibles.
5. Échantillonnage guidé par Smplx
Le FSS utilise aussi une méthode appelée échantillonnage guidé par Smplx. Cette approche permet au processus d'apprentissage de se concentrer davantage sur les caractéristiques importantes. Par exemple, elle augmente le nombre de points d'échantillonnage autour des zones fines comme les oreilles et les doigts tout en réduisant la densité des points d'échantillonnage dans les zones plus faciles à reconstruire. Ça aide le modèle à mieux apprendre à partir des points d'échantillonnage qui comptent le plus.
Utilisation des normales des points d'échantillonnage (NSP)
Une caractéristique qui n'a pas été pleinement exploitée dans les méthodes passées est les normales des points d'échantillonnage. Les normales aident à décrire l'orientation des surfaces. Dans le FSS, les normales de chaque point d'échantillonnage sont utilisées pour améliorer l'apprentissage. Ça veut dire que pendant l'apprentissage, le modèle peut tirer parti des normales pour mieux affiner sa compréhension de la structure corporelle.
Au lieu d'utiliser seulement les normales des points qui se trouvent à la surface, le FSS utilise les normales de tous les points d'échantillonnage. Cette information supplémentaire aide le modèle à en apprendre davantage sur la façon dont les surfaces interagissent entre elles.
Introduction à la perte d'épaisseur du maillage (MTL)
Un problème courant avec les modèles implicites alignés sur les pixels est qu'ils peuvent produire des maillages avec une épaisseur irréaliste. Pour y remédier, le FSS introduit un signal de perte d'épaisseur du maillage (MTL). Ce signal encourage le modèle à apprendre à quelle épaisseur différentes parties du corps devraient être.
Mise en œuvre du MTL n'est pas simple parce que les maillages prédits ne sont pas disponibles pendant l'apprentissage. Pour contourner cela, le FSS modifie l'architecture sous-jacente pour permettre de meilleures estimations de l'épaisseur du maillage. Cela est réalisé en utilisant un volume de caractéristiques séparé produit par un autre type d'empilement dans l'architecture.
En évaluant l'épaisseur de différentes zones dans le maillage prédit et en les comparant à la vérité de terrain, le modèle peut apprendre à produire des silhouettes plus réalistes lors de la reconstruction.
Apprentissage et évaluation
Le FSS a été évalué en utilisant un ensemble de données appelé THuman2.0, qui contient des scans de haute qualité d'individus chinois. Les modèles basés sur le FSS ont été testés aux côtés de modèles existants pour voir comment ils se comportaient.
Les résultats ont montré que le FSS surpassait de loin les méthodes antérieures tant sur des mesures qualitatives que quantitatives. Les modèles formés avec le FSS étaient meilleurs pour capturer des détails fins comme les oreilles et les doigts sans créer de bruit ou d'artefacts indésirables.
Comparaison du FSS avec les méthodes existantes
Lors de la phase d'évaluation, deux modèles ont été formés : l'un basé sur l'architecture originale et l'autre utilisant une approche haute résolution. Le modèle haute résolution a très bien performé dans toutes les métriques par rapport aux modèles existants.
Les résultats quantitatifs ont montré que le modèle formé avec le FSS surpassait des modèles comme PIFu, PIFuHD et IntegratedPIFu. En observant les résultats qualitatifs, il était évident que les modèles utilisant le FSS produisaient des reconstructions humaines 3D plus naturelles et plus précises.
Importance des caractéristiques clés
Les cinq caractéristiques clés du FSS ont été soumises à une analyse plus approfondie pour comprendre leurs contributions individuelles. Chaque caractéristique s'est avérée essentielle pour améliorer la performance du modèle. Cela démontre qu'une combinaison de techniques est nécessaire pour obtenir les meilleurs résultats dans les tâches de reconstruction humaine.
Évaluer l'impact des NSP et du MTL
D'autres investigations se sont concentrées sur les effets de l'utilisation des normales des points d'échantillonnage et de la perte d'épaisseur du maillage. Les modèles qui incorporaient ces techniques ont montré des améliorations considérables dans la capture des détails et le maintien de la précision structurelle. Cela renforce la valeur de ces extensions au cadre du FSS.
Conclusion
En résumé, le Fine Structure-Aware Sampling (FSS) est une approche novatrice pour former des modèles implicites alignés sur les pixels pour la reconstruction humaine à partir d'une seule vue. En s'attaquant aux défis de la capture des caractéristiques fines et à la réduction du bruit, le FSS améliore considérablement la qualité des reconstructions 3D.
L'introduction de caractéristiques comme les points d'échantillonnage jumelés, le déplacement adaptatif de proximité, les points d'ancrage, les points contre et l'échantillonnage guidé par Smplx permet aux modèles de mieux performer que les versions précédentes. De plus, l'utilisation des normales des points d'échantillonnage et l'incorporation de la perte d'épaisseur du maillage garantissent des résultats plus précis et réalistes.
Avec ces avancées, le FSS fixe une nouvelle norme dans le domaine de la reconstruction humaine 3D, ouvrant la voie à de meilleures applications dans divers domaines, y compris la réalité virtuelle et les jeux. La recherche continue souligne l'importance de l'innovation permanente dans la quête de meilleures technologies de reconstruction 3D accessibles.
Titre: Fine Structure-Aware Sampling: A New Sampling Training Scheme for Pixel-Aligned Implicit Models in Single-View Human Reconstruction
Résumé: Pixel-aligned implicit models, such as PIFu, PIFuHD, and ICON, are used for single-view clothed human reconstruction. These models need to be trained using a sampling training scheme. Existing sampling training schemes either fail to capture thin surfaces (e.g. ears, fingers) or cause noisy artefacts in reconstructed meshes. To address these problems, we introduce Fine Structured-Aware Sampling (FSS), a new sampling training scheme to train pixel-aligned implicit models for single-view human reconstruction. FSS resolves the aforementioned problems by proactively adapting to the thickness and complexity of surfaces. In addition, unlike existing sampling training schemes, FSS shows how normals of sample points can be capitalized in the training process to improve results. Lastly, to further improve the training process, FSS proposes a mesh thickness loss signal for pixel-aligned implicit models. It becomes computationally feasible to introduce this loss once a slight reworking of the pixel-aligned implicit function framework is carried out. Our results show that our methods significantly outperform SOTA methods qualitatively and quantitatively. Our code is publicly available at https://github.com/kcyt/FSS.
Auteurs: Kennard Yanting Chan, Fayao Liu, Guosheng Lin, Chuan Sheng Foo, Weisi Lin
Dernière mise à jour: 2024-11-11 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.19197
Source PDF: https://arxiv.org/pdf/2402.19197
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.