Avancer la récupération en mesh corporel complet avec une approche en une étape
Une nouvelle méthode améliore la récupération de la forme 3D du corps à partir d'images uniques.
― 8 min lire
Table des matières
La récupération de maillage corporel complet est un processus qui consiste à prédire les formes et positions 3D du corps, du visage et des mains d'une personne à partir d'une seule image. Les méthodes traditionnelles passent souvent par plusieurs étapes où différents modèles sont utilisés pour analyser chaque partie du corps séparément. Ces modèles essaient de comprendre la tête, les mains et le corps puis combinent les résultats. Cependant, cette méthode peut entraîner des positions de poignets et de mains peu naturelles.
En revanche, notre méthode utilise un seul modèle appelé le Transformateur Conscient des Composants (CAT) pour gérer toutes les parties du corps en une seule fois. Cette approche améliore la précision et fournit des formes plus naturelles. L'objectif principal est de créer une représentation 3D détaillée d'une figure humaine à partir d'une image standard, ce qui peut être un défi puisque des parties du corps, comme le visage et les mains, sont souvent très petites et difficiles à voir clairement.
Défis actuels dans la récupération de maillage corporel complet
Le processus de récupération d'un maillage corporel complet implique d'estimer divers paramètres du corps humain à partir d'une image. Cette tâche n'est pas facile car différentes parties du corps sont souvent à des résolutions différentes. Le visage et les mains sont petits par rapport au reste du corps, ce qui rend difficile pour les modèles d'obtenir des lectures précises.
Dans la plupart des méthodes existantes, les mains et les visages sont détectés et agrandis à une résolution plus élevée avant d'être envoyés à différents réseaux pour analyse. Enfin, les résultats sont combinés, ce qui peut causer des problèmes dans le résultat final, comme des poses maladroites et des rotations irréalistes.
Notre solution proposée : pipeline à une étape
On propose un système plus simple en une seule étape pour la récupération de maillage corporel complet. Ce système, nommé OSX, ne nécessite pas de modèles séparés pour la tête, les mains et le corps. Au lieu de cela, il utilise un encodeur corporel global pour comprendre le corps entier et un décodeur local pour peaufiner les caractéristiques liées aux mains et au visage.
L'encodeur crée une représentation détaillée des caractéristiques du corps et transmet cette information au décodeur, qui se concentre ensuite sur les mains et le visage. Cette méthode élimine de nombreux problèmes rencontrés dans les pipelines multi-étapes traditionnels et produit des mouvements et positions plus naturels pour les parties du corps.
Construire le Transformateur Conscient des Composants
Le CAT est conçu pour reconnaître divers composants du corps tout en maintenant les connexions entre eux. L'architecture est simple mais efficace, permettant de générer des modèles 3D détaillés à partir des informations d'une seule image.
Voici comment le processus fonctionne :
- Image humaine en entrée : L'image d'entrée est divisée en parties plus petites. Chaque section est soigneusement analysée pour capturer des caractéristiques importantes.
- Phase d'encodeur : L'encodeur prend ces découpes et les combine avec des tokens corporels spécifiques, qui sont des paramètres apprenables pour aider à comprendre la structure corporelle globale. Après traitement à travers une série de blocs de transformateur, l'encodeur produit des cartes de caractéristiques détaillées du corps.
- Phase de décodeur : Le décodeur est conçu pour affiner ces cartes de caractéristiques afin de prédire avec précision les articulations et les formes des mains et du visage. Il utilise une méthode pour échantillonner les images de faible résolution en résolutions plus élevées sans perdre de détails importants.
- Mécanisme d'attention : Le décodeur utilise une attention guidée par des points clés pour se concentrer sur des parties spécifiques, améliorant l'estimation des paramètres des mains et du visage.
En utilisant cette méthode, on peut générer efficacement une représentation 3D plus précise et cohérente du corps, du visage et des mains d'une personne, surmontant beaucoup de limitations des méthodes précédentes.
Formation et évaluation
Pour s'assurer que notre méthode fonctionne bien, il a fallu l'entraîner sur des ensembles de données étendus. On a créé un nouvel ensemble de données appelé Upper-Body (UBody) qui comprend une variété de scénarios où les parties supérieures du corps sont visibles mais peuvent ne pas être entièrement claires. Cet ensemble de données présente des vidéos de personnes dans diverses positions et environnements, aidant le modèle à apprendre à gérer des situations de la vie réelle.
Pendant l'entraînement, on a mesuré la performance du système à l'aide de plusieurs métriques. La mesure principale est l'erreur de position moyenne par vertex (MPVPE), qui nous aide à voir à quel point le maillage prédit est proche de la forme réelle.
Les résultats
Notre modèle à une étape a montré de meilleures performances que les systèmes multi-étapes existants sur divers benchmarks. On a constaté qu'il pouvait produire des résultats précis non seulement pour le corps entier mais aussi pour des parties spécifiques comme les mains et les visages sans s'appuyer sur des ensembles de données séparés pour ces zones.
Construire un meilleur ensemble de données : UBody
L'ensemble de données UBody a été créé pour aider à combler le fossé entre les tâches de récupération de base et des applications plus complexes, comme la reconnaissance de la langue des signes et la génération de gestes. Il se compose de vidéos de haute qualité montrant différentes actions et interactions, permettant au modèle d'apprendre efficacement à partir de scènes de la vie réelle.
Les données ont été collectées à partir de sources diverses, y compris des vidéos de performances et des cours en ligne, fournissant un ensemble d'exemples bien équilibré pour que le modèle puisse apprendre. Chaque vidéo a été soigneusement coupée pour se concentrer sur des actions pertinentes, garantissant des entrées de haute qualité pour notre processus d'entraînement.
Processus d'annotation
Pour l'annotation, on a développé un pipeline détaillé qui inclut des annotations 2D et 3D. La première étape consiste à localiser les parties clés du corps en 2D. En utilisant des modèles avancés d'estimation de pose, on peut identifier avec précision les positions des points clés pour le corps, les mains et le visage. Cela nous permet de créer des annotations 2D précises qui servent de base pour une analyse plus approfondie.
Ensuite, on traduit ces points clés 2D en paramètres de maillage 3D, les ajustant à notre modèle choisi pour une meilleure précision. Ce processus implique une boucle continue d'entraînement et de perfectionnement des annotations pour améliorer la qualité au fil du temps.
Caractéristiques uniques de UBody
L'ensemble de données UBody a plusieurs caractéristiques uniques :
- Scénarios de la vie réelle : Contrairement à d'autres ensembles de données qui pourraient se concentrer sur des environnements contrôlés, UBody présente des actions spontanées représentatives de la vie réelle.
- Conditions diverses : L'ensemble de données comprend diverses conditions d'éclairage et angles, aidant le modèle à apprendre à gérer différents scénarios qu'il pourrait rencontrer.
Résultats expérimentaux
Lors de nos expériences, on a constaté que notre système surpasse significativement les méthodes multi-étapes traditionnelles. Les résultats montrent une amélioration claire de la précision des maillages récupérés, en particulier dans des situations difficiles où l'occlusion et le flou de mouvement peuvent compliquer les prédictions.
Directions futures
Bien que notre approche actuelle ait montré des résultats prometteurs, il y a encore de la place pour l'amélioration. Les travaux futurs pourraient impliquer l'intégration d'ensembles de données supplémentaires axés spécifiquement sur les mains et les visages pour améliorer encore les performances du modèle. De plus, valider l'efficacité d'UBody dans des applications réelles, telles que la reconnaissance de gestes ou l'analyse des émotions, fournirait des informations précieuses.
Conclusion
En résumé, on a développé un pipeline à une étape pour la récupération de maillage corporel complet qui simplifie le processus tout en atteignant des résultats supérieurs. Notre nouvel ensemble de données, UBody, associé à notre méthode, vise à contribuer significativement au domaine en fournissant à la fois une plateforme d'entraînement robuste et une compréhension plus claire de la manière de récupérer des formes corporelles 3D à partir d'images.
En s'attaquant aux défis clés rencontrés dans les modèles précédents, on offre une approche nouvelle pour comprendre les poses et expressions humaines dans une variété de contextes, ouvrant la voie à de futures recherches et applications dans ce domaine important d'étude.
Titre: One-Stage 3D Whole-Body Mesh Recovery with Component Aware Transformer
Résumé: Whole-body mesh recovery aims to estimate the 3D human body, face, and hands parameters from a single image. It is challenging to perform this task with a single network due to resolution issues, i.e., the face and hands are usually located in extremely small regions. Existing works usually detect hands and faces, enlarge their resolution to feed in a specific network to predict the parameter, and finally fuse the results. While this copy-paste pipeline can capture the fine-grained details of the face and hands, the connections between different parts cannot be easily recovered in late fusion, leading to implausible 3D rotation and unnatural pose. In this work, we propose a one-stage pipeline for expressive whole-body mesh recovery, named OSX, without separate networks for each part. Specifically, we design a Component Aware Transformer (CAT) composed of a global body encoder and a local face/hand decoder. The encoder predicts the body parameters and provides a high-quality feature map for the decoder, which performs a feature-level upsample-crop scheme to extract high-resolution part-specific features and adopt keypoint-guided deformable attention to estimate hand and face precisely. The whole pipeline is simple yet effective without any manual post-processing and naturally avoids implausible prediction. Comprehensive experiments demonstrate the effectiveness of OSX. Lastly, we build a large-scale Upper-Body dataset (UBody) with high-quality 2D and 3D whole-body annotations. It contains persons with partially visible bodies in diverse real-life scenarios to bridge the gap between the basic task and downstream applications.
Auteurs: Jing Lin, Ailing Zeng, Haoqian Wang, Lei Zhang, Yu Li
Dernière mise à jour: 2023-03-28 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.16160
Source PDF: https://arxiv.org/pdf/2303.16160
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.