Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans l'estimation de pose 3D avec LInKs

LInKs améliore l'estimation de pose 3D à partir de données 2D, même en cas d'occlusions.

― 7 min lire


Liens : Percée enLiens : Percée enestimation de pose 3Dmême quand des parties manquent.Transformer la récupération de pose 3D,
Table des matières

L'estimation de la pose humaine est un domaine clé en vision par ordinateur. Ça consiste à déterminer la position du corps d'une personne dans des images ou vidéos. Ce truc a plein d'applications, notamment dans l'interaction humain-ordinateur et la santé. Malheureusement, déterminer la pose 3D d'une personne à partir d'une seule image, c'est galère. Plusieurs poses 2D différentes peuvent correspondre à la même pose 3D, ce qui rend le problème compliqué à résoudre.

La plupart des méthodes qui visent à résoudre ce problème ont souvent besoin de plusieurs images prises sous différents angles ou de capteurs de profondeur spéciaux, ce qui limite leur utilisation dans des situations réelles. Récemment, de nouvelles techniques qui apprennent sans avoir besoin de beaucoup de données étiquetées ont montré du potentiel. Ces méthodes peuvent fonctionner avec juste une image. Mais elles ont souvent du mal avec les données incomplètes, surtout quand des parties du corps sont bloquées ou mal identifiées.

Besoin de meilleures méthodes

Les techniques existantes qui essaient de lever tout le Squelette corporel 2D en 3D ignorent souvent les Occlusions, c'est-à-dire des parties manquantes à cause de blocages. Quand même une seule partie du corps n'est pas visible, ces méthodes peuvent échouer. De plus, lever l'intégralité du squelette 2D peut créer des problèmes. Par exemple, ça peut faire en sorte que des parties du corps qui n'ont rien à voir influencent la pose finale en 3D, entraînant des erreurs.

Donc, il y a un besoin de méthodes améliorées qui peuvent gérer efficacement les occlusions et relier avec précision les Points clés du corps. Notre nouvelle approche, appelée LInKs, vise à répondre à ces préoccupations.

Aperçu de LInKs

LInKs est une méthode innovante qui permet de récupérer des poses 3D à partir de points clés 2D, même quand des parties sont occluses. Le processus se divise en deux étapes : d'abord, on élève les parties visibles du squelette 2D en 3D. Ensuite, on utilise les informations 3D disponibles pour estimer et compléter les parties manquantes. Cette stratégie "lever-puis-remplir" donne des résultats bien meilleurs que les anciennes méthodes qui ne fonctionnaient qu'en 2D.

Un aspect important de LInKs, c'est qu'elle examine si différentes parties du squelette 2D peuvent être levées séparément. Cette méthode réduit les erreurs causées par des connexions de long terme entre les points clés. Nos tests montrent que lever séparément améliore la précision, surtout en cas d'occlusions.

Comment ça marche

Le processus Lever-Puis-Remplir

D'abord, on obtient un squelette 2D à partir d'une image. Si certaines parties sont occluses, on sépare le squelette en sections, comme les points clés du torse et des membres. Chacune de ces sections est envoyée à leurs réseaux respectifs pour prédire les coordonnées 3D. Après avoir obtenu une pose 3D partielle, on utilise un autre réseau pour prédire les coordonnées manquantes, complétant ainsi la pose 3D.

Cette méthode assure que les articulations 3D bougent de manière réaliste puisque les articulations humaines ont des plages de mouvement spécifiques. En traitant les occlusions en 3D au lieu de 2D, on évite des poses irréalistes qui violent l'anatomie humaine.

Dépasser les défis

Un des principaux défis de l'estimation de la pose humaine, c'est qu'une pose 3D peut correspondre à plein de représentations 2D différentes. Cette complexité rend l'apprentissage des modèles difficile. Dans notre méthode, on simplifie ça en ne levant que des parties de la pose. Ça réduit la confusion, car chaque réseau de levée se spécialise dans une section particulière, ce qui facilite l'apprentissage des connexions entre 2D et 3D.

En plus, on améliore la capacité du modèle à prédire les parties manquantes en utilisant ce qu'on appelle un réseau d'occlusion. Ce réseau apprend à combler les lacunes en se basant sur les informations disponibles.

Apprentissage à partir des données

Pour rendre notre méthode plus efficace, on utilise des flux de normalisation, qui aident à gérer et apprendre des données de manière plus efficace. Au lieu de se fier à un ensemble de données limité, on crée de nouveaux échantillons en apprenant la distribution des données existantes. Ça aide à enrichir le processus d'entraînement, menant à des prédictions plus robustes.

Cependant, on a remarqué que l'échantillonnage aléatoire produisait parfois des poses étranges ou irréalistes. Pour résoudre ça, on a développé une nouvelle approche d'échantillonnage qui garantit que les poses générées soient plus réalistes et cohérentes.

Travailler avec les occlusions

Notre méthode fonctionne aussi bien dans des situations où des parties du corps sont occluses. En entraînant le réseau d'occlusion sur divers scénarios d'occlusion, on peut prédire efficacement les points clés manquants quand ils ne sont pas clairement visibles.

Lors de notre évaluation, on a comparé notre technique aux méthodes traditionnelles. Les résultats ont montré que lever la pose en 3D offrait des résultats beaucoup plus précis que de tenter de combler les lacunes en 2D.

Tests et résultats

On a testé LInKs sur des ensembles de données populaires. Les résultats montrent clairement que notre modèle de levée surpasse les méthodes existantes dans des scénarios sans occlusion. En plus d'une meilleure précision dans des situations normales, notre modèle gère aussi efficacement les occlusions. Lors des tests sur l'ensemble de données Human3.6M, il a obtenu une amélioration notable de la précision par rapport aux approches antérieures.

Dans des cas où des membres manquaient, notre modèle a démontré la capacité de prédire la pose complète plus précisément en la levant en 3D.

Limitations de l'approche

Bien que LInKs montre un grand potentiel, il a encore des limitations. Par exemple, si un point clé est manquant, ça peut faire perdre des informations utiles d'autres coordonnées qui pourraient aider à faire des prédictions précises. Les occlusions entre les corps, où deux points de côtés différents du corps ne sont pas visibles, posent aussi un défi.

En plus, notre approche interprète parfois mal les poses dans certaines situations. Par exemple, notre modèle identifie parfois une personne comme étant accroupie alors qu'elle est en réalité assise. Ça met en avant la difficulté d'estimer les positions des jambes uniquement à partir des données du torse. Dans nos travaux futurs, on vise à peaufiner notre méthode pour être plus robuste face à de tels défis.

Conclusion

LInKs propose une manière efficace de récupérer des poses 3D à partir de données 2D, même quand des parties sont occluses. En levant les parties clés séparément et en comblant les lacunes avec un réseau dédié, on peut réduire significativement les erreurs et améliorer la précision de l'estimation de pose. On introduit aussi une approche générative pour l'échantillonnage des données, permettant au modèle d'apprendre d'une plus large gamme de poses.

Dans l'ensemble, notre méthode représente un pas en avant dans la gestion des occlusions en estimation de pose humaine. On espère inspirer de futures recherches dans ce domaine difficile et continuer à peaufiner nos méthodes pour gérer efficacement un éventail plus large de situations.

Source originale

Titre: LInKs "Lifting Independent Keypoints" -- Partial Pose Lifting for Occlusion Handling with Improved Accuracy in 2D-3D Human Pose Estimation

Résumé: We present LInKs, a novel unsupervised learning method to recover 3D human poses from 2D kinematic skeletons obtained from a single image, even when occlusions are present. Our approach follows a unique two-step process, which involves first lifting the occluded 2D pose to the 3D domain, followed by filling in the occluded parts using the partially reconstructed 3D coordinates. This lift-then-fill approach leads to significantly more accurate results compared to models that complete the pose in 2D space alone. Additionally, we improve the stability and likelihood estimation of normalising flows through a custom sampling function replacing PCA dimensionality reduction previously used in prior work. Furthermore, we are the first to investigate if different parts of the 2D kinematic skeleton can be lifted independently which we find by itself reduces the error of current lifting approaches. We attribute this to the reduction of long-range keypoint correlations. In our detailed evaluation, we quantify the error under various realistic occlusion scenarios, showcasing the versatility and applicability of our model. Our results consistently demonstrate the superiority of handling all types of occlusions in 3D space when compared to others that complete the pose in 2D space. Our approach also exhibits consistent accuracy in scenarios without occlusion, as evidenced by a 7.9% reduction in reconstruction error compared to prior works on the Human3.6M dataset. Furthermore, our method excels in accurately retrieving complete 3D poses even in the presence of occlusions, making it highly applicable in situations where complete 2D pose information is unavailable.

Auteurs: Peter Hardy, Hansung Kim

Dernière mise à jour: 2023-09-13 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.07243

Source PDF: https://arxiv.org/pdf/2309.07243

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires