Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Améliorer l'estimation de la pose de la main en 3D dans les interactions

De nouvelles méthodes améliorent la précision de la détection de la position des mains pendant les interactions.

― 7 min lire


Amélioration desAmélioration destechniques d'estimationde pose des mainsdéfis des interactions manuelles.Une nouvelle approche s'attaque aux
Table des matières

Estimer la position des mains dans l'espace 3D à partir d'images est un domaine de recherche super populaire. Plein de techniques ont amélioré la précision de cette tâche, mais il y a encore pas mal de défis, surtout quand deux mains se croisent. Quand les mains se rapprochent, elles peuvent se bloquer, rendant difficile la détermination précise de leurs positions.

Un gros problème, c'est que les méthodes traditionnelles ne prennent souvent pas en compte les contraintes physiques qui gardent les positions des mains réalistes. Ça veut dire que quand deux mains sont montrées, elles peuvent se chevaucher ou s'intersecter de manière incorrecte. On propose une approche qui utilise un modèle spécifique pour représenter l'espace des mains de façon plus efficace, ce qui facilite l'évitement de ces intersections.

Le Défi de l'Interaction Main à Main

Les interactions main à main sont complexes. Quand deux mains sont proches, elles peuvent se bloquer. C'est ce qu'on appelle l'Occlusion. En plus, les doigts peuvent se chevaucher, ce qui rend encore plus difficile de déterminer où chaque main est positionnée. Des méthodes simples, comme essayer d'estimer les deux mains indépendamment, ne donnent souvent pas de bons résultats. Les interactions entre les mains peuvent fournir des infos utiles qui facilitent l'estimation de leurs positions.

Dans des études précédentes, des chercheurs ont essayé de s'attaquer à ces défis en utilisant différentes méthodes. Certains ont utilisé des techniques d'optimisation, tandis que d'autres ont commencé à se servir de l'apprentissage profond. Cependant, ces méthodes ont souvent du mal quand il s'agit de modéliser avec précision les interactions entre deux mains.

Travaux Connus

Dans le passé, les chercheurs se sont concentrés sur l'estimation de la position d'une seule main, mais ils ont de plus en plus reconnu l'importance d'estimer plusieurs mains qui interagissent. Les premières tentatives reposaient sur des méthodes d'optimisation qui utilisaient des points identifiables, des bords et d'autres caractéristiques extraites d'images.

Avec l'essor de l'apprentissage profond, de nouvelles méthodes ont émergé pour aider dans ce domaine. Différentes techniques sont maintenant utilisées pour analyser les images et apprendre à estimer les positions des mains. Certains chercheurs ont utilisé des caméras de profondeur pour suivre les mains, tandis que d'autres ont employé plusieurs caméras pour récolter plus de données sur les positions des mains.

Une autre méthode courante utilise des modèles paramétriques spécifiques, comme le modèle MANO, qui simplifie la tâche de représentation des mains. Bien que ces approches aient montré des améliorations, elles ont encore des difficultés avec les défis spécifiques posés par l'interaction de deux mains.

Notre Approche

Dans ce travail, on propose un cadre complet pour améliorer l'estimation des poses de mains en 3D dans les images, en se concentrant particulièrement sur les interactions entre deux mains. Notre cadre inclut une nouvelle manière de représenter les formes de mains et une fonction de perte innovante conçue pour réduire les intersections entre les mains.

Représentation par Maille de Main

On introduit un nouveau modèle de maille de main, qui est une façon de représenter la forme de la main plus efficacement que les modèles traditionnels. Cette nouvelle représentation permet d'avoir une maille étanche qui garantit qu'il n'y a pas de trous ou d'espaces vides ; c'est essentiel pour une modélisation précise. La maille est construite en utilisant un squelette de la main et ajoute des sommets pour créer une forme de main complète.

Notre modèle a moins de sommets que le modèle MANO largement utilisé, rendant la tâche plus simple et plus facile à manipuler. Cette nouvelle maille est également plus efficace pour modéliser la forme volumétrique des mains et peut être créée rapidement, ce qui est essentiel pour notre réseau d'occupation.

Réseau d'Occupation

Le composant central de notre approche est un réseau d'occupation. Ce réseau utilise une représentation de la forme de la main pour déterminer si un point dans l'espace 3D est à l'intérieur du volume de la main. Le réseau d'occupation fournit une représentation continue de la main qui peut aider à identifier les intersections de manière précise.

Quand deux mains interagissent, on doit vérifier si un point est dans le volume de l'une ou l'autre main. Le réseau d'occupation nous permet de modéliser cela efficacement. En codant des informations sur la forme de la main, il peut fournir une probabilité que n'importe quel point donné soit occupé par une des mains.

Fonction de Perte d'Intersection

Pour optimiser la performance de notre cadre, on introduit une fonction de perte d'intersection. Cette fonction traite spécifiquement les défis des mains qui se chevauchent en minimisant la probabilité d'intersections. Elle garantit que quand les deux mains sont représentées dans le modèle, on évite les chevauchements irréalistes.

La perte d'intersection fonctionne en vérifiant les points de la main gauche par rapport au modèle de la main droite et vice versa. Ce contrôle aide à imposer des contraintes physiques sur la façon dont les mains peuvent interagir, résultant en estimations plus réalistes.

Expériences et Résultats

On a évalué notre approche en utilisant plusieurs ensembles de données bien connus, en se concentrant sur l'ensemble de données InterHand2.6M, qui contient une grande collection d'images montrant des mains uniques et des mains en interaction.

Performance sur l'Ensemble de Données InterHand2.6M

En utilisant nos modèles entraînés avec la perte d'intersection, on a constaté des améliorations significatives tant dans l'erreur moyenne pour les articulations des mains que dans la réduction du nombre d'intersections. Cela a démontré que notre méthode non seulement produit des estimations plus précises, mais gère aussi mieux les interactions physiques entre les mains que les approches précédentes.

Évaluation sur d'Autres Ensembles de Données

On a également testé nos modèles sur d'autres ensembles de données, comme les ensembles Re:InterHand et SMILE, qui contiennent des scénarios plus complexes, comme l'interprétation de la langue des signes. Les résultats de ces ensembles de données ont encore confirmé que notre méthode réduit constamment les intersections des mains et maintient une faible erreur de position moyenne des articulations, prouvant son efficacité dans diverses applications réelles.

Évaluation de Vidéos Réelles

Pour évaluer l'application pratique de notre modèle, on a effectué des évaluations en utilisant des vidéos du monde réel. Ces vidéos manquent souvent de données de vérité de terrain précises, rendant difficile la mesure de la précision. Néanmoins, notre modèle a réussi à améliorer la qualité des positions des mains estimées, montrant le potentiel de notre approche dans des scénarios pratiques.

Conclusion

Notre travail offre une amélioration significative dans l'estimation des poses de mains en 3D, surtout quand deux mains interagissent. En développant une nouvelle paramétrisation de maille de main, un réseau d'occupation pour modéliser les volumes de mains, et une fonction de perte d'intersection qui minimise les intersections, on a créé un cadre robuste.

Cette méthode améliore la précision de l'estimation des poses de mains à travers divers ensembles de données tout en réduisant les chevauchements irréalistes. Avec de nouveaux tests et applications, notre approche pourrait avoir un impact considérable dans les domaines de la vision par ordinateur, de l'interaction homme-machine et de la reconnaissance de la langue des signes.

Source originale

Titre: Two Hands Are Better Than One: Resolving Hand to Hand Intersections via Occupancy Networks

Résumé: 3D hand pose estimation from images has seen considerable interest from the literature, with new methods improving overall 3D accuracy. One current challenge is to address hand-to-hand interaction where self-occlusions and finger articulation pose a significant problem to estimation. Little work has applied physical constraints that minimize the hand intersections that occur as a result of noisy estimation. This work addresses the intersection of hands by exploiting an occupancy network that represents the hand's volume as a continuous manifold. This allows us to model the probability distribution of points being inside a hand. We designed an intersection loss function to minimize the likelihood of hand-to-point intersections. Moreover, we propose a new hand mesh parameterization that is superior to the commonly used MANO model in many respects including lower mesh complexity, underlying 3D skeleton extraction, watertightness, etc. On the benchmark InterHand2.6M dataset, the models trained using our intersection loss achieve better results than the state-of-the-art by significantly decreasing the number of hand intersections while lowering the mean per-joint positional error. Additionally, we demonstrate superior performance for 3D hand uplift on Re:InterHand and SMILE datasets and show reduced hand-to-hand intersections for complex domains such as sign-language pose estimation.

Auteurs: Maksym Ivashechkin, Oscar Mendez, Richard Bowden

Dernière mise à jour: 2024-04-08 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.05414

Source PDF: https://arxiv.org/pdf/2404.05414

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires