Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Nouvelle méthode pour l'estimation de pose 3D dans des interactions rapprochées

Une méthode pour estimer les poses 3D d'individus interagissant de près en utilisant des avatars.

― 7 min lire


AvatarPose : EstimationAvatarPose : Estimationde Pose 3D Précisedes espaces réduits.pose humaine de manière précise dansUne nouvelle approche pour suivre la
Table des matières

Les humains interagissent souvent étroitement les uns avec les autres dans la vie de tous les jours, comme s'enlacer ou s'aider mutuellement. Comprendre ces Interactions aide les systèmes d'intelligence artificielle (IA) à interpréter le comportement humain. Une partie clé de cette compréhension est la capacité de capturer les Poses et les formes tridimensionnelles (3D) des gens en utilisant des appareils courants comme des caméras. Cependant, il peut être compliqué de capturer ces poses de manière précise quand les individus sont très proches, car leurs corps peuvent se masquer mutuellement. Ce problème devient plus difficile lors d'interactions rapprochées à cause de la superposition des parties du corps et de la confusion sur les distances.

Objectif de l'étude

Le but de cette étude est de développer une nouvelle méthode qui estime avec précision les poses et les formes 3D de plusieurs personnes interagissant étroitement à partir de vidéos prises avec plusieurs caméras. Cette recherche se concentre sur la création d'Avatars détaillés et personnalisés pour chaque personne impliquée. Ces avatars servent de guides pour affiner et améliorer l'estimation de leurs poses et formes.

Défis dans les scénarios d'interaction rapprochée

Quand les gens sont très proches les uns des autres, les méthodes traditionnelles ont du mal à estimer correctement leurs poses 3D. La principale raison de cette difficulté est que les techniques existantes s'appuient beaucoup sur des Estimations de joints en 2D, ce qui peut être inexact à cause des parties du corps qui se bloquent mutuellement. Ce problème est souvent constaté lors de contacts humains rapprochés, rendant nécessaire l'utilisation de plusieurs caméras pour obtenir plus d'informations sous différents angles. Bien que de nombreuses techniques existent pour estimer les poses, elles ne gèrent pas bien les interactions proches, entraînant des résultats médiocres.

La méthode proposée : AvatarPose

Pour relever ces défis, nous introduisons une méthode appelée AvatarPose. Cette technique consiste à créer des avatars pour les individus vus sous plusieurs angles. Les avatars aident à affiner les estimations de leurs poses en fournissant des informations supplémentaires basées sur leur apparence et leur forme. Cette approche peut améliorer considérablement la précision des estimations de pose dans des situations où les gens sont proches les uns des autres.

Création des avatars

La première étape de notre méthode est de construire des avatars pour chaque individu dans la scène. Ces avatars sont créés en prenant plusieurs vues de la même personne sous différents angles. En utilisant des techniques spéciales, nous pouvons capturer la forme et l'apparence de la personne et créer un modèle texturé qui les représente fidèlement. Les avatars sont conçus de manière à pouvoir être animés en fonction de la pose de la personne.

Amélioration des estimations de pose

Une fois les avatars créés, nous affinons les poses estimées des individus en utilisant les informations de texture et de forme de ces avatars. Au lieu de s'appuyer sur des données potentiellement inexactes provenant d'images 2D, nous utilisons la couleur et le contour des avatars pour optimiser les estimations de pose. Ces données de couleur et de silhouette nous aident à faire de meilleures suppositions sur la position de chaque personne dans l'espace 3D.

Gestion des intersections de corps

Un des principaux problèmes pour estimer les poses lors d'interactions rapprochées est que les individus peuvent se chevaucher, causant de la confusion dans les données. Pour éviter cela, notre méthode inclut une technique qui pénalise les situations où les corps des avatars se croisent. Ce faisant, nous garantissons que les poses estimées ne résultent pas en chevauchements irréalistes entre individus. Cette pénalité de collision aide le modèle à rester ancré dans la réalité, menant à des poses plus précises et crédibles.

Aperçu du processus

Notre approche implique deux modules clés : création d'avatars et optimisation de poses. Dans le premier module, nous prenons des images multi-vues en entrée et générons les avatars. Nous échantillonnons des points des avatars et les rendons pour comparer leur apparence avec les images réelles. Cette étape nous permet d'affiner les avatars en fonction de leur correspondance avec ce que nous voyons dans les vidéos.

Dans le second module, nous optimisons les poses des gens dans la vidéo en utilisant leurs avatars comme guide. Nous rendons les avatars selon leurs poses actuelles et les comparons aux images observées, en nous concentrant à la fois sur la cohérence des couleurs et l'alignement des silhouettes. Cela aide à garantir que les poses estimées sont précises. De plus, nous incluons des contraintes supplémentaires pour éviter les chevauchements entre les avatars.

Résultats expérimentaux

Nous avons testé notre méthode sur plusieurs ensembles de données publiques contenant des exemples d'interactions humaines rapprochées. Les résultats montrent que notre approche surpasse les techniques existantes en termes de précision et de robustesse. Notre méthode estime avec succès les poses 3D des individus engagés dans des interactions rapprochées, démontrant son efficacité dans des scénarios réels.

Comparaisons avec d'autres méthodes

En comparant notre méthode à d'autres techniques à la pointe de la technologie, nous avons constaté que les méthodes précédentes avaient des difficultés lorsque les gens interagissaient étroitement. Elles avaient tendance à s'appuyer trop sur les détections de joints en 2D, ce qui peut être peu fiable quand les parties du corps se bloquent les unes les autres. En revanche, notre approche utilise les avatars pour fournir des informations plus riches, permettant des estimations de pose plus précises.

Avantages de l'utilisation d'avatars

Utiliser des avatars personnalisés dans notre méthode offre des avantages significatifs par rapport aux méthodes traditionnelles. Les avatars fournissent des informations géométriques et d'apparence supplémentaires qui aident à réduire les erreurs dans l'estimation des poses. La représentation détaillée de chaque personne permet une compréhension plus précise, surtout dans des situations complexes où deux personnes ou plus sont proches.

Limitations et pistes futures

Bien que notre méthode fonctionne bien dans la plupart des situations, elle a quelques limitations. Par exemple, si les estimations initiales de pose sont significativement incorrectes, le processus d'optimisation peut avoir du mal à trouver la bonne solution. De plus, nos avatars ne modélisent pas actuellement les positions des mains, ce qui pourrait être une addition précieuse à l'avenir.

Dans nos travaux futurs, nous visons à améliorer les performances de la méthode dans des situations de pose difficiles et à intégrer des modèles de mains dans les avatars. Cela améliorerait encore la capacité à capturer la complexité des interactions humaines.

Conclusion

En conclusion, notre recherche présente AvatarPose, une nouvelle méthode pour estimer avec précision les poses 3D des personnes interagissant étroitement dans des vidéos multi-vues. En s'appuyant sur des avatars personnalisés, nous contournons de nombreux défis traditionnels associés aux occlusions et aux chevauchements de parties du corps. Notre approche améliore considérablement la robustesse et la précision de l'estimation des poses dans des scénarios où les individus sont en contact étroit. Cette avancée peut enrichir la compréhension des interactions humaines dans les systèmes d'IA, menant à une meilleure interprétation des comportements et mouvements sociaux.

Source originale

Titre: AvatarPose: Avatar-guided 3D Pose Estimation of Close Human Interaction from Sparse Multi-view Videos

Résumé: Despite progress in human motion capture, existing multi-view methods often face challenges in estimating the 3D pose and shape of multiple closely interacting people. This difficulty arises from reliance on accurate 2D joint estimations, which are hard to obtain due to occlusions and body contact when people are in close interaction. To address this, we propose a novel method leveraging the personalized implicit neural avatar of each individual as a prior, which significantly improves the robustness and precision of this challenging pose estimation task. Concretely, the avatars are efficiently reconstructed via layered volume rendering from sparse multi-view videos. The reconstructed avatar prior allows for the direct optimization of 3D poses based on color and silhouette rendering loss, bypassing the issues associated with noisy 2D detections. To handle interpenetration, we propose a collision loss on the overlapping shape regions of avatars to add penetration constraints. Moreover, both 3D poses and avatars are optimized in an alternating manner. Our experimental results demonstrate state-of-the-art performance on several public datasets.

Auteurs: Feichi Lu, Zijian Dong, Jie Song, Otmar Hilliges

Dernière mise à jour: 2024-08-20 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2408.02110

Source PDF: https://arxiv.org/pdf/2408.02110

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires