Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Nouvelle méthode pour suivre les interactions 3D entre humains et objets

Une nouvelle méthode pour suivre avec précision les mouvements 3D avec une seule caméra.

― 13 min lire


Révolutionner lesRévolutionner lestechniques de suivi 3Ddes mouvements avec une seule caméra.Un progrès significatif dans le suivi
Table des matières

Capturer comment les gens interagissent avec leur environnement dans un espace tridimensionnel (3D) est super important pour des domaines comme la robotique, les jeux vidéo et la réalité virtuelle. Mais, les efforts récents pour reconstruire des images 3D de personnes et d'objets à partir de photos standard rencontrent encore des défis, surtout quand des objets sont cachés ou que la profondeur n’est pas bien prise en compte. Ça rend difficile de suivre les mouvements avec précision à travers différentes images.

Dans cet article, on présente une nouvelle méthode qui suit efficacement les mouvements 3D des gens et des objets avec juste une caméra, même quand des parties des objets sont cachées. Notre approche repose sur deux idées principales. D'abord, on améliore la précision de nos reconstructions 3D en utilisant des estimations de modèle pour chaque image, ce qui aide à maintenir des mouvements cohérents dans le temps. Ensuite, on utilise le mouvement visible pour prédire ce qui se passe avec des objets qui ne sont pas complètement visibles, permettant ainsi de mieux deviner leurs positions.

Grâce à des expériences sur des ensembles de données spécifiques, on montre que notre méthode surpasse les techniques existantes, prouvant son efficacité à capturer les interactions entre les humains et les objets même quand la visibilité est limitée.

Importance du Suivi des Interactions humain-objet

Comprendre comment les humains interagissent avec les objets, c'est important pour plein d'applis. Un suivi précis peut améliorer des fonctions dans des domaines comme la robotique et les jeux. Mais capturer ces interactions, c'est pas facile.

Les anciennes méthodes dépendaient de matériel coûteux comme des installations de caméras denses pour obtenir de la précision. Des approches plus récentes utilisent plusieurs caméras RGBD, mais installer ces systèmes peut être compliqué et cher, ce qui les rend peu pratiques pour un usage quotidien. Du coup, on a besoin de méthodes qui peuvent suivre efficacement les interactions humain-objet avec une seule caméra RGB, ce qui serait beaucoup plus facile pour les consommateurs.

Capturer les mouvements 3D des gens et des objets avec une seule caméra, c'est un défi. Sans info de profondeur, c'est dur de suivre les mouvements avec précision. C'est particulièrement compliqué quand des objets ou des gens sont partiellement cachés, ce qui entraîne des incertitudes dans les prédictions.

Les méthodes précédentes utilisaient souvent des règles créées manuellement pour résoudre ces problèmes, mais ne montraient pas une grande précision ou évolutivité. D'autres, comme CHORE, combinaient des techniques de modélisation avec des méthodes de reconstruction, mais CHORE s'appuie sur des hypothèses de profondeur fixes, ce qui crée des problèmes pour suivre les mouvements au fil du temps. De plus, CHORE a du mal dans des situations très occluses où la caméra ne peut pas bien voir les objets.

Notre Méthode Proposée

On propose une nouvelle méthode qui suit avec succès à la fois les humains et les objets en 3D, même avec une seule caméra. Notre technique mélange deux approches avancées : des prédictions de champ neural et un ajustement de modèle. Cette combinaison s'est avérée plus efficace que les anciennes méthodes qui se concentraient uniquement sur la régression des poses humaines.

Au lieu d'imposer une profondeur fixe, notre méthode utilise des estimations de modèle pour chaque image afin de maintenir une compréhension cohérente du mouvement. Cette approche donne de meilleurs résultats de suivi et de reconstruction.

En plus, on sait que pendant les interactions, le mouvement d'un objet est souvent étroitement lié au mouvement d'une personne. Cette idée nous permet d'utiliser les données de mouvement des images visibles pour déduire des infos sur des objets cachés. Notre méthode utilise un type spécial de réseau neural qui exploite à la fois les données de mouvement humain et de visibilité des objets pour améliorer les prédictions pour les images occluses.

Grâce à notre approche, on peut suivre à la fois les humains et les objets avec plus de fiabilité, même dans des situations complexes où la visibilité est compromise.

Évaluation de la Méthode

Pour valider notre méthode, on a fait des expériences sur deux ensembles de données mettant en scène des interactions humain-objet. Les résultats montrent que notre méthode peut suivre efficacement les mouvements et les interactions réalistes entre les gens et les objets, même face à de fortes Occlusions.

On a aussi comparé notre approche avec des techniques existantes, PHOSA et CHORE. Ces anciennes méthodes ont souvent du mal avec les occlusions, ce qui entraîne des problèmes de précision de suivi. En revanche, notre méthode combine les infos de mouvement humain avec les données de visibilité, permettant un suivi robuste même quand des parties de l'objet ne sont pas clairement visibles.

Contributions Clés

  1. Suivi Conjoint des Humains et Objets: Notre méthode est la première à suivre conjointement les mouvements corporels des humains interagissant avec des objets mobiles en utilisant juste une caméra.

  2. Champs d'Interaction Conditionnés: On a introduit un réseau spécial qui prédit les mouvements basés sur des estimations de modèle, permettant un suivi constant des interactions humain-objet.

  3. Prédiction de Pose d'Objet: Notre approche inclut un réseau capable de prédire avec précision les poses d'objets, même quand ils sont partiellement cachés.

Nos expériences confirment que ces innovations entraînent des améliorations significatives par rapport aux méthodes actuelles. Notre code et nos modèles disponibles publiquement visent à encourager d'autres recherches dans ce domaine.

Vue d'Ensemble de la Méthode

Notre approche commence avec une séquence d'images où un humain interagit avec un objet. Le but est de reconstruire et de suivre les mouvements 3D tant de l'humain que de l'objet, ainsi que tous les contacts qui se produisent entre eux.

La première idée clé est un réseau spécialisé qui prédit des champs neuraux basés sur des modèles estimés de l'espace caméra. Ce processus nous permet de maintenir un suivi constant à travers les images. Notre deuxième idée porte sur la prédiction des poses d'objet tout en tenant compte des mouvements humains et de l’information de visibilité. Ce processus aide à suivre les objets avec précision, même sous de fortes occlusions.

Ensemble, ces composants améliorent notre capacité à optimiser ensemble le suivi des humains et des objets, prenant en compte les défis posés par les occlusions.

Travaux Connexes

Suivi des Mouvements Humains et Objet

L'introduction de modèles corporels comme SMPL a propulsé des avancées significatives dans la récupération des mouvements humains à partir d'images et de vidéos. Bien qu'il y ait eu des améliorations dans l'estimation des poses d'objets grâce à l'apprentissage profond, le suivi des mouvements d'objets dans les vidéos n'a pas reçu autant d'attention. Certaines méthodes tirent parti de la localisation de caméra à partir de preuves visuelles, mais elles peuvent avoir du mal dans des scénarios occlus et ne suivent pas les interactions humain-objet.

Interaction Humain-Objet

Modéliser les interactions entre humains et objets est un domaine de recherche en croissance. Certains travaux étudient spécifiquement comment les mains interagissent avec des objets en utilisant divers types d'entrées, comme des images RGB ou RGBD. Plusieurs ensembles de données, comme BEHAVE et InterCap, ont été créés pour évaluer les interactions corporelles complètes avec des objets mobiles. Cependant, beaucoup de méthodes actuelles reposent encore sur des configurations complexes et ne capturent pas efficacement les interactions avec une seule vue de caméra.

Gestion des Occlusions

La plupart des systèmes existants supposent que les images d'entrée sont exemptes d'occlusions, ce qui limite leur robustesse. Quelques méthodes examinent les occlusions partielles ou à long terme, mais elles ne considèrent pas les interactions humain-objet de manière complète. Notre méthode est unique car elle prend en compte à la fois le mouvement humain et la visibilité des objets lors du suivi des interactions, fournissant une approche plus précise à ce problème.

Défis du Suivi Monoculaire

Le principal défi pour suivre les mouvements des humains et des objets avec une seule caméra est de gérer l’information de profondeur. Beaucoup de méthodes existantes reposent sur des hypothèses de profondeur fixes, qui peuvent créer des incohérences dans le suivi au fil du temps.

Pour résoudre ces problèmes, on ajuste un modèle humain à travers la séquence vidéo pour obtenir des traductions cohérentes dans l'espace caméra. Ce processus d'ajustement nous aide à maintenir des mouvements cohérents à travers les images et permet une modélisation conjointe efficace des humains, des objets et de leurs interactions.

La difficulté augmente lorsque les objets ne sont que partiellement visibles. Pour y faire face, on incorpore un réseau qui exploite les données de mouvement des images voisines pour récupérer la pose des objets occlus. Cette méthode repose sur le mouvement humain et celui des objets pour améliorer la précision du suivi.

Approche Technique

La première étape de notre approche consiste à obtenir des maillages humains cohérents à partir de la séquence d'images. On initialise les paramètres du modèle humain en utilisant des prédictions d'un autre modèle, garantissant que les traductions résultantes sont cohérentes tout au long de la vidéo.

Ensuite, on introduit des champs d'interaction qui nous permettent de raisonner conjointement sur les mouvements humains et des objets. Notre réseau traite les images d'entrée ainsi que les maillages estimés pour prédire des champs d'interaction, qui incluent des distances aux surfaces humaines et des objets ainsi que des infos sur leur relation.

Pour le suivi d'objet, on utilise un décodeur de visibilité qui prédit à quel point l'objet est visible dans l'image actuelle. Ce décodeur joue un rôle crucial dans la récupération d’informations pour les images occluses.

Récupération de Pose d'Objet

Pour prédire avec précision les poses d'objets dans des situations où ils sont fortement occlus, on exploite les infos des images visibles. Ce processus implique d’agréger les caractéristiques de mouvement des données humaines et des objets pour améliorer les prédictions.

On utilise un type de réseau neural appelé transformeur pour capturer des informations temporelles, aidant à prédire les poses d'objets plus précisément pendant les occlusions. En combinant des caractéristiques des images visibles, notre approche surpasse des méthodes plus simples comme l'interpolation linéaire, qui ne tiennent pas compte de l'information contextuelle liée au mouvement humain.

Optimisation Conjointe

Pour obtenir un suivi précis des mouvements, on optimise notre méthode à travers une procédure d'optimisation conjointe robuste. Ce processus se concentre sur l'alignement des mouvements humains et des objets avec les observations 2D et sur l'assurance de contraintes d'interaction réalistes.

Le processus d'optimisation est divisé en étapes où on affine d'abord les paramètres du modèle humain, suivi par les paramètres de l'objet. Cette approche en deux étapes améliore les résultats finaux du suivi.

Résultats Expérimentaux

On a validé notre méthode en utilisant les ensembles de données BEHAVE et InterCap, qui incluent divers scénarios d'interactions humain-objet. Nos résultats montrent que notre méthode peut suivre les mouvements beaucoup plus efficacement par rapport aux méthodes existantes, surtout sous de fortes occlusions.

On a également réalisé des études d'ablation pour évaluer l'importance des différents composants de notre méthode. Les résultats ont confirmé que conditionner sur des estimations de modèle entraîne des améliorations significatives dans la précision du suivi.

Importance du Conditionnement

Le conditionnement de notre approche sur des estimations de modèle permet une meilleure cohérence dans le suivi des mouvements relatifs entre les images. Cela contraste avec les systèmes qui fonctionnent à des profondeurs fixes, souvent sources d'incohérences.

En analysant les prédictions de pose d'objet, on a constaté que notre méthode réduit considérablement les erreurs de suivi, même par rapport aux sorties brutes d'autres techniques. Le processus de conditionnement est crucial pour atteindre une haute précision dans le suivi des objets et des humains.

Comparaisons avec d'Autres Méthodes

En plus de comparer notre méthode avec des approches existantes comme PHOSA et CHORE, on a aussi évalué diverses alternatives pour la prédiction de pose d'objet. Beaucoup de ces alternatives ont eu du mal avec les occlusions, alors que notre méthode maintenait sa robustesse en tirant parti des données des images visibles pour déduire les poses occluses.

On a aussi montré que notre méthode se généralise bien à l'ensemble de données NTU-RGBD, maintenant son efficacité même sans formation directe sur celui-ci. Cette adaptabilité indique la polyvalence et le potentiel de notre technique de suivi pour des applications plus larges.

Limitations et Directions Futures

Bien que notre méthode montre des progrès dans le suivi même sous de fortes occlusions, elle a encore quelques limitations. D'abord, elle suppose que les modèles d'objets sont connus, ce qui n'est pas toujours le cas. Les travaux futurs pourraient impliquer le développement de systèmes capables de créer automatiquement des modèles d'objets à partir de vidéos.

De plus, gérer des situations impliquant plusieurs personnes ou objets reste un défi que nous comptons adresser. Cette amélioration permettrait de capturer des interactions plus réalistes dans des scénarios réels.

Conclusion

Notre méthode représente une avancée dans la capture des interactions humain-objet à partir de vidéos RGB monoculaires.

En proposant un réseau de champ neural conditionné pour une reconstruction 3D cohérente et un réseau séparé qui prend en compte le mouvement humain et la visibilité, on a réalisé des améliorations significatives par rapport aux méthodes traditionnelles. Nos recherches montrent également le potentiel de généralisation à d'autres ensembles de données, ouvrant la voie à de nouveaux développements dans ce domaine.

On encourage la recherche continue dans ce domaine, visant des solutions qui répondent aux défis posés par les occlusions et améliorent la précision du suivi des interactions impliquant humains et objets.

Source originale

Titre: Visibility Aware Human-Object Interaction Tracking from Single RGB Camera

Résumé: Capturing the interactions between humans and their environment in 3D is important for many applications in robotics, graphics, and vision. Recent works to reconstruct the 3D human and object from a single RGB image do not have consistent relative translation across frames because they assume a fixed depth. Moreover, their performance drops significantly when the object is occluded. In this work, we propose a novel method to track the 3D human, object, contacts between them, and their relative translation across frames from a single RGB camera, while being robust to heavy occlusions. Our method is built on two key insights. First, we condition our neural field reconstructions for human and object on per-frame SMPL model estimates obtained by pre-fitting SMPL to a video sequence. This improves neural reconstruction accuracy and produces coherent relative translation across frames. Second, human and object motion from visible frames provides valuable information to infer the occluded object. We propose a novel transformer-based neural network that explicitly uses object visibility and human motion to leverage neighbouring frames to make predictions for the occluded frames. Building on these insights, our method is able to track both human and object robustly even under occlusions. Experiments on two datasets show that our method significantly improves over the state-of-the-art methods. Our code and pretrained models are available at: https://virtualhumans.mpi-inf.mpg.de/VisTracker

Auteurs: Xianghui Xie, Bharat Lal Bhatnagar, Gerard Pons-Moll

Dernière mise à jour: 2023-10-31 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.16479

Source PDF: https://arxiv.org/pdf/2303.16479

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires