Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans le scan 3D du corps avec des caméras événementielles

Une méthode pour un scan 3D précis du corps en utilisant des données d'événements provenant des caméras.

― 9 min lire


Scan 3D du corps avec desScan 3D du corps avec descaméras événementiellescaméra événementielle.utilisant des techniques avancées deModélisation précise du corps humain en
Table des matières

Capturer un modèle 3D du corps humain est une tâche clé en vision par ordinateur. Ce boulot a plein d’utilités, comme la réalité virtuelle et l’analyse de la performance sportive. Les caméras traditionnelles galèrent avec les mouvements rapides ou les faibles éclairages, ce qui limite leur utilité dans des scénarios réels. Les caméras événementielles, qui enregistrent les changements de luminosité plutôt que de capturer des images complètes à intervalles réguliers, offrent une solution. Elles fournissent des données ultra-rapides et une excellente plage de lumière, mais il faut développer des méthodes pour travailler avec les données uniques qu’elles produisent.

Cet article présente une nouvelle approche pour estimer la position et la forme d'une personne en utilisant uniquement les données d'une Caméra événementielle qui se déplace autour d'un individu stationnaire. Contrairement aux méthodes précédentes qui nécessitaient à la fois des données d'événements et des images traditionnelles, cette méthode repose uniquement sur les événements. La caméra tourne autour du corps, collecte des données, et à partir de ça, elle reconstruit la position et la forme du corps. Ça se fait en convertissant les événements en représentation 3D, permettant ainsi une compréhension détaillée de la forme humaine.

Aperçu de la méthode

Estimer les poses humaines avec des caméras présente divers défis. Il y a beaucoup d'applications, comme dans le sport et la détection de comportements étranges. Traditionnellement, des techniques d'apprentissage profond sont utilisées avec des caméras standards pour analyser les images des poses humaines. Cependant, ces méthodes ont des limites, surtout quand on doit gérer des mouvements rapides ou des conditions de faible éclairage. Les caméras événementielles, qui capturent les données différemment, ont suscité de l'intérêt pour leur capacité à gérer ces problèmes.

Les caméras événementielles fonctionnent différemment des caméras traditionnelles. Elles réagissent aux changements de luminosité et capturent les événements au fur et à mesure qu'ils se produisent. Ça leur permet d'atteindre des taux de rafraîchissement beaucoup plus élevés et des plages dynamiques plus larges. Cependant, comme ces caméras produisent des types de données différents, de nouvelles méthodes sont essentielles pour utiliser efficacement ces données d'événements afin d'estimer les poses et les formes humaines.

Beaucoup de méthodes existantes s'appuient encore sur des images standards avec des données d'événements, ce qui peut introduire les mêmes limitations que celles trouvées avec les caméras traditionnelles. Dans ce travail, on propose une méthode de scan 3D du corps humain qui repose uniquement sur les données d'une caméra événementielle. Alors que la caméra se déplace autour d'une personne, elle récolte des données qui sont utilisées pour créer une représentation 3D du corps, y compris le maillage et les positions des articulations.

Comment fonctionne la méthode

Le processus proposé comprend plusieurs étapes :

  1. Collecte de données d'événements : Alors que la caméra événementielle se déplace autour d'une personne immobile, elle enregistre les événements liés aux contours de la personne, ce qui nous permet d'identifier l'outline de manière efficace.

  2. Carving de voxels : Les événements capturés sont ensuite utilisés pour sculpter des voxels. C’est une technique où on crée une forme 3D basée sur les contours détectés dans les données. Plus on capture de données sous différents angles, plus les formes résultantes peuvent être lisses et détaillées.

  3. Ajustement de modèles corporels statistiques : Après le carving des voxels, on utilise des modèles corporels connus pour ajuster les données capturées. Cette étape aide à affiner les détails de la forme et de la position, garantissant que la représentation 3D ressemble de près au corps humain réel.

Les caméras normales peuvent avoir des problèmes de flou de mouvement, ce qui se produit quand des mouvements rapides rendent les images floues. Notre méthode proposée montre des résultats prometteurs même dans ces situations difficiles, où les méthodes conventionnelles échoueraient.

Avantages de la méthode

Cette approche offre plusieurs avantages par rapport aux méthodes traditionnelles :

  • Pas besoin d'images fixes : Contrairement aux méthodes existantes qui nécessitent à la fois des images et des événements, cette méthode utilise uniquement les données d'événements pour produire des modèles 3D précis. C’est donc plus simple et plus efficace.

  • Haute précision : Les résultats montrent que la méthode a un niveau de précision élevé dans l'estimation de la position et de la forme du corps humain. Elle se débrouille mieux que beaucoup de méthodes basées sur des caméras traditionnelles.

  • Robuste contre le flou de mouvement : Même quand la caméra se déplace vite, ce qui entraîne un flou de mouvement dans les images traditionnelles, la méthode basée sur les événements parvient à maintenir clarté et précision.

Détails techniques de la méthode

La méthode implique essentiellement de décomposer les étapes de manière simple. D'abord, la caméra événementielle identifie et classe les événements de "contour", qui marquent les bords du corps. Ces événements sont ensuite transformés en points 3D grâce à un processus appelé carving de voxels. En créant une représentation 3D avec des détails fins, on s'assure que même les petites caractéristiques comme les doigts et les contours du visage peuvent être représentés avec précision.

La partie intéressante de la technique est l'utilisation de l'atténuation des rayons, qui aide à améliorer le détail dans le modèle final. Ça veut dire que quand la caméra s'éloigne du sujet, les données qu'elle collecte peuvent encore être finement ajustées pour produire une forme plus claire.

Après avoir obtenu la représentation des voxels, on utilise des modèles statistiques pour obtenir la forme finale du corps et la pose. Ça se fait par ajustement, où des modifications sont apportées jusqu'à ce que le modèle corresponde étroitement aux données collectées. La technologie derrière ce processus d'ajustement tire parti de techniques d'optimisation avancées pour minimiser les écarts entre le modèle et le corps réel.

Évaluation de la méthode

Tester la méthode a impliqué de créer un dataset spécifiquement conçu pour ce type d'analyse. Le dataset incluait diverses poses, conditions d'éclairage et séquences de mouvement pour fournir un terrain d'essai complet pour la méthode.

Les métriques d'évaluation incluent :

  • Erreur moyenne par position des articulations (MPJPE) : Cela mesure à quel point les positions estimées des articulations correspondent aux positions réelles.

  • Distance de Chamfer (CD) : Cela évalue la similarité entre le maillage corporel estimé et le vrai maillage en comparant des points échantillonnés des deux surfaces.

Les résultats ont montré que la méthode proposée réduit significativement les erreurs liées à la position des articulations et à la précision du maillage corporel par rapport aux méthodes basées sur des images. La constance des faibles erreurs dans différentes poses et conditions démontre la fiabilité de la méthode.

Défis et futures directions

Bien que la méthode proposée montre de grandes promesses, il y a encore des défis à surmonter. Un domaine de préoccupation est le besoin que la caméra soit en mouvement pour rassembler des données précises, ce qui n'est pas toujours pratique dans des situations réelles. Cela nécessite le développement de techniques pour estimer le chemin ou la position de la caméra pendant la capture.

De plus, même si la classification des contours est soutenue par des méthodes d'apprentissage profond, elle peut rencontrer des difficultés lorsque l'on traite des textures de vêtements complexes ou des poses qui n'étaient pas incluses dans les données d'entraînement. Pour améliorer la robustesse, un dataset d'entraînement plus large avec des formes et textures corporelles diverses peut être nécessaire.

En outre, la méthode a actuellement des limites pour capturer des détails très fins en raison de la nature du carving de voxels. Des avancées futures dans la compréhension spatiale, en s'inspirant de technologies comme les Neural Radiance Fields, pourraient accroître la capacité à capturer des caractéristiques corporelles complexes.

Conclusion

Ce travail introduit une méthode unique pour le scan 3D du corps humain en utilisant uniquement des données d'événements d'une caméra en mouvement. Grâce à la combinaison d'identification des contours, de carving de voxels et d'ajustement de modèles statistiques, on obtient des résultats précis dans l'estimation des poses et des formes humaines. Notre approche se démarque par son efficacité et son efficacité à surmonter les limitations souvent rencontrées par les méthodes traditionnelles.

Les résultats prometteurs ouvrent la voie à de futures améliorations, notamment une meilleure gestion des scènes complexes et l'intégration avec les avancées actuelles en vision par ordinateur. Dans l'ensemble, ce travail pose une base solide pour une exploration plus approfondie dans le domaine du scan 3D du corps humain et des applications de caméras événementielles.

Source originale

Titre: 3D Human Scan With A Moving Event Camera

Résumé: Capturing a 3D human body is one of the important tasks in computer vision with a wide range of applications such as virtual reality and sports analysis. However, conventional frame cameras are limited by their temporal resolution and dynamic range, which imposes constraints in real-world application setups. Event cameras have the advantages of high temporal resolution and high dynamic range (HDR), but the development of event-based methods is necessary to handle data with different characteristics. This paper proposes a novel event-based method for 3D pose estimation and human mesh recovery. Prior work on event-based human mesh recovery require frames (images) as well as event data. The proposed method solely relies on events; it carves 3D voxels by moving the event camera around a stationary body, reconstructs the human pose and mesh by attenuated rays, and fit statistical body models, preserving high-frequency details. The experimental results show that the proposed method outperforms conventional frame-based methods in the estimation accuracy of both pose and body mesh. We also demonstrate results in challenging situations where a conventional camera has motion blur. This is the first to demonstrate event-only human mesh recovery, and we hope that it is the first step toward achieving robust and accurate 3D human body scanning from vision sensors. https://florpeng.github.io/event-based-human-scan/

Auteurs: Kai Kohyama, Shintaro Shiba, Yoshimitsu Aoki

Dernière mise à jour: 2024-04-16 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.08504

Source PDF: https://arxiv.org/pdf/2404.08504

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires