Avancées dans la capture de mouvement 3D sans marqueurs
Une nouvelle méthode pour un suivi de mouvement 3D précis en utilisant des données vidéo.
― 9 min lire
Table des matières
Le suivi précis des mouvements 3D du corps humain est super important pour plein de domaines comme la réhabilitation, la prévention des blessures et le diagnostic de santé. Ça nous permet de voir comment le corps réagit à différents mouvements.
Les systèmes de capture de mouvement traditionnels qui utilisent des marqueurs sont chers. Ils demandent beaucoup de fric, de temps et d'expertise. En plus, obtenir assez de données de bonne qualité avec des étiquettes correctes, c'est pas évident. Les méthodes existantes qui ne utilisent pas de marqueurs rencontrent des défis. Elles ont souvent des soucis pour détecter correctement les points clés, ce qui donne des mesures du corps inexactes.
Ce travail présente une nouvelle méthode qui peut directement nous donner des données de mouvement 3D à partir de deux angles vidéo. Elle prend en compte comment le corps bouge et comment les différentes parties interagissent. Pour entraîner le modèle, on a créé des données d’entraînement synthétiques qui montrent précisément les mouvements du corps en alignant des modèles avec de vraies données humaines.
Nos tests montrent que cette nouvelle méthode surpasse les approches précédentes, même quand elle est juste entraînée sur des Données synthétiques. Ça ouvre la porte à de meilleures manières de capturer les mouvements humains à partir de vidéos.
Introduction
Capturer le mouvement humain est essentiel pour différentes applications. Les systèmes qui utilisent des marqueurs réfléchissants sont considérés comme la référence pour le suivi des mouvements. Cependant, ils sont chers et prennent du temps. Ils limitent aussi les mouvements naturels du corps, ce qui les rend moins désirables.
Les systèmes de capture de mouvement sans marqueurs ont gagné en attention grâce à leur rapport qualité-prix. Ces systèmes reposent sur l'estimation des mouvements du corps en se basant sur des points 2D détectés. Pourtant, beaucoup de ces méthodes galèrent parce qu'elles utilisent souvent des données qui ne sont pas étiquetées avec précision. Bien que l'imagerie par rayons X puisse fournir des étiquettes précises, c'est aussi coûteux et peu pratique pour un usage quotidien.
En plus de ça, il n'y a pas beaucoup de grands ensembles de données avec des données précises nécessaires pour développer des systèmes de suivi du mouvement fiables. Cette rareté complique la création de modèles qui peuvent fonctionner dans diverses situations.
Pour relever ces défis, ce travail se concentre sur trois stratégies principales :
- Création de données synthétiques : Cela aide à surmonter le problème d'un manque de données étiquetées de haute qualité.
- Ajout de Contraintes biomécaniques : Cela garantit que les mouvements prédits par le modèle restent réalistes.
- Réalisation d'expériences approfondies : Cela démontrera la capacité du modèle à performer sur différents ensembles de données.
L'estimation cinématique fait référence à comprendre comment les différentes parties du corps bougent les unes par rapport aux autres dans le temps. Estimer ce mouvement avec précision est clé pour des applications liées à la santé et au sport, où connaître la charge sur les articulations est vital.
Les systèmes qui capturent le mouvement en utilisant des marqueurs sont bien acceptés dans ce domaine. Cependant, comme mentionné précédemment, ils sont coûteux et peuvent restreindre le mouvement naturel. En conséquence, beaucoup de chercheurs explorent le développement de méthodes qui ne reposent pas sur des marqueurs.
Les récentes avancées en apprentissage profond ont favorisé le progrès dans l'estimation de la posture humaine 3D. En combinant ces techniques avancées avec des modèles biomécaniques, on peut analyser les mouvements humains plus efficacement. Cependant, il y a un écart notable entre ces deux domaines d'étude.
Le principal problème est que les données de joint 2D utilisées dans les méthodes standard d'estimation de posture peuvent souvent être anatomiquement incorrectes. Cela entraîne des erreurs dans les données cinématiques 3D produites. De plus, beaucoup de méthodes ne tiennent pas compte des contraintes biomécaniques, ce qui donne des mouvements qui n'ont pas l'air réalistes.
Le manque de grands ensembles de données avec des données de mouvement 3D précises est un autre défi majeur. La meilleure façon de capturer les mouvements des articulations est à travers des techniques d'imagerie comme les scans par rayons X, qui ne sont pas pratiques pour une utilisation fréquente. Bien que certains ensembles de données aient été collectés en utilisant des systèmes avec marqueurs, ils souffrent souvent de bruit et de problèmes de synchronisation.
Ce travail introduit un cadre de capture de mouvement sans marqueur qui prend deux angles vidéo en entrée. La méthode commence par extraire des caractéristiques de ces vidéos. Au lieu d'identifier des emplacements spécifiques de joints, elle prend des points directement à partir des images. Étant donné la nature dynamique du mouvement humain, ces caractéristiques sont ensuite affinées en utilisant des informations provenant de plusieurs images au fil du temps.
Pour surmonter le manque d'ensembles de données avec des données de mouvement précises, nous produisons des vidéos synthétiques en intégrant des données de diverses sources. Nous alignons le modèle squelettique avec les données de mouvement humain pour créer un nouvel ensemble de données. Cet ensemble inclut des variations dans les vêtements, l'éclairage et les angles de caméra, le rendant plus réaliste.
Méthodologie
Création de Données Synthétiques
Pour aider à la capture de mouvement et à l'analyse, nous créons un ensemble de données synthétiques qui capture précisément les mouvements humains. Cet ensemble combine un modèle squelettique avec des maillages humains et des mouvements dérivés d'autres ensembles de données. En faisant cela, nous garantissons que les données sont non seulement précises mais aussi étendues en couvrant divers mouvements et apparences.
Pour commencer à générer les données synthétiques, nous alignons un modèle squelettique avec des maillages humains. Nous générons ensuite des séquences de mouvements en utilisant des articulations et des angles dérivés d'un ensemble de données bien connu qui capture des mouvements divers. En variant les types de vêtements, les conditions d'éclairage et les positions de caméra, nous améliorons le réalisme de nos vidéos synthétiques.
Architecture du Réseau
Le modèle proposé consiste en deux parties principales :
- Encodeur de Caractéristiques de Cadre : Cette partie traite chaque image de la vidéo d'entrée pour créer une représentation compacte des caractéristiques.
- Affinage des Caractéristiques Spatio-Temporelles : Cette partie améliore les caractéristiques initiales en ajoutant des informations provenant de plusieurs images au fil du temps.
Les données vidéo capturées à partir de deux angles différents sont d'abord encodées en un ensemble de caractéristiques. Au lieu d'exiger une détection explicite des articulations, nous prenons des points à l'intérieur de l'image. Les caractéristiques extraites des images sont ensuite raffinées pour incorporer à la fois des informations spatiales et temporelles.
Fonction de Perte
Le modèle utilise une combinaison de différentes fonctions de perte pour garantir la précision des prédictions. Ces pertes aident le modèle à apprendre efficacement et à améliorer ses prédictions dans le temps.
- Angles d'Articulations : Nous mesurons la différence entre les angles d'articulations prédits et réels.
- Contraintes Biomécaniques : Nous imposons des règles qui restreignent les mouvements des articulations à des plages réalistes pour assurer la justesse anatomique.
- Échelles des Segments Corporels : Nous suivons les variations de taille des différentes parties du corps et nous assurons qu'elles correspondent aux attentes.
- Positions des Points Clés : Nous surveillons également les positions des points clés sur le corps pour garantir l'exactitude durant le mouvement.
Résultats
Nous avons mené des tests approfondis sur notre ensemble de données synthétiques ainsi que sur deux ensembles de données du monde réel pour vérifier l'efficacité de notre méthode proposée. Dans chaque test, notre approche a montré une performance supérieure par rapport aux autres méthodes, notamment en termes d'erreurs d'angles d'articulations et d'erreurs de position d'articulations 3D.
Non seulement notre modèle a excellé dans des environnements synthétiques, mais il a aussi réussi à bien se généraliser à des contextes du monde réel. C'est un avantage significatif, car cela indique que notre modèle peut être appliqué efficacement à une gamme de scénarios.
Les résultats de nos expériences confirment que les données synthétiques que nous avons générées sont de haute qualité. Cela permet à notre modèle d'être robuste et adaptable, ouvrant la voie à de futurs développements dans le domaine de la capture de mouvement.
Discussion
Bien que la méthode proposée montre un grand potentiel pour améliorer l'estimation cinématique 3D, elle a quelques limitations. La qualité visuelle des données synthétiques et la variété des mouvements représentés doivent être développées davantage. De plus, la taille de l'architecture du modèle pourrait nécessiter d'être optimisée pour des applications dans le monde réel.
Les travaux futurs peuvent se concentrer sur l'amélioration de la qualité visuelle des données synthétiques en utilisant des techniques d'entraînement avancées. Inclure une plus grande variété d'actions humaines et de poses de vraies personnes renforcera également la performance du modèle.
En conclusion, ce travail présente une nouvelle approche de capture de mouvement sans marqueur qui démontre de belles performances, surtout lorsqu'elle est entraînée uniquement sur des données synthétiques. Les résultats indiquent un fort potentiel pour des applications réelles, notamment dans les domaines de la santé et de l'entraînement sportif. L'utilisation innovante de modèles biomécaniques combinée avec des techniques d'apprentissage profond constitue un pas en avant positif dans le domaine de l'analyse de mouvement.
Titre: 3D Kinematics Estimation from Video with a Biomechanical Model and Synthetic Training Data
Résumé: Accurate 3D kinematics estimation of human body is crucial in various applications for human health and mobility, such as rehabilitation, injury prevention, and diagnosis, as it helps to understand the biomechanical loading experienced during movement. Conventional marker-based motion capture is expensive in terms of financial investment, time, and the expertise required. Moreover, due to the scarcity of datasets with accurate annotations, existing markerless motion capture methods suffer from challenges including unreliable 2D keypoint detection, limited anatomic accuracy, and low generalization capability. In this work, we propose a novel biomechanics-aware network that directly outputs 3D kinematics from two input views with consideration of biomechanical prior and spatio-temporal information. To train the model, we create synthetic dataset ODAH with accurate kinematics annotations generated by aligning the body mesh from the SMPL-X model and a full-body OpenSim skeletal model. Our extensive experiments demonstrate that the proposed approach, only trained on synthetic data, outperforms previous state-of-the-art methods when evaluated across multiple datasets, revealing a promising direction for enhancing video-based human motion capture
Auteurs: Zhi-Yi Lin, Bofan Lyu, Judith Cueto Fernandez, Eline van der Kruk, Ajay Seth, Xucong Zhang
Dernière mise à jour: 2024-03-05 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.13172
Source PDF: https://arxiv.org/pdf/2402.13172
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.