Intégration des données vidéo et IMU pour la reconnaissance d'actions
Une nouvelle méthode combine des vidéos et des données IMU pour améliorer les techniques de reconnaissance d'actions.
― 7 min lire
Table des matières
La Reconnaissance d'actions, c'est la capacité d'identifier et de comprendre les actions humaines à partir de données visuelles ou de mouvement. Avec l'essor de la technologie portable, les chercheurs cherchent mieux à reconnaître les actions en utilisant différentes sources de données. Cet article parle d'une méthode qui combine des vidéos de caméras portables avec des données d'unités de mesure inertielle (IMU) fixées sur le corps.
C'est quoi les IMUs ?
Les IMUs sont de petits capteurs qui suivent le mouvement en mesurant l'accélération, la rotation et l'orientation. Quand on les fixe sur différentes parties du corps, ils peuvent donner des infos précises sur le mouvement. Contrairement aux caméras vidéo, qui peuvent être affectées par la lumière et les obstructions, les IMUs enregistrent de manière fiable comment une personne se déplace. Ça les rend super utiles pour comprendre les actions dans la vraie vie.
Données vidéo et IMU
Combiner lesLe défi de reconnaître les actions juste à partir de vidéos a poussé à utiliser les IMUs avec les données vidéo. Chaque type de données a ses forces : les vidéos donnent un contexte visuel, tandis que les IMUs capturent des informations de mouvement précises. En combinant ces deux types de données, on peut obtenir une compréhension plus complète des actions humaines.
Mais il y a des défis. Un gros problème est la quantité limitée de données étiquetées disponibles pour entraîner des modèles capables de reconnaître les actions en utilisant à la fois des données vidéo et IMU. La plupart des jeux de données actuellement utilisés impliquent des IMUs fixés sur des caméras, qui ne fournissent pas d'infos supplémentaires au-delà de ce que la vidéo peut montrer. Quelques jeux de données ont des vidéos synchronisées avec des IMUs séparément fixés, mais ils sont rares et contiennent généralement peu de données.
Un autre défi est la complexité de gérer plusieurs IMUs sur différentes parties du corps. Chaque IMU ne peut capturer des données de mouvement que pour une seule partie du corps, rendant difficile d'avoir une vue d'ensemble des actions d'une personne.
Méthode proposée
Pour relever ces défis, une nouvelle méthode a été développée qui intègre les données vidéo et IMU pour la reconnaissance d'actions. Cette approche utilise une technique de Pré-entraînement qui ne nécessite pas de données étiquetées, nous permettant de profiter des grandes quantités de données vidéo et IMU non étiquetées disponibles.
L'idée est simple : on reconnaît qu'il y a une corrélation entre les données vidéo et les données IMU. Par exemple, les mouvements des bras dans une vidéo se corrèlent bien avec les données IMU des bras. De même, le mouvement global de la personne capturé par la caméra se rapporte aux données IMU des membres inférieurs. En profitant de cette relation, on peut créer un modèle capable de reconnaître les actions sans avoir besoin de jeux de données étiquetées étendus.
Comprendre les relations entre les IMUs
Pour améliorer la modélisation des différents IMUs situés sur le corps, la méthode crée une structure de graphe. Chaque nœud du graphe représente les données de mouvement d'un IMU différent. En capturant efficacement la relation entre ces IMUs, on améliore la capacité du modèle à reconnaître les actions. Cette approche basée sur le graphe permet au modèle de comprendre comment différentes parties du corps interagissent lors de l'exécution de diverses actions.
Processus de pré-entraînement
Pendant la phase de pré-entraînement, les données vidéo et IMU sont traitées. Des parties de chaque ensemble de données sont masquées, ce qui signifie que seules certaines portions sont utilisées pour l'entraînement. Le modèle essaie de reconstruire les entrées originales à partir de ces portions masquées, apprenant à prédire les informations manquantes. Cette approche auto-supervisée permet au modèle d'apprendre des représentations solides à partir des données sans avoir besoin d'exemples étiquetés.
Le pré-entraînement implique deux branches principales : une pour reconstruire les morceaux vidéo et une autre pour reconstruire les caractéristiques IMU. En apprenant à compléter les parties masquées, le modèle développe une compréhension plus profonde de la manière dont les données vidéo et IMU se complètent.
Ajustement pour la reconnaissance d'actions
Après le pré-entraînement, le modèle passe par une phase d'ajustement. Pendant cette phase, les décodeurs utilisés pour reconstruire les données sont supprimés pour se concentrer sur la classification des actions. Le modèle est maintenant entraîné sur une tâche spécifique de reconnaissance d'actions, utilisant à la fois les données vidéo et IMU.
La méthode a été testée sur divers ensembles de données, représentant différents types d'activités. Les résultats montrent que cette approche surpasse les modèles conventionnels qui ne s'appuient que sur un seul type de données. Les améliorations indiquent que le modèle combine efficacement les forces des données vidéo et IMU.
Faire face aux défis du monde réel
Dans les applications du monde réel, les utilisateurs peuvent faire face à des défis, comme des capteurs IMU manquants ou une qualité vidéo dégradée à cause d'un mauvais éclairage. Le modèle a montré sa robustesse dans des situations où certains IMUs ne sont pas disponibles ou la qualité vidéo est faible. En exploitant efficacement les données des capteurs restants, le modèle fonctionne toujours bien, démontrant son adaptabilité dans diverses situations.
Conclusion
La méthode proposée pour la reconnaissance d'actions met en avant le potentiel de combiner des vidéos égocentriques avec des données IMU. Cette intégration offre une compréhension plus riche des actions humaines et aborde certaines des limites rencontrées par les modèles traditionnels basés uniquement sur la vidéo. La capacité à travailler avec des données non étiquetées et à gérer efficacement des scénarios difficiles ouvre de nouvelles portes pour la reconnaissance d'actions dans divers domaines.
Les recherches futures peuvent explorer des moyens d'améliorer l'efficacité computationnelle et de développer des structures de graphe plus avancées. À mesure que de plus en plus de dispositifs IMU deviennent disponibles, un graphe plus détaillé pourrait aider à capturer des relations encore plus complexes entre les mouvements du corps.
Le développement continu de ces technologies bénéficiera à des domaines comme l'analyse sportive, la surveillance de la santé et les jeux interactifs, où comprendre les actions humaines est crucial. Cette nouvelle approche représente un pas en avant significatif dans le domaine de la reconnaissance d'actions et de la technologie portable.
Titre: Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition
Résumé: Compared with visual signals, Inertial Measurement Units (IMUs) placed on human limbs can capture accurate motion signals while being robust to lighting variation and occlusion. While these characteristics are intuitively valuable to help egocentric action recognition, the potential of IMUs remains under-explored. In this work, we present a novel method for action recognition that integrates motion data from body-worn IMUs with egocentric video. Due to the scarcity of labeled multimodal data, we design an MAE-based self-supervised pretraining method, obtaining strong multi-modal representations via modeling the natural correlation between visual and motion signals. To model the complex relation of multiple IMU devices placed across the body, we exploit the collaborative dynamics in multiple IMU devices and propose to embed the relative motion features of human joints into a graph structure. Experiments show our method can achieve state-of-the-art performance on multiple public datasets. The effectiveness of our MAE-based pretraining and graph-based IMU modeling are further validated by experiments in more challenging scenarios, including partially missing IMU devices and video quality corruption, promoting more flexible usages in the real world.
Auteurs: Mingfang Zhang, Yifei Huang, Ruicong Liu, Yoichi Sato
Dernière mise à jour: 2024-07-09 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.06628
Source PDF: https://arxiv.org/pdf/2407.06628
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.