Améliorer la prédiction du mouvement humain avec des tâches auxiliaires
Une nouvelle méthode améliore la prédiction de mouvement en utilisant des tâches d'apprentissage auxiliaires.
― 6 min lire
Table des matières
La prédiction du mouvement humain, c'est un peu deviner comment les gens vont bouger à l'avenir en se basant sur leurs mouvements passés. Ça a des applications pratiques dans des domaines comme la robotique, les jeux vidéo et les voitures autonomes. Un des gros défis dans ce domaine, c'est de comprendre comment différentes parties du corps bougent ensemble avec le temps. Les méthodes passées ont essayé de régler ça en utilisant des types de réseaux spécifiques qui regardent à la fois l'espace (la position des articulations) et le temps (comment le mouvement change).
Le Problème
Quand on observe le mouvement d’une personne, on peut voir comment ses parties du corps (comme les bras et les jambes) interagissent de manière complexe. Pour prédire les mouvements futurs de manière précise, c'est super important de capturer comment ces parties du corps se relient les unes aux autres, autant en termes de leurs positions que de leur évolution dans le temps. Développer des techniques efficaces pour capter ces relations est essentiel pour de meilleures prédictions.
Beaucoup de méthodes existantes se concentrent sur la construction de structures de réseau compliquées, mais cet article présente une approche différente en utilisant des Tâches auxiliaires. Ces tâches aident à améliorer la tâche principale de prédiction du mouvement en faisant apprendre au réseau davantage à partir des données.
Approche des Tâches Auxiliaires
Dans notre approche, on introduit des tâches auxiliaires où certaines coordonnées des articulations sont volontairement rendues floues en les masquant ou en ajoutant du bruit aléatoire. Le boulot du réseau devient de retrouver les positions d'origine à partir des coordonnées claires restantes. En entraînant le modèle avec ces tâches supplémentaires, il devient meilleur pour comprendre les relations entre les articulations, ce qui mène à une meilleure prédiction des mouvements.
Les tâches auxiliaires sur lesquelles on se concentre sont :
Tâche de Dénonciation : On ajoute du bruit aléatoire aux coordonnées des articulations à différents moments, et le but est de récupérer le mouvement fluide d'origine.
Tâche de Prédiction de Caractéristiques Masquées : Des coordonnées aléatoires sont cachées, et l’objectif est de prédire ces positions manquantes en se basant sur d'autres données visibles.
Ces tâches obligent le réseau à en apprendre plus sur la façon dont les relations spatiales et temporelles fonctionnent ensemble.
Comment Fonctionnent les Méthodes Actuelles
Les méthodes traditionnelles s'appuyaient sur certaines structures comme les Réseaux de Neurones Récurrents (RNN) ou les Réseaux de Convolution Graphiques (GCN) pour capturer le timing des mouvements ou comment les articulations se connectent spatialement. Alors que certains utilisaient des GCN pour relier les articulations corporelles comme des nœuds dans un graphe, beaucoup n'ont pas réussi à capturer efficacement à la fois le timing et la position ensemble.
Certaines méthodes avaient du mal à modéliser les dépendances spatiales correctement car elles se concentraient uniquement sur le timing. Notre travail s'ajoute aux méthodes existantes en introduisant des tâches d'apprentissage supplémentaires qui poussent le réseau à mieux capturer ces relations.
Notre Solution : Transformer Adapté aux Auxiliaires
Pour mettre en œuvre nos tâches auxiliaires dans le processus d'apprentissage, on a conçu un type spécial de réseau appelé le Transformer Adapté aux Auxiliaires. Ce réseau est capable de gérer des données incomplètes tout en capturant comment différentes articulations dépendent les unes des autres.
Caractéristiques Clés de Notre Réseau
Dépendance par Coordonnée : La position de chaque articulation est traitée comme une caractéristique individuelle. Le réseau apprend à relier ces caractéristiques en utilisant des mécanismes d'attention qui modélisent à la fois les dépendances spatiales et temporelles.
Adaptable aux Données Manquantes : Le réseau peut reconnaître quand des données sont manquantes (à cause de la tâche de masquage) en utilisant des jetons spéciaux pour indiquer cela.
Structure Partagée : La tâche principale de prédiction et les tâches auxiliaires partagent la même structure de réseau, rendant le modèle plus cohérent et efficace.
Cadre d'Apprentissage
Le cadre d'apprentissage se compose de trois tâches qui travaillent ensemble :
Tâche Principale de Prédiction Future : C'est le but principal, prédire comment une personne va bouger à l'avenir.
Tâche Auxiliaire de Dénonciation : Aide le réseau à récupérer des données bruitées.
Tâche Auxiliaire de Prédiction de Masquage : Aide à prédire les positions d'articulations cachées.
En faisant fonctionner ces tâches ensemble, le modèle apprend mieux les dépendances spatiales-temporelles, ce qui aide à améliorer la prédiction globale des mouvements.
Résultats Expérimentaux
On a fait des expériences pour voir comment notre méthode fonctionne en pratique. On a testé sur trois ensembles de données différents : Human3.6M, CMU Mocap et 3DPW.
Prédiction à Court Terme
Pour les prédictions à court terme (jusqu'à 400 millisecondes), notre méthode a montré de meilleures performances par rapport aux techniques existantes. On a vérifié à quel point notre méthode prédisait correctement les positions à différents moments futurs et on a constaté qu'elle surpassait constamment d'autres approches.
Prédiction à Long Terme
Pour les prédictions plus longues (plus de 400 millisecondes), notre méthode a maintenu son succès. On l'a comparée à plusieurs méthodes établies et on a trouvé qu'elle offrait constamment une meilleure précision sur une gamme d'actions.
Robustesse à la Qualité des Données
Notre méthode prédit non seulement bien les mouvements, mais elle fonctionne aussi mieux quand les données sont manquantes ou bruitées. On a testé à quel point notre modèle pouvait fonctionner quand des parties des données d'entrée étaient cachées ou déformées. Dans les deux scénarios, notre approche s'est révélée plus efficace comparée aux méthodes traditionnelles, indiquant qu'elle peut gérer les problèmes du monde réel où les données ne sont pas toujours parfaites.
Conclusion
Dans ce travail, on a introduit un cadre innovant pour prédire le mouvement humain qui utilise des tâches auxiliaires pour améliorer la compréhension des dépendances spatiales-temporelles entre les articulations du corps. Notre approche, connue sous le nom d'AuxFormer, montre une performance améliorée lorsqu'il s'agit de prédire des mouvements futurs par rapport aux méthodes existantes. Non seulement elle atteint des résultats à la pointe de la technologie sur plusieurs ensembles de données, mais elle montre aussi une plus grande robustesse face aux données manquantes ou bruitées.
Cette avancée pourrait ouvrir la voie à des applications plus fiables en robotique et en IA, où prédire avec précision le mouvement humain est vital pour l'interaction et la sécurité.
Titre: Auxiliary Tasks Benefit 3D Skeleton-based Human Motion Prediction
Résumé: Exploring spatial-temporal dependencies from observed motions is one of the core challenges of human motion prediction. Previous methods mainly focus on dedicated network structures to model the spatial and temporal dependencies. This paper considers a new direction by introducing a model learning framework with auxiliary tasks. In our auxiliary tasks, partial body joints' coordinates are corrupted by either masking or adding noise and the goal is to recover corrupted coordinates depending on the rest coordinates. To work with auxiliary tasks, we propose a novel auxiliary-adapted transformer, which can handle incomplete, corrupted motion data and achieve coordinate recovery via capturing spatial-temporal dependencies. Through auxiliary tasks, the auxiliary-adapted transformer is promoted to capture more comprehensive spatial-temporal dependencies among body joints' coordinates, leading to better feature learning. Extensive experimental results have shown that our method outperforms state-of-the-art methods by remarkable margins of 7.2%, 3.7%, and 9.4% in terms of 3D mean per joint position error (MPJPE) on the Human3.6M, CMU Mocap, and 3DPW datasets, respectively. We also demonstrate that our method is more robust under data missing cases and noisy data cases. Code is available at https://github.com/MediaBrain-SJTU/AuxFormer.
Auteurs: Chenxin Xu, Robby T. Tan, Yuhong Tan, Siheng Chen, Xinchao Wang, Yanfeng Wang
Dernière mise à jour: 2023-09-02 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.08942
Source PDF: https://arxiv.org/pdf/2308.08942
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.