Avancées dans les techniques de reconnaissance d'activités humaines
De nouvelles méthodes améliorent la précision dans la reconnaissance des activités humaines avec peu de données.
― 9 min lire
Table des matières
La reconnaissance d'activités humaines (HAR) est un domaine qui se concentre sur l'identification de ce que les gens font à partir de données collectées par des capteurs. Ces infos peuvent venir de différentes sources comme des montres connectées, des smartphones ou d'autres appareils portables qui suivent les mouvements. L'essentiel de la HAR, c'est de classifier différentes activités comme marcher, s'asseoir ou monter des escaliers à partir des données des capteurs.
La capacité à reconnaître les activités avec précision est super importante pour plein d'applications. Ça peut aller de la santé, où surveiller les activités des patients est crucial, à des systèmes de suivi de fitness qui aident les utilisateurs à comprendre leurs habitudes de mouvement. Cependant, créer des systèmes HAR efficaces présente quelques défis importants.
Problème de faible ressource
Le premier défi dans la HAR, c'est le problème de faible ressource. Ça veut dire qu'il est souvent difficile de rassembler assez de données étiquetées pour entraîner efficacement les modèles HAR. En général, entraîner un modèle nécessite une grosse quantité de données qui ont été correctement étiquetées. Par exemple, si tu veux entraîner un modèle pour reconnaître assis vs debout, tu as besoin de beaucoup d'exemples de chaque activité, bien étiquetés. Rassembler ces données peut être long et coûteux.
Dans de nombreux scénarios réels, il n'est tout simplement pas pratique de rassembler autant de données étiquetées. Par exemple, faire participer des personnes âgées ou des jeunes enfants peut être difficile à cause de problèmes de mobilité ou de manque de familiarité avec les appareils. Du coup, les données collectées sont souvent insuffisantes pour créer des modèles fiables.
Problème de changement de distribution
Le deuxième défi, c'est le problème de changement de distribution. Ce souci survient quand les données utilisées pour entraîner un modèle ne sont pas les mêmes que celles qu'il rencontre quand il fait des prévisions. Par exemple, si un modèle est entraîné sur des données de jeunes adultes, il peut mal performer quand il se retrouve face à des données d'adultes plus âgés. Ça se passe parce que les gens ont des formes de corps, des styles de mouvement et des habitudes différentes, ce qui peut affecter comment les données sont collectées.
Quand un modèle est entraîné sur un groupe et appliqué à un autre, il peut avoir de mauvaises performances s'il ne prend pas en compte ces différences. Cette variabilité rend essentiel le développement de modèles capables de s'adapter à différents types de données sans nécessiter une reformation extensive.
Approche proposée
Pour s'attaquer à ces problèmes, une approche innovante appelée apprentissage de représentation diversifiée et discriminante a été proposée. Cette méthode cherche à améliorer les modèles HAR, surtout quand il y a peu de données d'entraînement disponibles et qu'il peut y avoir différentes distributions entre les données d'entraînement et de test.
Composants clés de l'approche
Cette nouvelle approche a trois composants principaux qui fonctionnent ensemble :
Génération de diversité : Cette étape vise à créer plus de variation dans les données. En utilisant différentes techniques pour modifier les données existantes, on peut générer plus d'exemples d'activités. Ça aide à rendre le modèle plus robuste en lui apprenant à reconnaître différentes versions de la même activité.
Préservation de la diversité : Une fois que des données diversifiées sont créées, il est essentiel de garder cette diversité lors de l'entraînement du modèle. Ça veut dire s'assurer que les caractéristiques des nouvelles données ne se mélangent pas trop avec les données originales. En gardant une distinction entre les données originales et augmentées, le système peut apprendre à reconnaître un plus large éventail de mouvements.
Amélioration de la discrimination : Enfin, ce composant se concentre sur l'amélioration de la capacité du modèle à différencier les différentes activités. L'objectif ici est de s'assurer que les activités de différentes classes (comme marcher et s'asseoir) sont clairement séparées en termes des caractéristiques que le modèle apprend. Ça se fait en utilisant des techniques qui améliorent la séparation entre les classes tout en gardant des activités similaires plus proches.
Comment l'approche fonctionne
Le processus commence par rassembler des données initiales des capteurs, qui peuvent être assez limitées. Des techniques d'augmentation de données sont ensuite appliquées à ces données, créant de nouveaux exemples grâce à des méthodes comme :
- Rotation : Changer l'angle des données des capteurs pour simuler comment la même activité pourrait apparaître sous différentes orientations.
- Permutation : Réarranger des segments des données pour voir comment l'ordre des mouvements peut changer l'interprétation.
- Distorsion temporelle : Modifier légèrement le timing des mouvements pour introduire de la variabilité.
- Mise à l'échelle : Ajuster l'intensité des signaux pour voir comment différents niveaux d'effort affectent les données.
- Ajout de bruit : Ajouter du bruit aléatoire aux données pour simuler des perturbations du monde réel.
Ces transformations créent un ensemble de données plus riche qui capture les nombreuses façons dont une seule activité peut être réalisée.
Une fois ces données augmentées produites, l'étape suivante consiste à entraîner le modèle. C'est là que la préservation de la diversité entre en jeu. Le modèle est entraîné à reconnaître à la fois les données originales et leurs versions augmentées, mais il est important de veiller à ce que les deux ne deviennent pas trop indistinguables l'un de l'autre.
En procédant ainsi, le modèle peut apprendre d'un plus large éventail d'exemples, ce qui améliore ses performances. Il est également crucial que le modèle soit capable de distinguer efficacement entre différentes activités. En améliorant les capacités de discrimination, le système peut identifier plus précisément quand quelqu'un est assis par rapport à quand il est debout, par exemple.
Évaluation expérimentale
Pour évaluer l'efficacité de l'approche proposée, des expériences ont été menées en utilisant plusieurs ensembles de données publics. Ces ensembles contiennent des lectures de personnes effectuant diverses activités. L'objectif principal était d'évaluer comment le modèle performe avec seulement un petit pourcentage des données d'entraînement disponibles.
Ensembles de données utilisés
Trois ensembles de données populaires ont été principalement utilisés :
- UCI Daily and Sports Data Set : Contient des données de plusieurs sujets engageant dans diverses activités avec des capteurs placés sur différentes parties du corps.
- PAMAP2 Physical Activity Monitoring Dataset : Collectées auprès de sujets portant des capteurs sur différentes parties du corps pendant qu'ils effectuent plusieurs activités, fournissant une riche source de données pour l'analyse.
- USC Human Activity Dataset : Implique des données collectées auprès de sujets utilisant un capteur de téléphone mobile pendant qu'ils effectuent différentes activités.
Résultats
Les expériences ont montré que l'approche proposée a considérablement amélioré la précision de la reconnaissance d'activités, surtout dans des conditions de faible ressource. Le système a démontré une amélioration de précision moyenne de 9,5 % à travers les ensembles de données par rapport à d'autres méthodes existantes.
Notamment, dans les situations où d'autres méthodes ont vu leur précision diminuer à cause de la difficulté des scénarios de faible ressource, l'approche proposée a réussi à maintenir des performances robustes. Cette constance souligne que la méthode est bien adaptée pour des applications pratiques où les données sont limitées et variées.
Les résultats ont également suggéré que l'utilisation efficace de l'augmentation de données conduit à de meilleures précisions de classification. En facilitant des techniques d'entraînement plus robustes qui tiennent compte des changements de distribution, l'approche proposée s'avère précieuse dans des scénarios réels.
Conclusion et Travaux Futurs
En conclusion, l'approche d'apprentissage de représentation diversifiée et discriminante offre une solution prometteuse aux défis rencontrés dans la reconnaissance d'activités humaines, spécifiquement dans des conditions de faible ressource et de changement de distribution. La méthodologie combine efficacement génération de diversité, préservation et amélioration de la discrimination pour créer un cadre robuste pour la reconnaissance d'activités.
Pour l'avenir, il y a des plans pour améliorer encore ce cadre en l'appliquant à des domaines connexes, comme la santé, où comprendre les motifs de mouvement est crucial pour diagnostiquer des conditions. De plus, l'approche pourrait également être adaptée pour fonctionner avec des techniques d'apprentissage fédéré. Cela permettrait d'entraîner des modèles sur des ensembles de données distribuées tout en préservant la vie privée des utilisateurs, ce qui est particulièrement important dans des applications sensibles.
À mesure que la recherche en HAR continue d'avancer, l'intégration de méthodes qui tiennent compte des limitations de ressources et de la variabilité des données sera essentielle pour développer des systèmes plus précis et fiables. Les applications potentielles sont vastes, et améliorer la compréhension des activités humaines peut apporter des bénéfices dans divers domaines, de la santé aux technologies de maison intelligente.
Titre: Generalizable Low-Resource Activity Recognition with Diverse and Discriminative Representation Learning
Résumé: Human activity recognition (HAR) is a time series classification task that focuses on identifying the motion patterns from human sensor readings. Adequate data is essential but a major bottleneck for training a generalizable HAR model, which assists customization and optimization of online web applications. However, it is costly in time and economy to collect large-scale labeled data in reality, i.e., the low-resource challenge. Meanwhile, data collected from different persons have distribution shifts due to different living habits, body shapes, age groups, etc. The low-resource and distribution shift challenges are detrimental to HAR when applying the trained model to new unseen subjects. In this paper, we propose a novel approach called Diverse and Discriminative representation Learning (DDLearn) for generalizable low-resource HAR. DDLearn simultaneously considers diversity and discrimination learning. With the constructed self-supervised learning task, DDLearn enlarges the data diversity and explores the latent activity properties. Then, we propose a diversity preservation module to preserve the diversity of learned features by enlarging the distribution divergence between the original and augmented domains. Meanwhile, DDLearn also enhances semantic discrimination by learning discriminative representations with supervised contrastive learning. Extensive experiments on three public HAR datasets demonstrate that our method significantly outperforms state-of-art methods by an average accuracy improvement of 9.5% under the low-resource distribution shift scenarios, while being a generic, explainable, and flexible framework. Code is available at: https://github.com/microsoft/robustlearn.
Auteurs: Xin Qin, Jindong Wang, Shuo Ma, Wang Lu, Yongchun Zhu, Xing Xie, Yiqiang Chen
Dernière mise à jour: 2023-06-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.04641
Source PDF: https://arxiv.org/pdf/2306.04641
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.