Avancées dans les techniques de reconnaissance des activités humaines
Une nouvelle méthode combine l'apprentissage auto-supervisé et l'apprentissage actif pour une reconnaissance d'activités efficace.
― 8 min lire
Table des matières
La Reconnaissance d'Activité Humaine (HAR) s'intéresse à comprendre ce que fait une personne en se basant sur des données provenant de dispositifs portables comme les smartphones ou les montres connectées. Les méthodes classiques dépendent généralement d'une tonne de données étiquetées, c'est-à-dire de données clairement marquées pour indiquer quelle activité est capturée. Rassembler ces données peut être compliqué, nécessitant beaucoup de temps et de ressources. En plus, comme les gens font les choses différemment, il est important d'adapter les modèles à chaque utilisateur pour améliorer la précision.
Cet article va parler d'une nouvelle approche qui mélange deux techniques : l'Apprentissage auto-supervisé et l'Apprentissage Actif, pour aider à personnaliser la reconnaissance d'activités tout en nécessitant moins de données étiquetées.
Le Défi de la HAR
La HAR standard nécessite d'énormes ensembles de données étiquetées pour entraîner des modèles afin qu'ils puissent identifier les activités avec précision. Ces ensembles de données sont souvent difficiles à collecter à cause des efforts impliqués pour étiqueter chaque donnée. Du coup, les chercheurs cherchent activement des moyens de réduire le volume de données étiquetées nécessaires tout en s'assurant que le modèle fonctionne bien.
De plus, comme chacun a sa propre façon de bouger et d'agir, les modèles adaptés aux utilisateurs individuels ont tendance à fonctionner mieux. C'est là que les modèles personnalisés entrent en jeu. Cependant, créer ces modèles personnalisés nécessite quand même des données étiquetées, ce qui peut être un obstacle majeur.
Apprentissage Auto-Supervisé
L'apprentissage auto-supervisé est une technique où les modèles apprennent à partir d'énormes quantités de données non étiquetées. Plutôt que de commencer avec un ensemble de données étiquetées, les méthodes auto-supervisées permettent à un modèle de comprendre la structure des données en extrayant des caractéristiques utiles sans étiquettes explicites. Cette technique a bien fonctionné dans des domaines comme le traitement du langage naturel et la vision par ordinateur, mais son application dans la HAR est encore en cours de recherche.
En utilisant l'apprentissage auto-supervisé, on peut pré-entrainer des modèles pour identifier des motifs dans les données sans nécessiter les étiquettes. Cela signifie que lorsqu'un nouvel utilisateur veut utiliser le système de reconnaissance d'activités, il peut commencer avec un modèle qui a déjà appris quelque chose à partir des données générales collectées auprès de nombreux utilisateurs.
Apprentissage Actif
L'apprentissage actif est une autre méthode où un modèle peut décider quand demander des étiquettes pour des points de données spécifiques. Plutôt que d'exiger toutes les étiquettes d'un coup, un modèle d'apprentissage actif évalue en continu les données entrantes et se concentre sur la demande d'étiquettes pour les échantillons les plus incertains ou significatifs.
Cela signifie que les utilisateurs n'ont besoin d'étiqueter qu'un petit nombre de points de données, ce qui rend le processus plus efficace. Ça fonctionne en déterminant à quel point le modèle est sûr de ses prédictions. S'il n'est pas sûr d'un échantillon particulier, il génère une requête, demandant à l'utilisateur de fournir l'étiquette correcte.
Le Cadre
Le nouveau cadre combine les méthodes d'apprentissage auto-supervisé et d'apprentissage actif, permettant le développement de systèmes de reconnaissance d'activités personnalisés. Voici les principales étapes :
Phase de Pré-Formation
Au départ, un modèle est entraîné en utilisant un grand ensemble de données non étiquetées collectées auprès de divers utilisateurs. Cela se fait sans nécessiter d'étiquettes. Le modèle apprend à identifier des représentations à partir de ces données, ce qui signifie qu'il peut reconnaître des motifs sous-jacents.
Phase d'Accumulation
Une fois qu'un nouvel utilisateur commence à utiliser le système, il télécharge et met en œuvre le modèle pré-entraîné sur son appareil. L'utilisateur collecte ensuite de nouvelles données de capteur non étiquetées pendant un certain temps. Ces données collectées sont converties en embeddings, qui sont des représentations simplifiées des données.
Après avoir accumulé suffisamment de données, le modèle peut ensuite regrouper ces embeddings pour identifier des motifs d'activités possibles uniques à l'utilisateur. Le clustering aide à regrouper des points de données similaires, facilitant la détection des activités similaires.
Phase d'Apprentissage Actif
Tout au long de la phase d'apprentissage actif, le système évalue constamment chaque nouvel échantillon de données entrant. Selon la confiance du modèle dans l'identification de l'activité, il décide s'il doit demander des étiquettes à l'utilisateur.
Le modèle ne demande des étiquettes que lorsqu'il identifie un point de données qui pourrait améliorer considérablement la compréhension des activités de l'utilisateur. En se concentrant sur ces échantillons représentatifs, le modèle minimise le nombre de requêtes qu'il fait, réduisant ainsi la charge pour les utilisateurs.
Phase de Réglage Fin
Après avoir obtenu des échantillons étiquetés grâce au processus d'apprentissage actif, le cadre adapte le modèle pré-entraîné à l'utilisateur spécifique. C'est ce qu'on appelle le réglage fin, où le modèle devient plus personnalisé et précis pour cet utilisateur en particulier.
Le processus de réglage fin s'améliorera continuellement au fur et à mesure que l'utilisateur continue à rassembler plus de données et à étiqueter certains échantillons, menant à une expérience plus sur mesure au fil du temps.
Évaluation Expérimentale
Pour évaluer l'efficacité du cadre, les chercheurs ont effectué des tests en utilisant des ensembles de données publiques existants. Ils ont examiné comment la méthode proposée se compare aux modèles entièrement supervisés qui reposent sur de grandes quantités de données étiquetées.
Dans leurs expériences, ils ont noté que leur méthode pouvait atteindre des taux de reconnaissance proches de, ou parfois même meilleurs que, les modèles entièrement supervisés tout en nécessitant seulement une fraction des données étiquetées. Cela montre que l'intégration de l'apprentissage auto-supervisé et de l'apprentissage actif offre une voie prometteuse vers de meilleurs systèmes HAR.
Résultats Clés
Les résultats indiquent plusieurs points importants :
La Personnalisation compte : Les systèmes qui se personnalisent pour chaque utilisateur améliorent considérablement les taux de reconnaissance par rapport aux modèles standardisés.
Besoins en Données Réduits : Le cadre proposé permet une reconnaissance d'activités efficace avec juste un petit nombre de données étiquetées, ce qui facilite l'interaction des utilisateurs avec le système.
Apprentissage Efficace : Le composant d'apprentissage actif veille à ce que les utilisateurs ne soient pas submergés par des demandes d'étiquettes, en se concentrant uniquement sur des échantillons critiques pour enrichir la compréhension du modèle.
Utilité dans le Monde Réel : Bien que le succès du cadre démontre son potentiel, plus d'investigations sont nécessaires pour affiner des aspects comme le passage automatique entre les phases d'accumulation et d'apprentissage actif ou la réduction de la fréquence à laquelle les utilisateurs sont sollicités pour des étiquettes.
Directions Futures
Les chercheurs prévoient d'explorer plus en profondeur divers aspects du cadre. Les futurs travaux pourraient se concentrer sur :
- Évaluer la capacité du cadre à découvrir de nouvelles activités sans connaissance préalable.
- Améliorer la stratégie d'apprentissage actif pour réduire encore le nombre d'étiquettes nécessaires de la part des utilisateurs.
- Explorer des méthodes pour rassembler et traiter des ensembles de données plus larges tout en respectant la vie privée et le confort des utilisateurs.
En examinant ces domaines, l'objectif ultime est de créer un système de Reconnaissance d'activités humaines plus efficace et convivial qui puisse s'adapter aux comportements et aux préférences individuels au fil du temps.
Conclusion
En résumé, mélanger des techniques d'apprentissage auto-supervisé et d'apprentissage actif offre une nouvelle perspective sur les défis de la reconnaissance d'activités humaines. Cette approche facilite la création de systèmes personnalisés qui sont efficaces et plus conviviaux, ouvrant la voie à de futures avancées dans le domaine. Avec des recherches et des améliorations continues, le potentiel pour améliorer notre manière de reconnaître et d'interpréter les activités humaines ne cesse de croître.
Titre: SelfAct: Personalized Activity Recognition based on Self-Supervised and Active Learning
Résumé: Supervised Deep Learning (DL) models are currently the leading approach for sensor-based Human Activity Recognition (HAR) on wearable and mobile devices. However, training them requires large amounts of labeled data whose collection is often time-consuming, expensive, and error-prone. At the same time, due to the intra- and inter-variability of activity execution, activity models should be personalized for each user. In this work, we propose SelfAct: a novel framework for HAR combining self-supervised and active learning to mitigate these problems. SelfAct leverages a large pool of unlabeled data collected from many users to pre-train through self-supervision a DL model, with the goal of learning a meaningful and efficient latent representation of sensor data. The resulting pre-trained model can be locally used by new users, which will fine-tune it thanks to a novel unsupervised active learning strategy. Our experiments on two publicly available HAR datasets demonstrate that SelfAct achieves results that are close to or even better than the ones of fully supervised approaches with a small number of active learning queries.
Auteurs: Luca Arrotta, Gabriele Civitarese, Samuele Valente, Claudio Bettini
Dernière mise à jour: 2023-04-19 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.09530
Source PDF: https://arxiv.org/pdf/2304.09530
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.