Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Interaction homme-machine# Apprentissage automatique# Traitement du signal

Avancées dans la reconnaissance des actions humaines avec des IMUs

Une méthode qui combine des données visuelles et IMU pour une meilleure reconnaissance des actions.

― 8 min lire


Percée des IMUs et de laPercée des IMUs et de laReconnaissance d'Actionsdes données des capteurs en IA.Méthodes innovantes pour l'intégration
Table des matières

Dans notre monde, on recueille des infos à travers différents sens. La plupart des systèmes d'IA se basent surtout sur des données visuelles et textuelles pour comprendre les actions humaines. Mais il y a une nouvelle façon d'améliorer cette compréhension en utilisant des dispositifs appelés Unités de Mesure Inertielle (IMUs). Ces appareils peuvent suivre les mouvements, mais c'est souvent compliqué de travailler avec car les données qu'ils collectent sont pas faciles à interpréter et sont parfois rares.

Combinaison de Données Visuelles et de Mouvement

On se concentre sur une méthode qui fusionne les connaissances des données visuelles et celles des IMUs. L'idée principale est de créer un espace commun qui aide à reconnaître les actions réalisées par des humains, même quand un type de donnée manque d'étiquettes. Cette méthode s'appelle Fusion et Transfert Cross-modal (FACT). Avec cette méthode, on veut entraîner un modèle qui peut apprendre grâce aux données visuelles et ensuite appliquer cet apprentissage pour interpréter les données IMU sans avoir besoin d'exemples étiquetés pendant l'entraînement.

Le Défi des Systèmes Actuels

Alors que les humains peuvent apprendre de nouveaux mouvements juste en regardant quelqu'un d'autre, apprendre aux modèles d'apprentissage machine à faire la même chose avec différents types de capteurs c'est pas simple. La plupart des systèmes d'apprentissage profond fonctionnent avec des données visuelles et textuelles parce que c'est ce qu'ils ont en masse. Utiliser en continu des caméras pour rassembler des données visuelles ou des modèles textuels pour recueillir des infos n'est pas toujours pratique, ce qui rend ces systèmes moins efficaces dans des applications réelles.

Avantages des IMUs

Les IMUs collectent des données comme l'accélération et la rotation à partir d'appareils physiques comme des montres intelligentes et des smartphones. Ils offrent une manière plus discrète de surveiller les activités humaines sans être intrusifs. Beaucoup de dispositifs portables ont des IMUs intégrés. Pourtant, le potentiel de ces dispositifs est souvent pas totalement exploité dans l'apprentissage machine à cause de défis comme des données limitées et la difficulté d'interpréter ces données.

Le Besoin d'Intégration

À mesure que différents types de capteurs deviennent plus populaires, une question pressante se pose : comment peut-on utiliser de nouveaux capteurs aux côtés des anciens quand il n'y a pas de données étiquetées disponibles ? Une solution est d'utiliser des données bien documentées d'un capteur pour améliorer les connaissances liées au nouveau capteur. Ce processus est connu sous le nom de transfert cross-modal. Cependant, les techniques existantes dépendent principalement d'avoir des données étiquetées pour chaque capteur pendant l'entraînement, ce qui est rarement le cas.

Notre Approche

Notre hypothèse est qu'il existe une structure cachée ou un espace qui relie divers types de capteurs, permettant une meilleure reconnaissance des actions humaines. On explore différentes façons de créer cette structure et de voir si ça peut aider à transférer l'apprentissage d'un capteur à un autre, même sans étiquettes pour le second capteur.

Dans notre méthode, appelée FACT, on la teste en utilisant des données provenant de vidéos RGB (couleur) et des capteurs IMU de quatre ensembles de données différents. Pendant l'entraînement, on utilise des données étiquetées provenant des vidéos RGB et des données non étiquetées des IMUs. L'objectif est de voir si le modèle peut apprendre à reconnaître des actions à partir des données IMU lorsqu'il est testé plus tard.

Résultats et Découvertes

Nos expériences montrent que la méthode FACT fonctionne beaucoup mieux que les méthodes existantes pour reconnaître des actions à partir des données IMU sans étiquettes préalables. Les tests montrent aussi que le modèle peut comprendre des actions juste en regardant les données IMU, illustrant ses capacités de transfert cross-modal.

Compréhension de l'Architecture du Modèle

La structure de FACT est conçue pour permettre à différents composants de travailler ensemble pendant l'entraînement. Cette flexibilité signifie qu'on peut facilement l'adapter à différents types de capteurs et de tâches. Le modèle se compose de trois parties principales :

  1. Encodeur de Caractéristiques Vidéo : Il traite les images de vidéo à l'aide d'un réseau standard, extrayant des caractéristiques clés.
  2. Encodeur de Caractéristiques IMU : Il utilise un réseau convolutionnel unidimensionnel pour analyser les données IMU.
  3. Décodeur de Tâche HAR : Ce module prend les caractéristiques extraites et prédit l'action réalisée.

On a aussi développé une version consciente du temps de FACT appelée T-FACT, qui prend en compte le temps lors de l'alignement et de la combinaison des données provenant de différents capteurs.

Processus d'Entraînement et de Test

L'entraînement du modèle se compose de deux étapes :

  1. Apprendre à partir des données RGB étiquetées pour établir un modèle de Reconnaissance d'actions humaines (HAR).
  2. Aligner les représentations des données RGB et IMU pour améliorer le transfert cross-modal.

Lors des tests, le modèle doit prédire des actions à partir des données IMU seules, sans avoir vu ces étiquettes pendant l'entraînement.

Expériences sur Différents Ensembles de Données

On mène des tests en utilisant plusieurs ensembles de données, y compris UTD-MHAD, CZU-MHAD, MMACT, et MMEA-CL. Chacun de ces ensembles de données présente des défis uniques et nous aide à évaluer l'efficacité de la méthode FACT dans divers scénarios.

  1. UTD-MHAD : Cet ensemble de données a plusieurs types de données, comme RGB, squelettique, profondeur et IMU. Il aide à valider à quel point FACT peut bien fonctionner avec des données du monde réel.
  2. CZU-MHAD : Cet ensemble de données est plus contrôlé et permet de mieux mesurer la performance du modèle grâce à un environnement cohérent.
  3. MMACT : Un ensemble de données plus large qui inclut diverses scènes où des actions se produisent, rendant les prédictions plus compliquées.
  4. MMEA-CL : Axé sur des actions quotidiennes, cet ensemble de données teste l'adaptabilité du modèle à différentes activités.

Surmonter les Limitations

Bien que de nombreuses études se concentrent sur le traitement des données manquantes pendant l'entraînement ou le test, peu abordent la situation où aucune donnée étiquetée n'est disponible d'un type de capteur. Ce manque complique l'établissement de méthodes de référence.

On a développé des méthodes de référence, comme des modèles étudiant-enseignant, qui nécessitent généralement des données étiquetées des deux capteurs. Notre approche est différente car FACT peut fonctionner sans étiquettes d'un capteur, utilisant les données pour trouver des relations entre elles.

Comparaison de Performance avec d'Autres Modèles

Les modèles de fusion de capteurs existants gèrent bien les données incomplètes mais ne traitent pas bien le cas où il n'y a pas de données étiquetées durant l'entraînement. On a montré que ces modèles ont du mal par rapport à FACT, qui peut utiliser les connaissances des données étiquetées d'un capteur pour informer l'autre.

On a aussi examiné les méthodes d'apprentissage contrastif, notamment leur efficacité sur nos données. Certains modèles, comme ImageBind, n'ont pas fonctionné efficacement avec les données IMU, surtout que cette approche était conçue pour des tâches différentes.

Expériences Supplémentaires

Pour s'assurer de l'efficacité de FACT, on a mené diverses expériences pour peaufiner et mieux comprendre ses performances. On a examiné comment le modèle fonctionne dans différentes conditions, analysant sa robustesse et son adaptabilité dans divers contextes.

On a réalisé des études d'ablation pour identifier quelle méthode d'entraînement produit les meilleurs résultats, déterminant la meilleure façon d'aligner et d'entraîner le modèle.

Conclusion

À travers nos recherches, on a découvert une méthode prometteuse pour transférer des connaissances entre différents types de capteurs, particulièrement des données visuelles aux IMUs. Notre approche, FACT, montre des capacités significatives, même dans des scénarios d'entraînement sans étiquettes, et apparaît prometteuse pour des applications pratiques dans la technologie de tous les jours, comme les dispositifs portables et intelligents.

En créant un moyen d'intégrer efficacement diverses modalités de détection, FACT vise à améliorer la manière dont l'IA comprend les actions humaines dans des contextes réels. Ce faisant, on jette les bases pour des futurs travaux dans ce domaine, ouvrant la voie à de nouvelles avancées en apprentissage machine et ses applications.

Source originale

Titre: C3T: Cross-modal Transfer Through Time for Human Action Recognition

Résumé: In order to unlock the potential of diverse sensors, we investigate a method to transfer knowledge between modalities using the structure of a unified multimodal representation space for Human Action Recognition (HAR). We formalize and explore an understudied cross-modal transfer setting we term Unsupervised Modality Adaptation (UMA), where the modality used in testing is not used in supervised training, i.e. zero labeled instances of the test modality are available during training. We develop three methods to perform UMA: Student-Teacher (ST), Contrastive Alignment (CA), and Cross-modal Transfer Through Time (C3T). Our extensive experiments on various camera+IMU datasets compare these methods to each other in the UMA setting, and to their empirical upper bound in the supervised setting. The results indicate C3T is the most robust and highest performing by at least a margin of 8%, and nears the supervised setting performance even in the presence of temporal noise. This method introduces a novel mechanism for aligning signals across time-varying latent vectors, extracted from the receptive field of temporal convolutions. Our findings suggest that C3T has significant potential for developing generalizable models for time-series sensor data, opening new avenues for multi-modal learning in various applications.

Auteurs: Abhi Kamboj, Anh Duy Nguyen, Minh Do

Dernière mise à jour: 2024-11-07 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.16803

Source PDF: https://arxiv.org/pdf/2407.16803

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Liens de référence

Articles similaires