Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle

Améliorer la reconnaissance des activités humaines avec SpSt-GCN

Une nouvelle méthode améliore la reconnaissance des activités humaines en utilisant des données de squelette.

― 7 min lire


Avancer les méthodes deAvancer les méthodes dereconnaissance d'actionmouvements humains.précision dans la reconnaissance desUne nouvelle méthode améliore la
Table des matières

La reconnaissance des activités humaines (HAR) consiste à identifier et à catégoriser ce que les gens font en fonction de leurs mouvements. Les avancées récentes en technologie ont donné naissance à des méthodes utilisant des données squelettiques, c’est-à-dire la position des articulations dans le corps humain, pour aider dans cette tâche. Parmi ces méthodes, les réseaux de neurones convolutifs graphiques (GCN) ont montré de bons résultats, mais il reste encore des défis à relever, surtout en ce qui concerne la représentation des données squelettiques et un problème connu sous le nom de sur-lissage.

Les Défis de la Reconnaissance d'Actions

  1. Informations Limitées des Nœuds de Bord : Dans le contexte des squelettes humains, les nœuds font référence aux articulations et les bords représentent les connexions entre ces articulations. Tandis que les articulations centrales ont beaucoup de connexions, les articulations sur les bords, comme celles des doigts, ont moins de connexions et peuvent manquer d’informations vitales nécessaires pour distinguer des mouvements complexes.

  2. Problème de Sur-Lissage dans les GCN : En utilisant les GCN, à mesure que le nombre de couches de traitement augmente, la distinctivité des nœuds a tendance à s'estomper. Cela signifie que les différences entre les mouvements de différentes articulations se perdent à mesure que les couches du réseau s’empilent.

Introduction d'une Nouvelle Méthode

Pour relever ces défis, une nouvelle approche appelée Convolution Graphique Spatiale-Structurale (SpSt-GCN) a été proposée. Cette méthode incorpore deux caractéristiques principales :

  • GCN Spatial : Cette partie se concentre sur la collecte d'informations en fonction de la disposition fixe du corps humain. Elle prend en compte comment les articulations sont connectées de manière naturelle, peu importe l'action en cours.

  • GCN Structurel : Cette partie examine comment les articulations interagissent dynamiquement en fonction des mouvements spécifiques effectués. Par exemple, pendant certaines activités, la connexion entre les mains peut être très forte, tandis que dans d'autres actions, comme vérifier une montre, la connexion est plus faible.

En se concentrant sur ces deux aspects, la méthode proposée vise à fournir une compréhension plus nuancée des activités humaines.

Données Utilisées pour la Reconnaissance

L’évaluation de SpSt-GCN a été réalisée en utilisant deux ensembles de données significatifs : NTU RGB+D et NTU RGB+D 120. Ces ensembles de données impliquent une large gamme d'actions effectuées par différentes personnes, capturant les mouvements des articulations en détail. Les résultats des tests ont montré que cette nouvelle méthode était efficace et performante.

Caractéristiques Clés de la Méthode

La méthode proposée n'utilise pas une manière fixée de représenter les connexions articulaires. Au lieu de cela, elle s'adapte en fonction des actions spécifiques réalisées. Cela signifie qu'à chaque fois qu'une nouvelle action est analysée, la façon dont les articulations sont connectées peut changer, permettant une meilleure représentation des données.

Pour maintenir l'unicité des nœuds de bord et gérer le problème de sur-lissage, une approche différente est adoptée. Plutôt que de simplement agréger des données provenant de nœuds voisins, la méthode préserve les détails distincts de chaque nœud de bord à travers un calcul qui différencie leurs informations. Cela aide à maintenir les caractéristiques uniques nécessaires pour reconnaître des mouvements fins.

Le Rôle des Données Squelettiques

Les données squelettiques consistent en les coordonnées de différentes articulations, généralement décrites dans l’espace 3D. Cette représentation est moins affectée par des facteurs comme le bruit de fond et les variations de forme corporelle, ce qui en fait un choix fiable pour la reconnaissance d'actions. Elle offre une bonne vue sur la façon dont quelqu'un se déplace, offrant des avantages significatifs dans des scénarios où la vie privée est importante.

Comparaison des Différentes Méthodes

La plupart des approches précédentes de HAR reposaient fortement sur des réseaux de neurones convolutifs traditionnels (CNN) ou des réseaux de neurones récurrents (RNN). Cependant, les avancées récentes montrent que les modèles utilisant des GCN ont souvent de meilleures performances.

La méthode SpSt-GCN surpasse les approches antérieures, notamment celles qui ne tiennent pas compte des structures complexes du corps humain. Par exemple, elle a largement surpassé des modèles établis sur des benchmarks testant la reconnaissance des actions humaines.

Expériences et Résultats

Des expériences ont été menées pour tester l’efficacité de la méthode proposée. Les tests ont divisé les sujets en différents groupes pour déterminer à quel point le modèle pouvait reconnaître les actions en fonction des données squelettiques collectées. Les résultats ont indiqué que SpSt-GCN a obtenu une précision supérieure à celle de nombreuses méthodes existantes sur les deux ensembles de données.

En adoptant une approche multimodale qui incluait des positions d'articulations, des vitesses et des longueurs d'os, la méthode a pu améliorer les performances globales. Chacun de ces types d'entrée fournit une perspective différente sur les mouvements analysés, menant à une extraction de caractéristiques plus riche.

Efficacité et Complexité

Bien que la précision soit cruciale, l'efficacité du modèle est également importante. Le modèle SpSt-GCN proposé a non seulement montré de bonnes performances, mais a également maintenu des exigences computationnelles relativement faibles par rapport à d'autres modèles dans le domaine. C'est bénéfique pour les applications réelles où les ressources peuvent être limitées.

Applications Potentielles

Les résultats de cette recherche peuvent avoir une large gamme d'applications. Par exemple, dans le domaine de la santé, des systèmes pourraient surveiller les activités des patients et détecter s'ils ont besoin d'aide. Dans le sport, des entraîneurs pourraient analyser les mouvements des athlètes pour améliorer leurs performances. De plus, cette technologie pourrait améliorer les systèmes de sécurité en identifiant des actions pouvant indiquer un comportement suspect.

Directions Futures

Bien que la méthode SpSt-GCN montre des promesses, il reste encore des domaines à améliorer. De futures recherches pourraient se concentrer sur l'amélioration des connexions structurelles, permettant des représentations encore plus flexibles. Il y a aussi un potentiel d'adaptation de cette approche à d'autres tâches au-delà de la Reconnaissance d'activités humaines, comme la reconnaissance de gestes ou même la prédiction d'actions avant qu'elles ne se produisent. De plus, examiner les connexions entre les nœuds non bords pourrait fournir des aperçus plus profonds sur la façon dont les actions sont réalisées.

Conclusion

La reconnaissance d'actions basée sur les squelettes représente une avancée significative dans la compréhension des mouvements humains. En utilisant des méthodes comme SpSt-GCN, les chercheurs peuvent mieux capturer les complexités des actions humaines. À mesure que la technologie continue d'évoluer, l'intégration de telles méthodes dans les usages quotidiens sera probablement de plus en plus répandue, menant à des améliorations dans divers domaines, de la santé à la sécurité.

Source originale

Titre: Skeleton-Based Action Recognition with Spatial-Structural Graph Convolution

Résumé: Human Activity Recognition (HAR) is a field of study that focuses on identifying and classifying human activities. Skeleton-based Human Activity Recognition has received much attention in recent years, where Graph Convolutional Network (GCN) based method is widely used and has achieved remarkable results. However, the representation of skeleton data and the issue of over-smoothing in GCN still need to be studied. 1). Compared to central nodes, edge nodes can only aggregate limited neighbor information, and different edge nodes of the human body are always structurally related. However, the information from edge nodes is crucial for fine-grained activity recognition. 2). The Graph Convolutional Network suffers from a significant over-smoothing issue, causing nodes to become increasingly similar as the number of network layers increases. Based on these two ideas, we propose a two-stream graph convolution method called Spatial-Structural GCN (SpSt-GCN). Spatial GCN performs information aggregation based on the topological structure of the human body, and structural GCN performs differentiation based on the similarity of edge node sequences. The spatial connection is fixed, and the human skeleton naturally maintains this topology regardless of the actions performed by humans. However, the structural connection is dynamic and depends on the type of movement the human body is performing. Based on this idea, we also propose an entirely data-driven structural connection, which greatly increases flexibility. We evaluate our method on two large-scale datasets, i.e., NTU RGB+D and NTU RGB+D 120. The proposed method achieves good results while being efficient.

Auteurs: Jingyao Wang, Emmanuel Bergeret, Issam Falih

Dernière mise à jour: 2024-07-31 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.21525

Source PDF: https://arxiv.org/pdf/2407.21525

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires