Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans la reconnaissance d'actions en vue croisée

Un système flexible pour reconnaître les actions humaines sous différents angles.

― 8 min lire


CVAR : Une nouvelleCVAR : Une nouvelleapprocheplusieurs angles.la reconnaissance d'action sousPrésentation d'un modèle flexible pour
Table des matières

Reconnaître les actions humaines depuis différentes perspectives, ça s'appelle la Reconnaissance d'actions Multi-Visuels (RAMV). C'est un truc assez compliqué parce qu'une action peut avoir l'air vraiment différente selon la position de l'observateur. Par exemple, si tu vois quelqu'un faire un signe de la main de face ou sur le côté, ça peut varier beaucoup. Les applications pratiques de la RAMV incluent la surveillance de sécurité et l'aide aux personnes dans des environnements de vie assistée, où c'est pas simple de collecter beaucoup de données d'entraînement quand une nouvelle caméra est ajoutée.

Cadre et Méthodologie

Pour aborder la RAMV, on propose une approche simple qui apprend des caractéristiques qui ne changent pas avec le point de vue. Ce système peut fonctionner avec des vidéos capturées en couleur, des données de squelette 3D, ou les deux. Notre système proposé est efficace, utilisant moins de paramètres que les meilleurs modèles existants, tout en atteignant des taux de précision élevés.

Dans nos études, on a constaté que notre méthode fonctionne super bien avec différents types d'input. Par exemple, on a atteint des taux de précision de 99,4% avec des Vidéos RGB et 99,9% en utilisant des données de squelette 3D.

Applications de la Reconnaissance d’Actions

La reconnaissance d'actions a plein d'applications. C'est particulièrement utile dans des domaines comme la sécurité, où ça aide à surveiller les activités, ou en réalité virtuelle, où ça améliore l'interaction des utilisateurs. Les avancées récentes en technologie et les gros jeux de données ont vraiment boosté la recherche en reconnaissance d'actions.

Défis de la Reconnaissance d’Actions

Le principal défi avec la RAMV, c'est que les actions peuvent avoir l'air très différentes selon les angles de vue. Beaucoup de systèmes existants se concentrent soit sur une seule perspective, soit dépendent de grands jeux de données qui incluent différentes vues, ou utilisent des outils coûteux comme la capture de mouvement 3D.

Notre travail vise à se concentrer sur la RAMV, particulièrement pour reconnaître des actions à partir de vidéos enregistrées sous des angles qui n'ont pas été montrés durant la phase d'entraînement. C'est difficile parce que beaucoup d'actions peuvent paraître très différentes selon le point de vue. Certaines méthodes utilisent des données 3D parce que c'est plus facile de voir les connexions entre les différents angles. Mais si on peut faire de la RAMV juste avec des vidéos couleur, on peut travailler avec des jeux de données plus petits et réduire les coûts de collecte de données 3D.

Cadre Proposé pour la Reconnaissance d’Actions Multi-Visuels

Notre approche permet la classification dans un espace de caractéristiques qui n'est pas affecté par le point de vue. La plupart des recherches dans ce domaine ne traitent pas directement des changements de point de vue. Au lieu de ça, certaines se concentrent uniquement sur des vues uniques ou dépendent principalement de gros jeux de données qui ont des points de vue variés.

On a conçu notre système pour apprendre à partir de vidéos prises sous des angles non rencontrés durant l'entraînement tout en capturant des informations de mouvement utiles à partir du squelette. Le modèle proposé est flexible, fonctionnant avec des données RGB, des données de squelette 3D, ou les deux.

Contributions Clés

Notre approche offre un système simplifié qui fonctionne bien avec divers types d'inputs. On a construit un modèle qui utilise juste 1,4 million de paramètres, ce qui le rend plus léger que les modèles précédents tout en maintenant de bonnes performances.

  1. Cadre Flexible : Le modèle apprend efficacement à partir de différents types d'inputs – que ce soit des RGB, des squelettes 3D, ou une combinaison des deux.

  2. Performance Consistante : Notre méthode a atteint des performances comparables sur tous les types d'inputs, ce qui aide à réduire l'écart entre les méthodes basées sur des vidéos et celles basées sur des squelettes 3D.

  3. Tests Approfondis : On a réalisé de nombreuses études pour examiner différents choix et types de données d'input pour voir comment ça fonctionne dans la RAMV et des tâches connexes comme la reconnaissance d'actions entre sujets.

Reconnaissance d’Actions à Partir de Données de Squelette

Un aspect clé de notre approche est de comprendre les actions à travers les données de squelette. Lorsqu'on regarde les mouvements des articulations sous différents angles, c'est compliqué de faire correspondre les trajectoires des articulations correspondantes quand elles ont des longueurs différentes à cause des points de vue différents.

On propose une méthode pour apprendre des caractéristiques à partir des séquences de squelette qui aident à reconnaître les actions peu importe comment elles ont été vues.

Sources d'Input pour la Reconnaissance d’Actions

L'input de notre système inclut des Séquences de mouvement provenant de sources 2D ou 3D, détectées via des systèmes comme OpenPose ou mesurées par des capteurs 3D.

Apprentissage à Partir des Séquences de Mouvement

Notre système commence par traiter les séquences de mouvement pour trouver une représentation de longueur fixe des inputs, ce qui aide à identifier des caractéristiques qui restent inchangées avec les points de vue variés.

Binarisation et Classification

Le processus implique de créer une représentation binaire pour identifier quelles caractéristiques sont cruciales pour reconnaître les actions. Ce code binaire est ensuite utilisé pour classifier les actions et prédire les probabilités pour chaque classe en fonction des informations collectées.

Processus d’Entraînement

Le modèle entier est entraîné en utilisant une fonction de perte spécifique qui combine les différents modules qu'on a conçus. Cela aide le réseau à reconnaître les actions plus efficacement.

Représentation de l’Information Contextuelle

Bien que les données de squelette fournissent des infos critiques sur le mouvement, les données RGB des vidéos peuvent offrir un contexte utile. Donc, on combine deux flux de données : un pour les caractéristiques du squelette et l'autre pour les caractéristiques contextuelles RGB.

Design d’Architecture

Les deux flux de données fonctionnent ensemble pour fournir une vue plus complète des actions en cours. Le premier flux se concentre sur la dynamique des mouvements, tandis que le second capture le contexte visuel.

Efficacité de la Méthode Proposée

Notre méthode montre des améliorations significatives par rapport aux modèles existants en termes de précision. On a réalisé de nombreux tests sur plusieurs jeux de données et on a trouvé que notre approche surpassait systématiquement les modèles précédents, que ce soit avec des RGB, des squelettes 3D, ou les deux.

Comparaisons de Performance

Quand on a comparé notre nouvelle approche avec les meilleurs modèles en RAMV, on a trouvé que notre méthode réduit considérablement l'écart de performance entre les approches RGB et 3D. Nos expériences ont également suggéré que notre méthode pourrait gérer des tâches allant même au-delà de la simple reconnaissance d'actions multi-vues, s'étendant à la reconnaissance entre sujets aussi.

Limitations et Futurs Travaux

Bien que notre cadre ait montré des résultats prometteurs, il fait face à certaines limitations. Par exemple, la performance peut varier lorsque les données d'entrée ne sont pas bien synchronisées. Les futures recherches pourraient se concentrer sur l'amélioration de la gestion de tels cas, s'assurant que notre système reste robuste même face à de tels défis.

Conclusion

Notre recherche présente une nouvelle façon de reconnaître les actions humaines depuis différents points de vue. En combinant les données de mouvement du squelette et le contexte RGB, on a conçu un système flexible qui fonctionne efficacement avec divers types d'inputs. Les résultats montrent que notre approche peut réduire significativement les écarts de performance entre différentes méthodes tout en offrant une solution pratique qui peut être facilement déployée dans des situations réelles.

Le chemin vers une reconnaissance d'actions multi-vues efficace est bien entamé, et on attend avec impatience de futures améliorations et des applications plus larges de la technologie à l'avenir.

Source originale

Titre: Cross-view Action Recognition via Contrastive View-invariant Representation

Résumé: Cross view action recognition (CVAR) seeks to recognize a human action when observed from a previously unseen viewpoint. This is a challenging problem since the appearance of an action changes significantly with the viewpoint. Applications of CVAR include surveillance and monitoring of assisted living facilities where is not practical or feasible to collect large amounts of training data when adding a new camera. We present a simple yet efficient CVAR framework to learn invariant features from either RGB videos, 3D skeleton data, or both. The proposed approach outperforms the current state-of-the-art achieving similar levels of performance across input modalities: 99.4% (RGB) and 99.9% (3D skeletons), 99.4% (RGB) and 99.9% (3D Skeletons), 97.3% (RGB), and 99.2% (3D skeletons), and 84.4%(RGB) for the N-UCLA, NTU-RGB+D 60, NTU-RGB+D 120, and UWA3DII datasets, respectively.

Auteurs: Yuexi Zhang, Dan Luo, Balaji Sundareshan, Octavia Camps, Mario Sznaier

Dernière mise à jour: 2023-05-02 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.01733

Source PDF: https://arxiv.org/pdf/2305.01733

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires