Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Vision par ordinateur et reconnaissance des formes# Traitement de l'image et de la vidéo

Avancées dans la reconnaissance d'action avec des données RGB et de profondeur

Combiner les données RGB et profondeur améliore la reconnaissance d'actions dans les systèmes robotiques.

― 8 min lire


Percée dans laPercée dans lareconnaissance d'actionsdonnées de caméra combinées.reconnaissance d'actions grâce à desDe nouvelles méthodes améliorent la
Table des matières

Reconnaître des actions du point de vue d'une personne est super important en robotique. Ça aide les robots à comprendre comment interagir avec les humains et accomplir des tâches. La plupart des études se concentrent sur les caméras RGB, qui capturent des images en couleur. Cependant, les caméras de Profondeur, qui mesurent la distance des objets, ne sont pas beaucoup utilisées dans ces recherches. Les caméras de profondeur peuvent aider à voir des détails sur les actions qu'une caméra RGB pourrait rater.

Dans notre travail, on a examiné comment reconnaître les actions en utilisant à la fois des caméras RGB et Depth dans un cadre similaire à une usine. On a utilisé un jeu de données appelé MECCANO, qui inclut différentes actions d'assemblage comme assembler une moto jouet. Notre méthode repose sur une technologie appelée le 3D Video Swin Transformer, qui utilise à la fois des informations RGB et Depth pour mieux comprendre les actions.

On a aussi remarqué que, lorsqu'on travaille avec des données du monde réel, certaines actions sont vues plus souvent que d'autres, ce qui rend l'apprentissage difficile. Pour résoudre ça, on a créé une méthode d'entraînement qui aide le modèle à se concentrer d'abord sur les actions plus difficiles à reconnaître. Ensuite, il apprend les actions plus courantes. Comme ça, le modèle peut apprendre à partir d'échantillons faciles et difficiles.

Notre approche a été testée avec le jeu de données MECCANO, et les résultats étaient meilleurs que les méthodes précédentes. On a même remporté la première place dans un challenge de reconnaissance d'actions en 2023.

Importance de la reconnaissance d'actions

La reconnaissance d'actions a plein d'utilisations pratiques. Ça peut aider dans les études de comportement, l'analyse sportive, les systèmes de sécurité, et même en santé en détectant quand les personnes âgées tombent. En robotique, être capable de voir et de comprendre les actions humaines est essentiel, surtout quand les robots doivent travailler aux côtés des gens dans différents environnements, comme des usines ou des hôpitaux.

Des actions comme pointer, tendre la main ou attraper peuvent en dire beaucoup sur ce dont quelqu'un a besoin. Alors que l'analyse vidéo traditionnelle regarde le comportement humain en général, elle pourrait manquer des détails importants. C'est là que les caméras égocentriques sont utiles. En capturant ce qu'une personne voit, ces caméras donnent une image plus claire de la façon dont les gens interagissent avec les objets. Cette vue détaillée est cruciale quand les robots doivent comprendre de près les actions humaines.

Jeu de données MECCANO

Le jeu de données MECCANO fournit diverses actions liées à l'assemblage d'une moto jouet dans un environnement semblable à une usine. Dans le jeu de données, on peut voir des images vidéo des caméras RGB et Depth. Par exemple, des actions comme "mettre la clé" ou "prendre la barre perforée rouge" peuvent être observées sous différents angles.

Un défi dans la reconnaissance d'actions d'un point de vue de première personne est l'utilisation intense des données RGB. Bien que RGB puisse montrer des couleurs et des détails, il ne fournit pas d'informations sur la distance des objets ou comment ils se rapportent les uns aux autres. Les données de profondeur comblent cette lacune en ajoutant un contexte précieux aux actions réalisées.

Le jeu de données MECCANO montre comment ces deux types de données peuvent améliorer la reconnaissance d'actions dans des environnements réels. Notre recherche visait à montrer comment utiliser à la fois RGB et Depth peut conduire à une meilleure compréhension et reconnaissance des actions.

Défis de la reconnaissance d'actions

La plupart des études précédentes sur la reconnaissance d'actions se sont concentrées sur les données RGB, qui ont des limitations. Bien que RGB puisse capturer des détails complexes, il néglige souvent la profondeur et les relations spatiales. Combiner Depth avec RGB donne une image plus complète et améliore la compréhension des actions.

Pour notre étude, on s'est concentré sur les défis posés par le jeu de données MECCANO. Ce jeu de données montre une variété d'actions d'assemblage complexes, et notre objectif était de voir à quel point on pouvait bien les identifier en utilisant notre méthode proposée.

Certaines méthodes existantes ont essayé de relever le défi de reconnaître des actions avec RGB et Depth en améliorant les données vidéo par augmentation. Cependant, ces méthodes ont tendance à avoir du mal lorsqu'elles sont appliquées à des situations réelles, où l'équilibre dans la représentation des classes d'actions est essentiel.

Notre approche

Pour relever ces défis, on a utilisé le SWIN Transformer, conçu pour capturer des caractéristiques dans le temps à partir des entrées RGB et Depth. On a reconnu que dans les données du monde réel, certaines actions se produisent plus fréquemment que d'autres, ce qui entraîne un jeu de données déséquilibré. Pour traiter ce problème, on a introduit une version modifiée de la Focal Loss, qui ajuste l'accent sur les actions difficiles à classer lors de l'entraînement. Ça aide le modèle à apprendre progressivement à partir d'une plus large gamme d'exemples.

De plus, on a combiné les prédictions des données RGB et Depth pour obtenir des classifications d'actions plus précises grâce à un processus connu sous le nom de fusion tardive.

Résultats

Notre méthode a été évaluée sur le jeu de données MECCANO, où on a obtenu des résultats impressionnants par rapport aux méthodes précédentes. On a montré que notre approche améliore non seulement la précision, mais établit aussi une nouvelle norme pour la reconnaissance d'actions dans ce jeu de données. Cela inclut d'être reconnu comme le meilleur performer lors d'un challenge en 2023.

Les principales contributions de notre recherche incluent :

  1. On a développé un cadre d'entraînement qui intègre efficacement les données RGB et Depth pour la reconnaissance d'actions à partir d'une caméra égocentrique.
  2. On a introduit une nouvelle focal loss avec un accent qui décroit exponentiellement pour gérer les défis des données déséquilibrées.
  3. Notre méthode a établi une nouvelle référence de performance sur le jeu de données MECCANO.

Travaux connexes

Le domaine de la compréhension vidéo vise à extraire des caractéristiques utiles des vidéos. Cela inclut une large gamme de tâches comme la reconnaissance d'actions, où des développements rapides en technologie et stratégies d'entraînement ont été observés.

Diverses architectures ont émergé au fil des ans, allant des modèles basés sur la convolution aux conceptions plus récentes basées sur des transformateurs. Ces avancées ont significativement contribué au progrès de la reconnaissance d'actions. De plus, des jeux de données divers ont également joué un rôle crucial dans l'amélioration de ce domaine, bien que beaucoup d'entre eux se concentrent sur des vues de tierce personne.

Récemment, il y a eu un intérêt pour les jeux de données égocentriques qui offrent une perspective plus personnelle. Des jeux de données comme EPIC-KITCHENS et Ego4D se concentrent sur les activités quotidiennes d'un point de vue de première personne, ce qui est précieux pour comprendre plus profondément les interactions humaines.

La plupart des travaux se sont concentrés sur les données RGB, mais la recherche combinant RGB et Depth est en croissance. Utiliser des caméras de profondeur peut améliorer la reconnaissance spatiale et découvrir des interactions subtiles que RGB pourrait manquer.

Directions futures

Il reste encore beaucoup à explorer dans le domaine de la reconnaissance d'actions. Une direction prometteuse est d'incorporer des informations de regard en plus des données RGB et Depth. Cela pourrait fournir une compréhension encore plus riche du comportement humain.

En combinant les données de regard avec les autres modalités, on pourrait améliorer encore les systèmes de reconnaissance d'actions. Cette intégration peut aider à saisir les intentions derrière les actions, offrant une compréhension plus nuancée des interactions humain-robot.

Conclusion

En résumé, notre recherche se concentre sur l'amélioration de la reconnaissance d'actions d'un point de vue égocentrique en combinant des données RGB et Depth. On a introduit une stratégie d'entraînement efficace pour gérer les défis posés par des jeux de données déséquilibrés et établi une nouvelle référence pour la reconnaissance d'actions. Nos réalisations soulignent le potentiel d'utiliser des approches multi-modales en robotique et ouvrent de nouvelles avenues pour la recherche sur la compréhension des actions humaines dans différents environnements.

Source originale

Titre: Egocentric RGB+Depth Action Recognition in Industry-Like Settings

Résumé: Action recognition from an egocentric viewpoint is a crucial perception task in robotics and enables a wide range of human-robot interactions. While most computer vision approaches prioritize the RGB camera, the Depth modality - which can further amplify the subtleties of actions from an egocentric perspective - remains underexplored. Our work focuses on recognizing actions from egocentric RGB and Depth modalities in an industry-like environment. To study this problem, we consider the recent MECCANO dataset, which provides a wide range of assembling actions. Our framework is based on the 3D Video SWIN Transformer to encode both RGB and Depth modalities effectively. To address the inherent skewness in real-world multimodal action occurrences, we propose a training strategy using an exponentially decaying variant of the focal loss modulating factor. Additionally, to leverage the information in both RGB and Depth modalities, we opt for late fusion to combine the predictions from each modality. We thoroughly evaluate our method on the action recognition task of the MECCANO dataset, and it significantly outperforms the prior work. Notably, our method also secured first place at the multimodal action recognition challenge at ICIAP 2023.

Auteurs: Jyoti Kini, Sarah Fleischer, Ishan Dave, Mubarak Shah

Dernière mise à jour: 2023-09-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.13962

Source PDF: https://arxiv.org/pdf/2309.13962

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires