Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Améliorer la reconnaissance d'actions avec SOAR

Une nouvelle méthode réduit le biais de scène pour une meilleure reconnaissance des actions dans les vidéos.

― 7 min lire


SOAR : ReconnaissanceSOAR : Reconnaissanced'Actions Redéfinievidéos en réduisant le biais de scène.reconnaissance d'actions dans lesUne nouvelle méthode améliore la
Table des matières

Les modèles de deep learning sont des outils puissants pour reconnaître des actions dans des vidéos. Mais parfois, ces modèles peuvent se tromper en se basant sur des détails sans rapport, comme les scènes de fond des vidéos, pour identifier les actions. Quand ces modèles sont testés sur des vidéos avec des arrière-plans différents de ceux qu'ils ont vus pendant l'entraînement, leurs performances en prennent un coup. Ce problème est particulièrement chiant quand il s'agit d'identifier des actions inconnues qui n'étaient pas dans le jeu de données d'entraînement.

Pour régler ce souci, une nouvelle approche appelée Scene-debiasing Open-set Action Recognition (SOAR) a été développée. Cette méthode utilise deux composantes principales : une qui reconstruit l'arrière-plan d'une vidéo et l'autre qui essaie de classifier la scène tout en ignorant l'arrière-plan. Comme ça, le modèle peut se concentrer plus sur l'action réelle qui se passe, au lieu d'être distrait par ce qui se passe derrière.

Contexte

La plupart des méthodes précédentes pour reconnaître des actions dans des vidéos ont fonctionné dans un cadre fermé. Ça veut dire que toutes les actions que le modèle apprend à reconnaître sont prédéfinies, et l'entraînement comme les tests impliquent des actions connues. Cette approche, bien qu'efficace, ne reflète pas la réalité, où beaucoup d'actions peuvent être nouvelles ou inconnues. Il faut donc une reconnaissance open-set dans ces cas, qui vise à distinguer les actions connues des inconnues tout en maintenant de bonnes performances sur les actions connues.

Les modèles de deep learning font souvent des prédictions basées sur des infos trompeuses. Par exemple, ils pourraient reconnaître une action en se basant sur des scènes de fond statiques ou des objets qui sont dans la vidéo, au lieu de se concentrer sur l'action elle-même. Cela affecte non seulement les performances quand les données d'entraînement et de test ne sont pas similaires, mais ça compromet aussi gravement la capacité à reconnaître des actions inconnues.

Deux problèmes communs se présentent ici. Le premier se produit quand des actions connues sont vues dans des scènes inconnues. Le second arrive quand des actions inconnues sont dans des scènes familières. Ces deux situations peuvent mener à de faibles taux de reconnaissance.

Analyser le biais de scène

Pour voir à quel point l'arrière-plan de la scène affecte la reconnaissance des actions, des expériences ont été menées pour analyser le biais de scène présent dans les méthodes de Reconnaissance d'actions existantes. Les résultats ont montré que beaucoup de modèles actuels sont effectivement biaisés vers les scènes sur lesquelles ils ont été entraînés, ce qui indique que l'arrière-plan joue un rôle excessif dans leurs prédictions.

La nouvelle approche SOAR s'attaque directement à ces biais en limitant la dépendance aux scènes de fond. C'est réalisé grâce à deux modules principaux dans le modèle : le module de reconstruction de scène adversarial et le module de classification de scène adversarial adaptatif.

Méthode proposée

Reconstruction de scène adversarial

Ce premier module se concentre sur la réduction de la quantité d'infos d'arrière-plan dans la représentation des caractéristiques du modèle. Il le fait en utilisant un décodeur pour reconstruire uniquement la scène de fond de la vidéo. Le modèle est poussé à faire ça grâce à l'apprentissage adversarial, où le but est de semer le doute dans le modèle sur ce que devrait être l'arrière-plan.

En entraînement, le modèle reçoit des caractéristiques vidéo et doit reconstruire les images vidéo originales. Cependant, le modèle est trompé pour croire qu'il ne doit pas se concentrer sur le mouvement de l'action au premier plan. En forçant le modèle à ignorer ce mouvement de premier plan tout en essayant de reconstruire le fond statique, il apprend à réduire la quantité d'infos de scène dans ses caractéristiques.

En plus, les informations d'arrière-plan sont estimées de manière plus efficace grâce à des techniques qui analysent les données des pixels à travers les images. Cette méthode aide à s'assurer que l'information sur l'action est préservée tout en minimisant l'influence des scènes de fond sans rapport.

Classification de scène adversarial adaptatif

Le second module complète le premier en s'assurant que le modèle apprend à classifier les scènes sans trop se focaliser sur les détails statiques. C'est particulièrement important parce que les caractéristiques de scène statiques peuvent souvent induire le modèle en erreur pour faire des prédictions incorrectes sur les actions.

Dans ce module, le modèle utilise une carte d'incertitude qui indique à quel point il est confiant sur l'endroit où l'action se passe. Cette incertitude aide à guider le modèle pour qu'il se concentre sur les zones où l'action est susceptible de se produire - à savoir, le premier plan.

En maximisant la différence entre les caractéristiques de scène qui correspondent à l'action et l'arrière-plan, le modèle apprend à identifier les actions de manière plus fiable sans être induit en erreur par des données de fond sans rapport.

Expériences et résultats

Pour valider l'efficacité de l'approche SOAR, une série d'expériences ont été réalisées en utilisant des ensembles de données standards. Les performances de cette nouvelle méthode ont été comparées aux modèles précédents à la pointe de la technologie.

Les expériences ont révélé que SOAR réduit significativement le biais de scène par rapport aux méthodes existantes. Les résultats ont démontré qu'elle offre une meilleure précision dans la reconnaissance des actions connues quand les scènes sont inconnues, tout en améliorant l'identification des actions inconnues dans des arrière-plans familiers.

De plus, une analyse quantitative a montré qu'il existe une forte corrélation entre les changements dans les distributions de scène durant les tests et les performances globales de la reconnaissance d'actions. Cette découverte souligne l'importance de traiter le biais de scène pour améliorer les systèmes de reconnaissance d'actions.

Conclusion

En résumé, les modèles traditionnels de reconnaissance d'actions ont souvent du mal avec les scènes de fond qui ne correspondent pas à leurs données d'entraînement. L'approche SOAR introduit deux méthodes innovantes pour réduire l'impact des arrière-plans de scène et améliorer la reconnaissance des actions. Grâce à l'apprentissage adversarial et à une cartographie d'incertitude efficace, cette nouvelle méthode a prouvé qu'elle surpasse les techniques précédentes dans les tâches de reconnaissance d'action en open-set. En se concentrant sur les actions au premier plan et en limitant l'influence des scènes de fond, SOAR a un potentiel pour améliorer la fiabilité de la reconnaissance d'actions dans des applications réelles.

Ces avancées mettent en évidence le besoin de continuer les recherches pour affiner encore plus les modèles face aux informations trompeuses, menant finalement à des systèmes plus robustes et adaptables pour la reconnaissance d'actions dans des environnements variés.

Source originale

Titre: SOAR: Scene-debiasing Open-set Action Recognition

Résumé: Deep learning models have a risk of utilizing spurious clues to make predictions, such as recognizing actions based on the background scene. This issue can severely degrade the open-set action recognition performance when the testing samples have different scene distributions from the training samples. To mitigate this problem, we propose a novel method, called Scene-debiasing Open-set Action Recognition (SOAR), which features an adversarial scene reconstruction module and an adaptive adversarial scene classification module. The former prevents the decoder from reconstructing the video background given video features, and thus helps reduce the background information in feature learning. The latter aims to confuse scene type classification given video features, with a specific emphasis on the action foreground, and helps to learn scene-invariant information. In addition, we design an experiment to quantify the scene bias. The results indicate that the current open-set action recognizers are biased toward the scene, and our proposed SOAR method better mitigates such bias. Furthermore, our extensive experiments demonstrate that our method outperforms state-of-the-art methods, and the ablation studies confirm the effectiveness of our proposed modules.

Auteurs: Yuanhao Zhai, Ziyi Liu, Zhenyu Wu, Yi Wu, Chunluan Zhou, David Doermann, Junsong Yuan, Gang Hua

Dernière mise à jour: 2023-09-03 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.01265

Source PDF: https://arxiv.org/pdf/2309.01265

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires