JOSENet : Un nouveau système pour détecter la violence dans les vidéos
JOSENet améliore la détection en temps réel de la violence dans les vidéos de surveillance en utilisant des méthodes avancées.
― 9 min lire
Table des matières
- Le défi de la détection de la violence
- Présentation de JOSENet
- Comment fonctionne JOSENet
- L'importance de l'Apprentissage auto-supervisé
- La structure de JOSENet
- Expériences et résultats
- Généralisation à la reconnaissance d'actions
- Conclusion et travaux futurs
- Disponibilité des données
- Source originale
- Liens de référence
Le nombre croissant de caméras de surveillance a rendu essentiel d'améliorer la manière dont on détecte les actions violentes en temps réel. Détecter des actes de violence dans des vidéos, c'est pas juste reconnaître des actions simples ; ça demande de comprendre des situations complexes qui peuvent varier énormément d'une vidéo à l'autre. Différents angles, éclairages et arrière-plans peuvent tous influencer la manière dont la violence est perçue, que ce soit par des gens ou par des machines. C'est pourquoi les chercheurs mettent plus d'efforts à créer de meilleurs systèmes pour la détection de la violence.
Le défi de la détection de la violence
Les vidéos de surveillance contiennent souvent une variété de scènes de combat qui peuvent avoir l'air très différentes selon le contexte. Cette variété rend difficile la création d'une solution unique qui fonctionne dans tous les scénarios. Les jeux de données actuels utilisés pour entraîner les systèmes de détection sont souvent petits, ce qui complique la construction de modèles puissants capables d'apprendre à partir de suffisamment d'exemples. De plus, dans des situations réelles, chaque vidéo peut présenter des individus et des environnements différents, compliquant la capacité du modèle à reconnaître la violence.
Pour être utile, tout système de détection de la violence doit être rapide et efficace. Il ne doit pas consommer trop de mémoire ni nécessiter une puissance de calcul importante, car cela peut ralentir la capacité à réagir en cas d'urgence. Les méthodes traditionnelles de reconnaissance d'actions ne conviennent souvent pas à ces défis.
Présentation de JOSENet
C'est là que JOSENet entre en jeu. JOSENet est un nouveau système conçu spécifiquement pour détecter la violence dans les vidéos de surveillance. Il utilise une approche moderne qui combine différents types d'entrées vidéo, à savoir des images vidéo couleurs et le Flux optique, qui suit le mouvement entre les images. Plus important encore, JOSENet utilise une méthode d'apprentissage qui n'a pas besoin de beaucoup de données étiquetées, ce qui est souvent difficile à trouver pour des situations réelles.
Le système fonctionne en recevant deux flux vidéo : un qui montre les images RGB normales (en couleur) et un autre qui montre le flux optique. Cette approche aide le système à analyser à la fois le contenu visuel et les mouvements qui se produisent. JOSENet est entraîné pour apprendre à partir de ces flux sans se fier aux étiquettes manuelles, ce qui le rend plus résilient dans des scénarios où les données étiquetées ne sont pas accessibles.
Comment fonctionne JOSENet
Le modèle JOSENet traite l'entrée en deux parties principales. La première partie se concentre sur les images RGB, tandis que la seconde analyse le flux optique. En prenant les deux types de données, JOSENet vise à comprendre non seulement ce qui se passe dans une vidéo, mais aussi comment les actions évoluent dans le temps.
Le flux RGB capture les détails visuels de la scène, ce qui est crucial pour reconnaître les actions. Le flux optique, d'un autre côté, fournit des informations sur les motifs de mouvement, aidant à différencier les actions qui pourraient sembler similaires dans des images statiques.
Pour assurer l'efficacité, JOSENet réduit le nombre d'images vidéo nécessaires tout en maintenant de bonnes performances. Cela signifie qu'il peut analyser les vidéos rapidement sans compromettre la précision. Le modèle a montré qu'il peut surpasser les méthodes existantes tout en utilisant beaucoup moins de ressources, ce qui en fait une option attrayante pour les applications réelles.
Apprentissage auto-supervisé
L'importance de l'Une des caractéristiques marquantes de JOSENet est son utilisation de l'apprentissage auto-supervisé (AAS). Cette approche permet au modèle d'apprendre de nouvelles fonctionnalités sans nécessiter beaucoup d'exemples étiquetés. Au lieu d'entraîner le système avec des données explicitement marquées, l'AAS l'aide à apprendre les relations entre différentes images vidéo à travers diverses tâches.
L'apprentissage auto-supervisé utilise des techniques qui encouragent le modèle à créer des représentations cohérentes des données d'entrée. Par exemple, en appliquant différentes transformations ou augmentations aux mêmes images vidéo, JOSENet peut apprendre à reconnaître que ces variations représentent toujours des situations similaires. Ainsi, même sans une grande quantité de données étiquetées, JOSENet peut améliorer sa capacité à détecter la violence efficacement.
La structure de JOSENet
Le modèle JOSENet se compose de plusieurs composants clés :
Architecture à deux flux
Comme mentionné plus tôt, JOSENet utilise une architecture à deux flux, ce qui signifie qu'il traite à la fois les images RGB et le flux optique simultanément. Cette approche lui permet de tirer parti des forces de chaque type de données, améliorant ainsi la performance globale du système.
Réseau à flux géré (FGN)
Le cœur de JOSENet est le Réseau à flux géré (FGN), qui facilite l'intégration des deux flux. Le FGN se compose de trois blocs :
Bloc spatial : Ce bloc traite les images RGB pour capturer les informations visuelles importantes. Il réduit le bruit et se concentre uniquement sur les zones où le mouvement est le plus intense.
Bloc temporel : Ce bloc analyse les données de flux optique, qui fournissent des informations sur le mouvement. Il calcule le mouvement entre les images consécutives pour mieux comprendre comment les actions changent au fil du temps.
Bloc de fusion : Après avoir traité les deux flux, le bloc de fusion combine les informations des blocs spatial et temporel. Cette étape aide à décider quels détails de chaque flux sont les plus importants pour reconnaître la violence.
Mise en œuvre efficace
Pour s'assurer que JOSENet peut fonctionner efficacement dans des scénarios en temps réel, le design met l'accent sur un coût computationnel faible. Le modèle est optimisé pour réduire le nombre d'images et le taux d'images requis pour l'analyse. Cela signifie qu'il peut fonctionner avec moins de mémoire tout en fournissant des résultats rapides.
Modèle d'apprentissage auto-supervisé auxiliaire
En plus du modèle principal, JOSENet utilise un modèle d'apprentissage auto-supervisé auxiliaire. Ce modèle est entraîné séparément mais contribue à affiner la performance du réseau principal. Il aide à préparer le modèle pour la tâche cible à venir en générant des représentations de caractéristiques utiles.
Expériences et résultats
Pour évaluer la performance de JOSENet, des expériences approfondies ont été réalisées sur plusieurs ensembles de données. L'ensemble de données principal utilisé était le RWF-2000, qui se compose de vidéos de surveillance réelles diversifiées. Des ensembles de données supplémentaires comme HMDB51 et UCF101 ont également été utilisés pour une meilleure compréhension des capacités de reconnaissance d'actions.
Performance de base
JOSENet a d'abord été testé sans pré-entraînement. Les résultats initiaux ont montré une précision décente, mais la performance pouvait être améliorée. En ajoutant diverses techniques et stratégies, y compris des mesures de dropout pour éviter le surapprentissage, la précision a été augmentée à un niveau respectable.
Impact de l'apprentissage auto-supervisé
Après avoir établi une base, la prochaine étape était d'introduire l'apprentissage auto-supervisé dans le processus d'entraînement. Les résultats de cette approche étaient prometteurs. En utilisant plusieurs techniques AAS, la précision et la performance globale de JOSENet ont montré une amélioration notable.
Particulièrement, la méthode connue sous le nom de VICReg a été bénéfique. Cette approche a aidé le modèle à apprendre des représentations de caractéristiques plus riches, conduisant à des métriques de performance encore plus élevées. Grâce à une sélection soigneuse des ensembles de données de pré-entraînement, JOSENet a pu se peaufiner pour gérer les complexités de la détection de violence efficacement.
Comparaison avec des méthodes à la pointe de la technologie
JOSENet a été comparé à plusieurs approches AAS à la pointe de la technologie. Bien que certaines techniques aient produit des résultats compétitifs, JOSENet a constamment outperformé, notamment lorsque les branches RGB et flux optique étaient entraînées ensemble. Cela a mis en évidence l'efficacité de l'architecture de JOSENet à capturer des caractéristiques complexes nécessaires à la détection de violence.
Généralisation à la reconnaissance d'actions
Au-delà de la détection de violence, la structure de JOSENet a également été appliquée à des tâches de reconnaissance d'actions générales. La capacité à peaufiner le modèle pour d'autres catégories d'actions s'est avérée réussie, avec des augmentations significatives des performances observées en précision.
Exploration des stratégies d'augmentation
JOSENet a également incorporé diverses stratégies d'augmentation de données pour améliorer l'apprentissage. En testant différentes configurations, il est devenu clair que certaines techniques d'augmentation aidaient le modèle à apprendre des caractéristiques essentielles plus efficacement. L'utilisation de stratégies de zoom crop, en particulier, a démontré des améliorations notables dans les métriques de performance.
Conclusion et travaux futurs
JOSENet représente un pas en avant significatif dans la détection de la violence au sein des vidéos de surveillance. Avec son utilisation novatrice de l'apprentissage auto-supervisé, son architecture à deux flux, et son design efficace, il parvient à fournir des capacités de détection robustes et rapides.
Le succès de JOSENet ouvre des portes pour que de futures recherches se concentrent sur l'adresse des biais potentiels et l'amélioration de la gestion des défis du monde réel, comme la mauvaise qualité vidéo ou les occlusions. Alors que la demande pour des systèmes de détection de violence fiables continue de croître, JOSENet se présente comme une alternative prometteuse qui peut s'adapter à divers contextes sans sacrifier l'efficacité.
Disponibilité des données
Les ensembles de données utilisés dans la recherche sont disponibles publiquement pour des études et des explorations supplémentaires. Les ensembles de données RWF-2000, UCF-Crime, HMDB51 et UCF101 peuvent être consultés via leurs plates-formes respectives.
Titre: JOSENet: A Joint Stream Embedding Network for Violence Detection in Surveillance Videos
Résumé: The increasing proliferation of video surveillance cameras and the escalating demand for crime prevention have intensified interest in the task of violence detection within the research community. Compared to other action recognition tasks, violence detection in surveillance videos presents additional issues, such as the wide variety of real fight scenes. Unfortunately, existing datasets for violence detection are relatively small in comparison to those for other action recognition tasks. Moreover, surveillance footage often features different individuals in each video and varying backgrounds for each camera. In addition, fast detection of violent actions in real-life surveillance videos is crucial to prevent adverse outcomes, thus necessitating models that are optimized for reduced memory usage and computational costs. These challenges complicate the application of traditional action recognition methods. To tackle all these issues, we introduce JOSENet, a novel self-supervised framework that provides outstanding performance for violence detection in surveillance videos. The proposed model processes two spatiotemporal video streams, namely RGB frames and optical flows, and incorporates a new regularized self-supervised learning approach for videos. JOSENet demonstrates improved performance compared to state-of-the-art methods, while utilizing only one-fourth of the frames per video segment and operating at a reduced frame rate. The source code is available at https://github.com/ispamm/JOSENet.
Auteurs: Pietro Nardelli, Danilo Comminiello
Dernière mise à jour: 2024-08-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.02961
Source PDF: https://arxiv.org/pdf/2405.02961
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://anonymous.4open.science/r/JOSENet
- https://docs.google.com/document/d/1LrTilbjtGq0Vn1sqCbAsewi038rcgMlDvgVqPM_K4NA/edit?pli=1%
- https://ctan.org/pkg/pifont
- https://github.com/ispamm/JOSENet
- https://visilab.etsii.uclm.es/personas/oscar/FightDetection/
- https://www.openu.ac.il/home/hassner/data/violentflows/
- https://www.crcv.ucf.edu/data/UCF101.php
- https://rose1.ntu.edu.sg/dataset/cctvFights/
- https://github.com/seymanurakti/fight-detection-surv-dataset
- https://socia-lab.di.ubi.pt/EventDetection/
- https://github.com/mchengny/RWF2000-Video-Database-for-Violence-Detection
- https://github.com/airtlab/A-Dataset-for-Automatic-Violence-Detection-in-Videos
- https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
- https://www.deepmind.com/open-source/kinetics