Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans la détection d'anomalies vidéo avec le cadre LAP

Présentation d'une nouvelle méthode pour détecter des événements inhabituels dans la vidéosurveillance.

― 7 min lire


Cadre LAP dans laCadre LAP dans lasurveillance vidéoles flux vidéo.Détection efficace des anomalies dans
Table des matières

La Détection d'anomalies vidéo (VAD) est un domaine important dans la surveillance vidéo. Ça vise à repérer des événements inhabituels qui peuvent signaler des menaces potentielles à la sécurité. Avec l'augmentation de l'utilisation des caméras dans les espaces publics, c'est devenu crucial de développer des systèmes capables de détecter efficacement ces activités anormales. Cependant, créer des modèles efficaces pour cette tâche est compliqué. C'est surtout à cause du manque d'étiquettes détaillées pour chaque événement anormal possible dans de grands ensembles de données vidéo. Les méthodes traditionnelles s'appuient généralement sur des techniques d'apprentissage faiblement supervisées qui utilisent des informations limitées pour entraîner les modèles.

Le défi

La plupart des méthodes conventionnelles de VAD dépendent de ce qu'on appelle l'apprentissage par instances multiples (MIL). Dans ce cadre, le but est de déterminer quelles parties d'une vidéo sont normales ou anormales sans définir clairement ce que signifie anormal. Cette ambiguïté peut mener à des biais et des identifications inexactes. Quand un modèle voit une vidéo qui contient à la fois des extraits normaux et anormaux, il a souvent du mal à les différencier efficacement. C'est là que l'introduction de prompts textuels peut jouer un rôle important. En utilisant ces prompts, ça aide à clarifier ce qui constitue une anomalie dans différentes situations.

Cadre proposé : LAP

Un nouveau cadre appelé Learn Suspected Anomalies from Event Prompts (LAP) a été introduit pour s'attaquer aux défis dans la VAD. LAP utilise un système où un dictionnaire d'événements anormaux potentiels est créé sous forme de prompts textuels. Ce dictionnaire sert de guide pour le modèle, l'aidant à déterminer quels événements dans un extrait vidéo pourraient être considérés comme anormaux. L'approche LAP implique de comparer ces prompts avec les légendes générées à partir des vidéos pour évaluer leur similitude. En analysant cette similitude, le modèle peut identifier les anomalies suspectées de manière plus précise.

Le cadre LAP intègre trois processus principaux : la synthèse de caractéristiques, l'Apprentissage Multi-Prompts et l'étiquetage pseudo-anomalie. La première étape consiste à rassembler des caractéristiques des données visuelles et des prompts textuels. Ces caractéristiques sont ensuite combinées pour améliorer la représentation globale du contenu vidéo. La deuxième étape, l'apprentissage multi-prompts, crée une structure qui aide le modèle à apprendre dans divers contextes vidéo plutôt que de se concentrer uniquement sur des instances isolées. Enfin, l'étiquetage pseudo-anomalie permet au modèle de créer des étiquettes supplémentaires pour l'entraînement, ce qui améliore sa capacité à identifier les anomalies.

Importance de l'apprentissage multi-prompts

L'apprentissage multi-prompts est un élément clé dans le cadre LAP. Ça connecte différents extraits vidéo avec les prompts du dictionnaire, permettant au modèle d'obtenir des informations à partir d'un ensemble de données plus complet. Traditionnellement, les modèles se basaient uniquement sur les scores les plus sévères des vidéos individuelles pour évaluer ce qui est anormal. En employant plusieurs prompts, LAP peut évaluer différentes actions anormales potentielles dans chaque extrait, menant à une compréhension plus nuancée de ce qui rend un événement anormal.

Étiquetage pseudo-anomalie

Le processus d'étiquetage pseudo-anomalie contribue encore à la performance du modèle. Au lieu de se fier uniquement aux étiquettes fournies dans les données, le cadre LAP génère des étiquettes supplémentaires basées sur la similitude sémantique entre les prompts et les légendes des vidéos. Ces étiquettes générées servent de données d'entraînement supplémentaires, aidant le modèle à en apprendre davantage sur ce qui constitue une anomalie.

Évaluation de LAP

Pour tester l'efficacité de LAP, une série d'expériences a été menée sur différents ensembles de données comme XD-Violence, UCF-Crime, TAD et ShanghaiTech. Chacun de ces ensembles de données contient une large gamme de types de vidéos couvrant divers événements anormaux. La performance de LAP a été mesurée par rapport aux méthodes existantes. Les résultats ont montré que LAP surpassait la majorité de ces méthodes concernant la surface sous la courbe précision-rappel (AP) et la surface sous la courbe (AUC), indiquant sa robustesse dans la détection d'activités anormales.

Le rôle des ensembles de données

Évaluer la performance de LAP nécessitait l'utilisation de plusieurs ensembles de données. L'ensemble de données XD-Violence comprend de nombreuses vidéos non montées montrant des incidents violents, tandis que l'ensemble UCF-Crime englobe un plus large éventail de crimes capturés par des caméras de surveillance. D'un autre côté, des ensembles comme TAD se concentrent sur les anomalies dans les scénarios de trafic, et ShanghaiTech propose des exemples de milieux scolaires. En utilisant plusieurs ensembles de données, LAP pouvait montrer sa capacité à s'adapter à différents contextes, mettant en lumière son potentiel pour des applications dans le monde réel.

Comparaison avec les méthodes existantes

En comparant LAP avec d'autres méthodes existantes, plusieurs différences notables ont émergé. Par exemple, de nombreux modèles traditionnels ne prennent en compte que les caractéristiques visuelles lors de l'analyse du contenu vidéo. Cette limitation entraîne souvent un taux élevé de fausses alertes et une précision réduite. En revanche, LAP intègre à la fois des caractéristiques visuelles et sémantiques, permettant une évaluation plus approfondie des extraits vidéo.

De plus, les méthodes traditionnelles ont souvent du mal à fournir une supervision suffisante pour les différentes anomalies, ce qui mène à des erreurs de classification. Le cadre LAP répond efficacement à ce défi en utilisant à la fois des caractéristiques vidéo et des prompts textuels. Cette combinaison améliore non seulement la précision du modèle mais réduit également la probabilité de fausses alertes.

Analyse qualitative

En plus des évaluations quantitatives, une analyse qualitative a également été réalisée pour visualiser l'efficacité de LAP. Cette analyse consistait à comparer les résultats de LAP avec ceux d'une méthode traditionnelle à la pointe de la technologie. Les résultats ont montré la capacité supérieure de détection d'anomalies de LAP et sa capacité à minimiser les fausses alertes dans les régions normales des vidéos.

Conclusion

En résumé, le cadre LAP proposé représente une avancée prometteuse dans le domaine de la détection d'anomalies vidéo. En combinant des données visuelles avec des prompts textuels, LAP permet une compréhension plus nuancée de ce qui constitue un événement anormal. Cette méthode améliore non seulement la précision et l'efficacité des modèles de détection d'anomalies mais ouvre également la voie à d'autres explorations sur l'utilisation d'informations sémantiques pour diverses applications dans la surveillance vidéo en temps réel. Les expériences approfondies menées sur plusieurs ensembles de données valident encore l'efficacité de LAP, en faisant un développement significatif dans la détection d'anomalies vidéo faiblement supervisée.

Source originale

Titre: Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection

Résumé: Most models for weakly supervised video anomaly detection (WS-VAD) rely on multiple instance learning, aiming to distinguish normal and abnormal snippets without specifying the type of anomaly. However, the ambiguous nature of anomaly definitions across contexts may introduce inaccuracy in discriminating abnormal and normal events. To show the model what is anomalous, a novel framework is proposed to guide the learning of suspected anomalies from event prompts. Given a textual prompt dictionary of potential anomaly events and the captions generated from anomaly videos, the semantic anomaly similarity between them could be calculated to identify the suspected events for each video snippet. It enables a new multi-prompt learning process to constrain the visual-semantic features across all videos, as well as provides a new way to label pseudo anomalies for self-training. To demonstrate its effectiveness, comprehensive experiments and detailed ablation studies are conducted on four datasets, namely XD-Violence, UCF-Crime, TAD, and ShanghaiTech. Our proposed model outperforms most state-of-the-art methods in terms of AP or AUC (86.5\%, \hl{90.4}\%, 94.4\%, and 97.4\%). Furthermore, it shows promising performance in open-set and cross-dataset cases. The data, code, and models can be found at: \url{https://github.com/shiwoaz/lap}.

Auteurs: Chenchen Tao, Xiaohao Peng, Chong Wang, Jiafei Wu, Puning Zhao, Jun Wang, Jiangbo Qian

Dernière mise à jour: 2024-09-02 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2403.01169

Source PDF: https://arxiv.org/pdf/2403.01169

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires