Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Fortschritte bei der Video-Anomalieerkennung mit dem LAP-Framework

Eine neue Methode vorstellen, um ungewöhnliche Ereignisse in Videoüberwachung zu erkennen.

― 6 min Lesedauer


LAP-Framework in derLAP-Framework in derVideoüberwachungVideo-Feeds.Effizientes Erkennen von Anomalien in
Inhaltsverzeichnis

Videoanomalieerkennung (VAD) ist ein wichtiges Thema in der Videoüberwachung. Es geht darum, ungewöhnliche Ereignisse zu erkennen, die potenzielle Sicherheitsbedrohungen anzeigen können. Mit der zunehmenden Nutzung von Kameras in öffentlichen Räumen ist es wichtig geworden, Systeme zu entwickeln, die diese abnormalen Aktivitäten effizient erkennen können. Allerdings ist es eine Herausforderung, effektive Modelle für diese Aufgabe zu erstellen. Das liegt hauptsächlich daran, dass es nicht genügend detaillierte Labels für jedes mögliche abnormale Ereignis in grossen Video-Datensätzen gibt. Traditionelle Methoden basieren normalerweise auf schwach überwachten Lerntechniken, die nur begrenzte Informationen nutzen, um die Modelle zu trainieren.

Die Herausforderung

Die meisten herkömmlichen Methoden der VAD hängen von dem ab, was als Multiple Instance Learning (MIL) bekannt ist. In diesem Rahmen ist das Ziel, herauszufinden, welche Teile eines Videos normal oder abnormal sind, ohne klar zu definieren, was abnormal bedeutet. Diese Unklarheit kann zu Verzerrungen und falschen Identifikationen führen. Wenn ein Modell ein Video sieht, das sowohl normale als auch abnormale Ausschnitte enthält, hat es oft Schwierigkeiten, zwischen ihnen effektiv zu unterscheiden. Hier können textliche Anreize eine wichtige Rolle spielen. Durch die Nutzung dieser Anreize hilft es, zu klären, was in verschiedenen Situationen eine Anomalie darstellt.

Vorgeschlagenes Framework: LAP

Ein neues Framework namens Learn Suspected Anomalies from Event Prompts (LAP) wurde eingeführt, um die Herausforderungen in der VAD anzugehen. LAP nutzt ein System, bei dem ein Wörterbuch von potenziell abnormalen Ereignissen in Form von Textanreizen erstellt wird. Dieses Wörterbuch dient als Leitfaden für das Modell und hilft ihm zu bestimmen, welche Ereignisse in einem Videoausschnitt als anormal angesehen werden könnten. Der LAP-Ansatz umfasst den Vergleich dieser Anreize mit den aus den Videos generierten Beschreibungen, um ihre Ähnlichkeit zu bewerten. Durch die Analyse dieser Ähnlichkeit kann das Modell verdächtige Anomalien genauer identifizieren.

Das LAP-Framework beinhaltet drei Hauptprozesse: Merkmalsynthese, Multi-Prompt-Lernen und Pseudo-Anomalie-Labeling. Der erste Schritt besteht darin, Merkmale sowohl aus den visuellen Daten als auch aus den textlichen Anreizen zu sammeln. Diese Merkmale werden dann kombiniert, um die Gesamtdarstellung des Videoinhalts zu verbessern. Der zweite Schritt, das Multi-Prompt-Lernen, schafft eine Struktur, die dem Modell hilft, in verschiedenen Video-Kontexten zu lernen, anstatt sich nur auf isolierte Fälle zu konzentrieren. Schliesslich ermöglicht das Pseudo-Anomalie-Labeling dem Modell, zusätzliche Labels für das Training zu erstellen, was seine Fähigkeit zur Identifizierung von Anomalien verbessert.

Bedeutung des Multi-Prompt-Lernens

Multi-Prompt-Lernen ist ein zentrales Element im LAP-Framework. Es verbindet verschiedene Videoausschnitte mit den Anreizen aus dem Wörterbuch, sodass das Modell Einblicke aus einem umfassenderen Datensatz gewinnt. Traditionell würden Modelle nur auf die schwerwiegendsten Werte individueller Videos zurückgreifen, um herauszufinden, was abnormal ist. Durch die Verwendung mehrerer Anreize kann LAP verschiedene potenzielle abnormale Handlungen in jedem Ausschnitt bewerten, was zu einem differenzierteren Verständnis dessen führt, was ein Ereignis abnormal macht.

Pseudo-Anomalie-Labeling

Der Prozess des Pseudo-Anomalie-Labelings trägt weiter zur Leistung des Modells bei. Anstatt sich nur auf die in den Daten bereitgestellten Labels zu verlassen, generiert das LAP-Framework zusätzliche Labels basierend auf der semantischen Ähnlichkeit zwischen den Anreizen und den Beschreibungen der Videos. Diese generierten Labels dienen als ergänzende Trainingsdaten, die dem Modell helfen, mehr darüber zu lernen, was eine Anomalie ausmacht.

Bewertung von LAP

Um die Effektivität von LAP zu testen, wurden eine Reihe von Experimenten über verschiedene Datensätze wie XD-Violence, UCF-Crime, TAD und ShanghaiTech durchgeführt. Jeder dieser Datensätze enthält eine breite Palette von Videotypen, die verschiedene abnormale Ereignisse abdecken. Die Leistung von LAP wurde mit bestehenden state-of-the-art Methoden verglichen. Die Ergebnisse zeigten, dass LAP die meisten dieser Methoden in Bezug auf die Fläche unter der Präzisions-Rückruf-Kurve (AP) und die Fläche unter der Kurve (AUC) übertraf, was auf seine Robustheit bei der Erkennung abnormaler Aktivitäten hinweist.

Die Rolle von Datensätzen

Die Bewertung der Leistung von LAP erforderte die Verwendung verschiedener Datensätze. Der XD-Violence-Datensatz umfasst zahlreiche ungeschnittene Videos, die gewalttätige Vorfälle zeigen, während der UCF-Crime-Datensatz eine breitere Palette von Verbrechen umfasst, die von Überwachungskameras erfasst wurden. Auf der anderen Seite konzentrieren sich Datensätze wie TAD auf Anomalien im Verkehrsszenario, und ShanghaiTech bietet Beispiele aus dem Campusbereich. Durch die Nutzung mehrerer Datensätze konnte LAP seine Fähigkeit demonstrieren, sich an verschiedene Kontexte anzupassen, und so sein Potenzial für Anwendungen in der realen Welt hervorheben.

Vergleich mit bestehenden Methoden

Beim Vergleich von LAP mit anderen bestehenden Methoden traten mehrere bemerkenswerte Unterschiede auf. Viele traditionelle Modelle berücksichtigen zum Beispiel nur visuelle Merkmale bei der Analyse von Videoinhalten. Diese Einschränkung führt oft zu einer hohen Rate von Fehlalarmen und einer verringerten Genauigkeit. Im Gegensatz dazu integriert LAP sowohl visuelle als auch semantische Merkmale, was eine gründlichere Bewertung der Videoausschnitte ermöglicht.

Darüber hinaus haben traditionelle Methoden oft Schwierigkeiten, ausreichend Aufsicht über die verschiedenen Anomalien zu bieten, was zu Fehlklassifikationen führt. Das LAP-Framework adressiert diese Herausforderung effektiv, indem es sowohl Video- als auch Textmerkmale nutzt. Diese Kombination verbessert nicht nur die Genauigkeit des Modells, sondern verringert auch die Wahrscheinlichkeit von Fehlalarmen.

Qualitative Analyse

Zusätzlich zu quantitativen Bewertungen wurde auch eine qualitative Analyse durchgeführt, um die Effektivität von LAP zu visualisieren. Diese Analyse beinhaltete den Vergleich der Ergebnisse von LAP mit denen einer traditionellen state-of-the-art Methode. Die Ergebnisse zeigten die überlegene Anomalieerkennungsfähigkeit von LAP und seine Fähigkeit, Fehlalarme in den normalen Bereichen der Videos zu minimieren.

Fazit

Zusammenfassend stellt das vorgeschlagene LAP-Framework einen vielversprechenden Fortschritt im Bereich der Videoanomalieerkennung dar. Durch die Kombination visueller Daten mit textlichen Anreizen ermöglicht LAP ein differenzierteres Verständnis dessen, was ein anormales Ereignis ausmacht. Diese Methode verbessert nicht nur die Genauigkeit und Effizienz von Anomalieerkennungsmodellen, sondern eröffnet auch neue Möglichkeiten zur Nutzung semantischer Informationen für verschiedene Anwendungen in der Echtzeit-Videoüberwachung. Die umfangreichen Experimente, die in mehreren Datensätzen durchgeführt wurden, bestätigen die Effektivität von LAP und machen es zu einer bedeutenden Entwicklung in der schwach überwachten Videoanomalieerkennung.

Originalquelle

Titel: Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection

Zusammenfassung: Most models for weakly supervised video anomaly detection (WS-VAD) rely on multiple instance learning, aiming to distinguish normal and abnormal snippets without specifying the type of anomaly. However, the ambiguous nature of anomaly definitions across contexts may introduce inaccuracy in discriminating abnormal and normal events. To show the model what is anomalous, a novel framework is proposed to guide the learning of suspected anomalies from event prompts. Given a textual prompt dictionary of potential anomaly events and the captions generated from anomaly videos, the semantic anomaly similarity between them could be calculated to identify the suspected events for each video snippet. It enables a new multi-prompt learning process to constrain the visual-semantic features across all videos, as well as provides a new way to label pseudo anomalies for self-training. To demonstrate its effectiveness, comprehensive experiments and detailed ablation studies are conducted on four datasets, namely XD-Violence, UCF-Crime, TAD, and ShanghaiTech. Our proposed model outperforms most state-of-the-art methods in terms of AP or AUC (86.5\%, \hl{90.4}\%, 94.4\%, and 97.4\%). Furthermore, it shows promising performance in open-set and cross-dataset cases. The data, code, and models can be found at: \url{https://github.com/shiwoaz/lap}.

Autoren: Chenchen Tao, Xiaohao Peng, Chong Wang, Jiafei Wu, Puning Zhao, Jun Wang, Jiangbo Qian

Letzte Aktualisierung: 2024-09-02 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2403.01169

Quell-PDF: https://arxiv.org/pdf/2403.01169

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel