Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Avanzamenti nel rilevamento di anomalie video usando VAD-LLaMA

Un nuovo modo per rilevare anomalie nei video di sorveglianza con spiegazioni chiare.

― 6 leggere min


VAD-LLaMA: Rilevamento diVAD-LLaMA: Rilevamento diAnomalie di NuovaGenerazionee spiegazioni.anomalie video con maggiore precisioneRivoluzionare il rilevamento delle
Indice

La rilevazione di anomalie nei video (VAD) riguarda il riconoscere eventi insoliti in lunghi video di sorveglianza. È importante per aree come la sicurezza negli spazi pubblici, il monitoraggio del traffico e i processi industriali. Un modo comune per rilevare anomalie è assegnare punteggi ai segmenti video. Questi punteggi aiutano a evidenziare quali fotogrammi possono mostrare attività anormali. Tuttavia, i metodi attuali dipendono spesso da soglie impostate manualmente per decidere cosa è "anormale", il che può essere complicato e poco chiaro. Inoltre, può essere difficile spiegare perché un evento specifico è contrassegnato come anormale.

Questo articolo discute un nuovo approccio al VAD che utilizza modelli linguistici di grandi dimensioni basati su video (VLLM). L'obiettivo principale è rendere il VAD più automatico e facile da spiegare. Utilizzando un sistema chiamato VAD-LLaMA, puntiamo a rilevare anomalie senza bisogno di soglie impostate e a fornire spiegazioni testuali su perché qualcosa è considerato insolito.

Sfide nella Rilevazione di Anomalie nei Video

I metodi tradizionali di VAD si basano spesso sull'assegnazione di punteggi di anomalia ai fotogrammi video, con soglie manuali per questi punteggi che determinano quali fotogrammi sono anomali. Questo metodo ha diversi problemi.

Prima di tutto, non è chiaro come selezionare la soglia migliore per video diversi, che possono contenere eventi e contesti variabili. Soglie diverse possono portare a risultati di rilevazione diversi per lo stesso contenuto video. Secondo, anche con una buona soglia, i punteggi da soli forniscono poco contesto o comprensione delle anomalie rilevate.

Nel nostro approccio, vogliamo andare oltre la semplice rilevazione delle anomalie. Puntiamo a spiegare le ragioni di queste rilevazioni in modo facile da capire.

Introduzione a VAD-LLaMA

Per migliorare i metodi esistenti, introduciamo VAD-LLaMA, che integra VLLM nel processo di VAD. Questo nuovo metodo offre due vantaggi significativi:

  1. Rimuove la necessità di selezionare manualmente le soglie.
  2. Fornisce spiegazioni testuali insieme alle rilevazioni di anomalie.

Un componente chiave del nostro modello è un modulo di Contesto a lungo termine (LTC), progettato per consentire una migliore comprensione del contenuto video su periodi più lunghi. Inoltre, abbiamo sviluppato una strategia di addestramento che aiuta a ridurre la quantità di dati necessaria per l'addestramento, il che è spesso una sfida nel VAD a causa della limitata disponibilità di dati di anomalie etichettati.

Cos'è il Contesto a Lungo Termine (LTC)?

Il modulo di contesto a lungo termine affronta una limitazione significativa trovata nei tradizionali VLLM. La maggior parte dei VLLM non è in grado di analizzare video lunghi. Di solito funzionano meglio su clip brevi. La nostra soluzione inizia suddividendo video più lunghi in clip più piccole e estraendo caratteristiche da ciascuna di queste clip.

Il modulo LTC aiuta a costruire una rappresentazione dell'intero video raccogliendo informazioni dalle caratteristiche sia delle clip normali che di quelle anormali. Aggiornando queste caratteristiche man mano che nuove clip vengono elaborate, il modulo LTC fornisce una comprensione continua del contesto del video.

Metodo di Addestramento per VAD-LLaMA

Abbiamo strutturato il nostro addestramento in tre fasi principali:

  1. Addestramento di un Modello di Base: La prima fase prevede l'addestramento di una versione base del nostro modello VAD, chiamato VADor. Questa versione aiuta a stabilire punteggi iniziali per le anomalie basati sulle caratteristiche estratte dai segmenti video.

  2. Co-Addestramento con LTC: Nella seconda fase, addestriamo il VADor insieme al modulo LTC. Questo addestramento combinato aiuta entrambi i componenti a imparare l'uno dall'altro, in particolare nella comprensione di contesti a lungo raggio, che è cruciale per una rilevazione efficace delle anomalie.

  3. Affinamento del Modello: L'ultima fase si concentra sul perfezionamento del modello per migliorare le prestazioni basate su dati di istruzione. Invece di riaddestrare l'intero VAD-LLaMA, regoliamo solo il livello che collega il VADor e il modello linguistico per adattarlo al nostro compito specifico.

Test e Risultati

Dopo l'addestramento, abbiamo testato le prestazioni di VAD-LLaMA utilizzando due dataset popolari: UCF-Crime e TAD. Questi dataset consistono in vari video di sorveglianza, alcuni con attività normali e altri contenenti vari tipi di anomalie.

I nostri risultati indicano che VAD-LLaMA supera i metodi precedenti in termini di rilevazione delle anomalie. In particolare, offre punteggi complessivi migliori, soprattutto per video più complessi dove la comprensione di contesti più lunghi è essenziale.

Inoltre, la capacità del nostro modello di fornire spiegazioni testuali per le anomalie rilevate rappresenta un avanzamento significativo. Questa funzione consente agli utenti di capire non solo quali eventi siano stati rilevati come insoliti, ma anche perché sono stati classificati in questo modo.

Esempi di Anomalie

Per mostrare l'efficacia di VAD-LLaMA, forniamo alcuni scenari illustrativi. Ad esempio, in un video di un incidente automobilistico, i modelli tradizionali potrebbero avere difficoltà a identificare chiaramente l'incidente senza contesto, mentre VAD-LLaMA potrebbe evidenziare l'incidente e spiegarlo in termini semplici.

La capacità di descrivere le anomalie rilevate è particolarmente preziosa nelle applicazioni pratiche. Gli utenti possono porre domande sul contenuto del video, e il modello può rispondere con informazioni pertinenti, aiutando ulteriormente nella comprensione.

Affrontare le Limitazioni nei Dati

Una delle sfide nella rilevazione di anomalie nei video è la limitata quantità di dati disponibili, specialmente dati etichettati. Molti dataset esistenti includono solo annotazioni deboli-forse semplicemente segnando se un video era normale o anormale, ma non identificando eventi anormali specifici.

Per affrontare questo problema, abbiamo mirato a minimizzare i requisiti di dati di addestramento utilizzando il nostro metodo di addestramento in tre fasi. La prima fase ci consente di creare un nuovo dataset di punteggi di anomalie dal modello VADor di base. Questo dataset può quindi essere utilizzato per migliorare il processo di co-addestramento con il modulo LTC.

Lavori Correlati nella Rilevazione di Anomalie nei Video

Nel campo del VAD, i ricercatori hanno esplorato varie strategie per affrontare la complessità e le sfide dell'identificazione delle anomalie nei video. Tradizionalmente, i metodi si sono concentrati sull'impiego di tecniche di apprendimento debolmente supervisionato, che sfruttano sia dati di addestramento normali che anormali, facendo affidamento su annotazioni deboli.

Molti di questi approcci seguono un processo in due fasi, in cui le caratteristiche vengono prima estratte e poi un modello identifica le anomalie basandosi su quelle caratteristiche. Alcune tecniche notevoli includono l'apprendimento per più istanze, che sottolinea l'importanza della comprensione contestuale.

Al contrario, il nostro approccio VAD-LLaMA integra in modo unico i punti di forza dei VLLM per migliorare l'accuratezza e l'interpretabilità del VAD, distinguendosi dalle metodologie esistenti.

Conclusione

Lo sviluppo di VAD-LLaMA rappresenta un passo significativo avanti nella capacità dei sistemi di rilevazione di anomalie nei video. Utilizzando modelli linguistici di grandi dimensioni basati su video, puntiamo a un metodo che non dipende da soglie manuali e fornisce spiegazioni facili da capire per le anomalie rilevate.

L'introduzione del modulo di contesto a lungo termine consente una comprensione migliorata di video complessi, mentre il nostro metodo di addestramento strutturato amplia la fattibilità di utilizzare dati limitati. I risultati positivi dei test indicano che VAD-LLaMA può identificare ed spiegare efficacemente le anomalie, aprendo la strada a applicazioni più robuste in vari campi, dalla sicurezza al monitoraggio del traffico.

Nel lavoro futuro, abbiamo in programma di migliorare VAD-LLaMA sviluppando la sua capacità di adattarsi rapidamente a nuovi tipi di anomalie. Questo miglioramento consentirebbe una maggiore flessibilità ed efficienza in varie applicazioni pratiche, garantendo che il VAD rimanga uno strumento prezioso nel monitoraggio e nella comprensione del contenuto video.

Fonte originale

Titolo: Video Anomaly Detection and Explanation via Large Language Models

Estratto: Video Anomaly Detection (VAD) aims to localize abnormal events on the timeline of long-range surveillance videos. Anomaly-scoring-based methods have been prevailing for years but suffer from the high complexity of thresholding and low explanability of detection results. In this paper, we conduct pioneer research on equipping video-based large language models (VLLMs) in the framework of VAD, making the VAD model free from thresholds and able to explain the reasons for the detected anomalies. We introduce a novel network module Long-Term Context (LTC) to mitigate the incapability of VLLMs in long-range context modeling. We design a three-phase training method to improve the efficiency of fine-tuning VLLMs by substantially minimizing the requirements for VAD data and lowering the costs of annotating instruction-tuning data. Our trained model achieves the top performance on the anomaly videos of the UCF-Crime and TAD benchmarks, with the AUC improvements of +3.86\% and +4.96\%, respectively. More impressively, our approach can provide textual explanations for detected anomalies.

Autori: Hui Lv, Qianru Sun

Ultimo aggiornamento: 2024-01-11 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2401.05702

Fonte PDF: https://arxiv.org/pdf/2401.05702

Licenza: https://creativecommons.org/publicdomain/zero/1.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili