Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Sviluppi nelle tecniche di rilevamento delle anomalie video

Un nuovo metodo migliora la rilevazione di eventi strani nei filmati.

― 6 leggere min


Rilevamento AnomaliaRilevamento AnomaliaVideo di NuovaGenerazionerilevamento di eventi video insoliti.Metodi innovativi migliorano il
Indice

La rilevazione delle Anomalie nei video è un processo importante nella visione artificiale che aiuta a identificare eventi insoliti nei video. Questo potrebbe significare individuare incidenti, malattie o persino comportamenti sospetti che potrebbero rappresentare un rischio per la sicurezza pubblica. Tuttavia, questo compito presenta delle sfide. Prima di tutto, cosa conta come "anomalia" può cambiare a seconda della situazione, rendendo difficile definire uno standard universale. In secondo luogo, le anomalie sono rare, il che significa che la maggior parte dei modelli è addestrata solo con esempi normali, portando a uno squilibrio nei dati. Infine, rilevare anomalie è un lavoro complicato perché deve affrontare una varietà di comportamenti che vanno oltre ciò che il modello ha visto durante l'addestramento.

Approcci Tradizionali alla Rilevazione delle Anomalie nei Video

I metodi tradizionali per identificare anomalie spesso rientrano in una categoria nota come Classificazione a Una Classe (OCC). Questo significa addestrare il modello esclusivamente su quello che è considerato comportamento "Normale". Molte di queste tecniche cercano di creare uno spazio limitato in cui le azioni normali sono rappresentate. Se una nuova azione si trova al di fuori di questo spazio, viene segnala come anomala. Anche se questo funziona fino a un certo punto, ignora il fatto che le azioni normali possono essere eseguite in molti modi diversi.

Ad esempio, se una persona sta camminando, ci sono molti stili di camminata che sono ancora classificati come normali. Se un modello impara solo un modo di rappresentare la camminata, potrebbe erroneamente classificare un diverso stile di camminata come insolito.

Un Nuovo Approccio alla Rilevazione delle Anomalie

Per affrontare queste limitazioni, è stato introdotto un nuovo metodo che utilizza un tipo di modello generativo per la rilevazione delle anomalie nei video. Questa tecnica considera sia la normalità che l'anormalità come multimodali, il che significa che ci sono vari modi possibili di rappresentarli entrambi. L'obiettivo è utilizzare rappresentazioni scheletriche dei movimenti umani e impiegare modelli generativi avanzati per prevedere le future pose umane.

L'idea chiave qui è guardare ai movimenti passati degli individui per aiutare a generare diversi possibili movimenti futuri. Quando il Movimento Futuro reale non corrisponde a queste opzioni generate, si può rilevare un'anomalia. Questo metodo mostra risultati promettenti quando viene testato su diversi benchmark stabiliti, superando le tecniche all'avanguardia precedenti.

Comprendere la Diffusione Condizionata dal Movimento

Il cuore di questo nuovo approccio risiede in qualcosa chiamato Diffusione Condizionata dal Movimento. Questo comporta prendere una sequenza di movimenti e dividerla in segmenti passati e futuri. I frame di movimento futuri vengono volutamente alterati aggiungendo loro rumore, rendendoli casuali.

Tenendo intatti i frame passati, il modello può generare quindi movimenti futuri plausibili che corrispondono ai movimenti passati. L'aspetto importante qui è che durante i movimenti normali, le opzioni future generate tendono a essere rilevanti e vicine al vero futuro. Al contrario, quando si verifica un'azione anomala, i movimenti futuri generati non corrispondono bene, indicando un'anomalia.

Il Ruolo dei Modelli di Diffusione

I modelli di diffusione hanno guadagnato popolarità per la loro capacità di gestire compiti generativi come la creazione di immagini e video. Tuttavia, applicarli alla rilevazione delle anomalie nei video è relativamente nuovo. Questi modelli funzionano utilizzando due processi: un processo in avanti che aggiunge rumore ai dati e un processo inverso che rimuove quel rumore.

Il processo in avanti prende i dati e li corrompe gradualmente, cambiandoli in una forma più semplice, mentre il processo inverso cerca di ripristinare i dati originali. L'uso di modelli di diffusione consente alla tecnica di generare una varietà di possibili movimenti futuri, catturando i vari modi in cui le azioni possono svilupparsi.

Condizionamento sui Frame Passati

Un elemento essenziale di questo approccio è come utilizza i frame passati per guidare le previsioni future. Utilizzando movimenti passati puliti, il modello può fornire un contesto che aiuta a concentrare l'output sulla generazione di movimenti futuri che siano più pertinenti all'azione eseguita.

Tre diversi metodi possono essere utilizzati per questo condizionamento:

  1. Concatenazione degli Input: Questo comporta l'aggiunta diretta dei frame passati puliti ai frame futuri alterati prima che vengano elaborati dal modello.
  2. Embedding End-to-End (E2E): Questo metodo impara a creare una rappresentazione dei frame passati puliti che può essere integrata nel modello.
  3. Embedding Auto-Codificatore (AE): Simile all'E2E ma include un passaggio aggiuntivo per ricostruire i frame puliti, guidando il modello in modo più efficace.

I test mostrano che il metodo di embedding AE tende a dare i migliori risultati, poiché incorpora un aspetto supervisionato nell'addestramento.

Valutazione delle Prestazioni

Le prestazioni del nuovo modello vengono valutate utilizzando vari dataset che contengono un mix di attività normali e anormali. I risultati indicano che questo metodo è efficace nel distinguere tra questi due tipi di movimenti.

La valutazione utilizza principalmente una misura statistica nota come Area sotto la curva (AUC), che valuta quanto bene il modello prevede le anomalie. I risultati dimostrano che questo nuovo metodo supera significativamente le tecniche tradizionali, anche quando non utilizza alcuna informazione visiva o etichette aggiuntive per l'addestramento.

Confronto con Metodi Esistenti

Rispetto alle tecniche OCC esistenti, il nuovo approccio mostra miglioramenti notevoli. Molti metodi tradizionali costringono le azioni normali in rappresentazioni ristrette e classificano erroneamente comportamenti normali diversi come anormali. Tuttavia, il nuovo metodo abbraccia il fatto che la normalità può includere un'ampia gamma di comportamenti.

Questa flessibilità consente di essere più accurati quando si tratta di identificare anomalie. Inoltre, l'assenza di dipendenza dai dati visivi rende questo approccio più rispettoso della privacy e anche più efficiente dal punto di vista computazionale.

Risultati Chiave

Una delle principali scoperte di questa ricerca è che la diversità nei movimenti futuri previsti è cruciale per rilevare efficacemente le anomalie. Il modello genera una gamma di possibili movimenti futuri e, valutando quanto il movimento reale si allinei a questa gamma, il modello può rilevare attività insolite.

La ricerca evidenzia anche che il numero di movimenti futuri generati influenza le prestazioni complessive di rilevamento. In generale, più campioni vengono prodotti, migliori sembrano essere i tassi di rilevamento, poiché il modello può catturare un range più ampio di comportamenti potenziali.

Conclusione

In conclusione, il nuovo approccio alla rilevazione delle anomalie nei video rappresenta un passo significativo avanti. Modellando efficacemente la natura multimodale sia delle azioni normali che anormali, supera molte delle limitazioni delle tecniche tradizionali.

Questo modello non solo migliora l'accuratezza della rilevazione, ma offre anche una soluzione più flessibile e attenta alla privacy. Man mano che il campo della rilevazione delle anomalie nei video continua a evolversi, questo metodo si distingue come un avanzamento promettente, aprendo la strada a applicazioni di sicurezza più efficaci e affidabili nel mondo reale.

La ricerca è ancora in corso, con un'enfasi sul perfezionamento dei modelli, il miglioramento delle loro capacità previsionali e l'esplorazione della loro applicabilità in vari contesti oltre la semplice rilevazione delle anomalie nei video.

Fonte originale

Titolo: Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection

Estratto: Anomalies are rare and anomaly detection is often therefore framed as One-Class Classification (OCC), i.e. trained solely on normalcy. Leading OCC techniques constrain the latent representations of normal motions to limited volumes and detect as abnormal anything outside, which accounts satisfactorily for the openset'ness of anomalies. But normalcy shares the same openset'ness property since humans can perform the same action in several ways, which the leading techniques neglect. We propose a novel generative model for video anomaly detection (VAD), which assumes that both normality and abnormality are multimodal. We consider skeletal representations and leverage state-of-the-art diffusion probabilistic models to generate multimodal future human poses. We contribute a novel conditioning on the past motion of people and exploit the improved mode coverage capabilities of diffusion processes to generate different-but-plausible future motions. Upon the statistical aggregation of future modes, an anomaly is detected when the generated set of motions is not pertinent to the actual future. We validate our model on 4 established benchmarks: UBnormal, HR-UBnormal, HR-STC, and HR-Avenue, with extensive experiments surpassing state-of-the-art results.

Autori: Alessandro Flaborea, Luca Collorone, Guido D'Amely, Stefano D'Arrigo, Bardh Prenkaj, Fabio Galasso

Ultimo aggiornamento: 2023-08-28 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2307.07205

Fonte PDF: https://arxiv.org/pdf/2307.07205

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili