Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Intelligenza artificiale

Rilevare interazioni umane nei video

Un nuovo metodo per analizzare le interazioni tra le persone in vari contesti.

― 7 leggere min


Rivelata la RilevazioneRivelata la Rilevazionedell'Interazione Umanainterazioni nei video.Un nuovo modello per individuare
Indice

Rilevare le interazioni tra le persone nei video è super importante per la sicurezza e per capire il comportamento sociale. Questo vale soprattutto nei posti affollati come parchi, scuole e piazze pubbliche. I metodi tradizionali di solito si concentrano su video messi in scena con azioni provate, che non sono molto utili per situazioni reali dove più gruppi di persone interagiscono contemporaneamente.

Per affrontare questo problema, presentiamo un nuovo metodo chiamato Rilevazione Interazioni Uomo-Uomo (HID). Questo metodo si occupa di rilevare le persone, identificare cosa sta facendo ognuno e raggruppare le persone in base a come interagiscono tra loro, tutto in un'unica soluzione.

Il Dataset AVA-Interaction

Per svolgere il nostro lavoro, abbiamo creato un nuovo dataset chiamato AVA-Interaction (AVA-I). Questo dataset si basa su uno già esistente chiamato AVA, che ha tanti video che mostrano persone che fanno diverse azioni. Abbiamo ampliato questo dataset aggiungendo note dettagliate su come le persone interagiscono tra loro fotogramma per fotogramma, arrivando a un totale di oltre 85.000 fotogrammi e più di 86.000 gruppi di interazione.

Le interazioni in questo dataset includono sia azioni normali come strette di mano e abbracci, sia azioni anomale come litigare e inseguire. Ogni fotogramma può mostrare fino a quattro gruppi di persone che interagiscono nello stesso momento. Questo livello di dettaglio rende AVA-I una risorsa forte per studiare come le persone interagiscono in varie situazioni.

Perché l'HID è Importante

Capire le interazioni umane dai video è fondamentale per diversi motivi. Uno dei motivi principali è la sicurezza. I sistemi devono identificare rapidamente e accuratamente se sta succedendo qualcosa di sospetto, come una rissa o un furto.

I metodi attuali semplificano spesso il compito classificando immagini o video senza considerare la complessità delle interazioni multiple che avvengono contemporaneamente. Non riescono a rispondere a domande importanti su chi è coinvolto in ogni interazione, quali azioni stanno compiendo e come si relazionano tra loro.

Alcuni metodi più recenti cercano di risolvere questo problema rilevando prima le persone e poi analizzando le loro interazioni, ma questo processo in due fasi porta spesso a risultati meno precisi, soprattutto in situazioni affollate. Inoltre, i dataset esistenti utilizzati per addestrare questi metodi sono solitamente limitati e si concentrano su interazioni semplici e messe in scena.

Date queste sfide, proponiamo l'HID come un nuovo compito, insieme ad AVA-I, per fornire un benchmark più realistico per la futura ricerca in questo campo.

L'Approccio SaMFormer

Per raggiungere l'HID, abbiamo sviluppato un nuovo modello chiamato SaMFormer. Questo modello utilizza una combinazione di tecniche avanzate di elaborazione visiva per rilevare le persone, riconoscere le loro azioni e capire come si raggruppano durante le interazioni.

SaMFormer è composto da tre parti principali: un Estrattore di Caratteristiche, una fase di separazione e una fase di fusione.

Estrattore di Caratteristiche: L'estrattore di caratteristiche elabora i fotogrammi video per creare una rappresentazione dettagliata del movimento e delle interazioni in corso. Questo fornisce il contesto necessario per analizzare cosa sta succedendo in ogni fotogramma.

Fase di Separazione: Nella fase di separazione, utilizziamo due set di query separate per prevedere le persone e i gruppi di interazione. In questo modo possiamo catturare le azioni individuali e riconoscere come le diverse persone sono raggruppate in base alle loro interazioni.

Fase di Fusione: Infine, la fase di fusione combina le informazioni dalle fasi precedenti per chiarire come gli individui si relazionano tra loro all'interno dei gruppi. Questo aiuta a differenziare meglio tra diversi tipi di interazioni.

Addestrando SaMFormer per lavorare con AVA-I, possiamo rilevare e analizzare in modo efficiente le interazioni tra più persone in varie situazioni.

Metriche di Valutazione

Per misurare l'efficacia del nostro modello, utilizziamo diverse metriche. Per valutare le azioni individuali e rilevare le persone, applichiamo la media della precisione. Per misurare quanto bene raggruppiamo le persone in base alle loro interazioni, utilizziamo una nuova metrica chiamata precisione media di gruppo.

Queste metriche ci aiutano a capire quanto bene il nostro modello funziona in situazioni reali dove si verificano più interazioni simultaneamente.

Risultati e Scoperte

I nostri esperimenti mostrano che SaMFormer supera di gran lunga i metodi esistenti per rilevare le interazioni umane nei video. Utilizzando il nuovo dataset AVA-I, SaMFormer dimostra costantemente una migliore accuratezza nell'identificare le azioni individuali e le interazioni di gruppo rispetto agli approcci precedenti.

Abbiamo anche scoperto che combinare informazioni spaziali e semantiche è cruciale per prevedere con accuratezza le interazioni. Questo significa che non solo la posizione degli individui, ma anche il contesto delle loro azioni gioca un ruolo significativo nel capire come si relazionano tra loro.

Attraverso test approfonditi, abbiamo scoperto che SaMFormer è particolarmente efficace in ambienti affollati dove le persone potrebbero interagire in modi complessi. Tuttavia, ci sono stati ancora casi in cui il modello ha avuto difficoltà, soprattutto in situazioni con forti occlusioni o interazioni poco chiare.

Lavori Correlati

Per fornire un contesto al nostro lavoro, è importante menzionare compiti strettamente correlati nel campo. La rilevazione delle azioni, ad esempio, mira a localizzare le azioni umane nei video, ma spesso ignora le relazioni interattive tra gli individui.

La comprensione delle interazioni umane si concentra sull'identificazione delle azioni e delle coppie di interazione, ma richiede tipicamente che le bounding box delle persone siano rilevate in anticipo. Al contrario, l'HID considera sia le azioni individuali che come le persone lavorano insieme all'interno dei gruppi.

Il riconoscimento delle relazioni sociali si occupa di identificare le dinamiche sociali presenti nelle immagini, ma ancora una volta, non offre la comprensione dettagliata delle interazioni che l'HID mira a raggiungere.

La Necessità di Nuovi Dataset

Una delle maggiori sfide nello sviluppo delle tecniche HID è stata la disponibilità di dataset adatti. I dataset esistenti sono spesso piccoli e si concentrano su interazioni semplici e coreografate. Manca loro la complessità e il realismo trovati nella vita quotidiana, il che rende difficile addestrare modelli efficaci.

Creando AVA-I, speriamo di fornire una risorsa completa che includa una vasta gamma di interazioni complesse in contesti reali. Questo sarà essenziale per addestrare e valutare modelli futuri destinati a rilevare e comprendere le interazioni umane nei video.

Addestramento e Implementazione

Per il nostro processo di addestramento, abbiamo seguito le migliori pratiche nel campo. Abbiamo utilizzato tecniche di ottimizzazione popolari e selezionato con attenzione i set di addestramento per garantire che il nostro modello apprendesse in modo efficiente. Durante l'addestramento, abbiamo monitorato le prestazioni e apportato aggiustamenti per massimizzare l'accuratezza.

SaMFormer è stato progettato per essere il più efficiente possibile, pur offrendo risultati di alta qualità. Questo ha comportato un bilanciamento tra i diversi componenti del modello per ottenere la migliore combinazione di velocità e accuratezza.

Analisi Qualitativa

Per illustrare l'efficacia del nostro approccio, abbiamo condotto un'analisi qualitativa confrontando SaMFormer con altri modelli. In vari scenari, SaMFormer ha dimostrato una capacità superiore di riconoscere accuratamente le interazioni tra più individui, mentre altri modelli spesso fallivano in questo.

In casi in cui si sono verificate occlusioni o le interazioni erano particolarmente complesse, abbiamo effettuato esami dettagliati per capire quanto bene ogni modello gestiva queste sfide. Mentre SaMFormer ha ottenuto buoni risultati in molte situazioni, ci sono stati casi in cui ha errato nel classificare i gruppi a causa di individui sovrapposti o segnali poco chiari.

Direzioni Future

Guardando al futuro, l'introduzione dell'HID come nuovo compito offre molte possibilità entusiasmanti per la ricerca futura. Crediamo che utilizzare AVA-I come benchmark incoraggerà ulteriori progressi nella comprensione delle interazioni umane in vari contesti.

Il lavoro futuro potrebbe concentrarsi sul raffinare modelli come SaMFormer, migliorando la loro capacità di gestire interazioni occluse e esaminando come queste tecniche possono essere applicate in scenari di sicurezza reale e analisi comportamentale.

Inoltre, espandere il dataset AVA-I per includere ancora più interazioni diverse e situazioni complesse sarà fondamentale per il continuo sviluppo in questo campo. Con l'aumento degli studiosi che esplorano l'HID, ci aspettiamo grandi progressi nel modo in cui comprendiamo e analizziamo il comportamento umano nei contenuti video.

Conclusione

La Rilevazione delle Interazioni Uomo-Uomo è un compito essenziale con applicazioni preziose nella sicurezza e nell'analisi sociale. Sviluppando il dataset AVA-I e il modello SaMFormer, abbiamo fatto passi significativi verso il miglioramento di come rileviamo e interpretiamo le interazioni nei video.

Le nostre scoperte mostrano l'importanza sia delle informazioni spaziali che contestuali nel prevedere accuratamente le interazioni, e non vediamo l'ora di vedere come questo lavoro influenzerà la ricerca e le applicazioni future nel campo. Continuando a perfezionare i nostri metodi e dataset, possiamo migliorare la nostra comprensione del ricco arazzo delle interazioni umane e della loro importanza in vari contesti.

Fonte originale

Titolo: Human-to-Human Interaction Detection

Estratto: A comprehensive understanding of interested human-to-human interactions in video streams, such as queuing, handshaking, fighting and chasing, is of immense importance to the surveillance of public security in regions like campuses, squares and parks. Different from conventional human interaction recognition, which uses choreographed videos as inputs, neglects concurrent interactive groups, and performs detection and recognition in separate stages, we introduce a new task named human-to-human interaction detection (HID). HID devotes to detecting subjects, recognizing person-wise actions, and grouping people according to their interactive relations, in one model. First, based on the popular AVA dataset created for action detection, we establish a new HID benchmark, termed AVA-Interaction (AVA-I), by adding annotations on interactive relations in a frame-by-frame manner. AVA-I consists of 85,254 frames and 86,338 interactive groups, and each image includes up to 4 concurrent interactive groups. Second, we present a novel baseline approach SaMFormer for HID, containing a visual feature extractor, a split stage which leverages a Transformer-based model to decode action instances and interactive groups, and a merging stage which reconstructs the relationship between instances and groups. All SaMFormer components are jointly trained in an end-to-end manner. Extensive experiments on AVA-I validate the superiority of SaMFormer over representative methods. The dataset and code will be made public to encourage more follow-up studies.

Autori: Zhenhua Wang, Kaining Ying, Jiajun Meng, Jifeng Ning

Ultimo aggiornamento: 2023-08-11 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2307.00464

Fonte PDF: https://arxiv.org/pdf/2307.00464

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili