Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Robotica

Nuovo approccio per il riconoscimento delle azioni nei video aerei

Questo articolo presenta un metodo per riconoscere azioni nei filmati dei droni.

― 5 leggere min


Riconoscimento delleRiconoscimento delleAzioni per Riprese Aereel'analisi dei video con i droni.Presentiamo un nuovo metodo per
Indice

I video aerei catturati dai droni sono diventati super popolari per vari usi. Però, riconoscere le azioni in questi video è una sfida per diversi motivi. Questo articolo presenta un nuovo metodo per riconoscere le azioni nei video aerei. L'obiettivo è migliorare l'accuratezza e l'efficienza del riconoscimento delle azioni, rendendolo adatto per dispositivi piccoli come i droni.

La sfida del riconoscimento nei video aerei

Quando i droni registrano video dall'alto, le persone nel video appaiono molto più piccole rispetto a quelli registrati a livello del suolo. Questa dimensione ridotta rende difficile per i computer riconoscere quali azioni vengono fatte. Altri problemi includono:

  1. Risoluzione ridotta: Le persone sono solo dei puntini nei filmati aerei, con lo sfondo che occupa la maggior parte del frame video.

  2. Diverse scale: A seconda di quanto in alto vola il drone, le persone possono apparire molto diverse in dimensione. Questa incoerenza complica il processo di addestramento dei computer a riconoscere le azioni.

  3. Telecamera in movimento: I droni si muovono sempre, il che significa che lo sfondo cambia molto di più delle azioni della persona. Questo può confondere i modelli di riconoscimento, portandoli a concentrarsi troppo sullo sfondo anziché sulla persona.

Per questi motivi, i metodi tradizionali di riconoscimento che funzionano bene con i video normali non funzionano efficacemente sui video aerei.

Metodi attuali e i loro limiti

I metodi popolari per riconoscere le azioni nei video richiedono tipicamente computer potenti con molta memoria. Questi metodi spesso non possono funzionare su dispositivi più piccoli come i droni, perché hanno risorse limitate. La maggior parte dei metodi è stata addestrata per funzionare con riprese effettuate dal suolo, quindi fanno fatica con i dati aerei. Questo crea la necessità di nuove tecniche specifiche per il riconoscimento delle azioni aeree.

Soluzione proposta: un nuovo approccio per il riconoscimento

Questo articolo introduce un nuovo approccio per riconoscere le azioni nei video aerei, concentrandosi su due componenti chiave:

  1. Auto Zoom: Questa funzione trova automaticamente e zooma sulla persona nel video. Ritaglia l'area attorno alla persona e la ingrandisce in modo che possano essere visti più dettagli, rendendo più facile identificare le azioni.

  2. Ragionamento temporale: Questo processo analizza informazioni basate sul tempo dai fotogrammi video. Combina informazioni da diversi fotogrammi per capire quale azione sta accadendo.

Insieme, queste componenti aiutano a migliorare l'accuratezza del riconoscimento delle azioni, rendendo anche possibile farlo su dispositivi a bassa potenza.

Auto Zoom spiegato

La funzione auto zoom identifica la persona nel video e zooma per catturare più dettagli. Ecco come funziona:

  • Ritaglio dinamico: Il software calcola la grandezza dell'area da ritagliare in base alla posizione della persona. Si assicura che la persona occupi circa il 15% al 20% dell'area ritagliata. In questo modo, il modello ottiene abbastanza informazioni sulla persona e i suoi dintorni.

  • Rilevamento dei fotogrammi chiave: Il sistema non controlla ogni singolo fotogramma, ma si concentra sui fotogrammi chiave, riducendo il lavoro necessario. Di solito, seleziona circa il 10% al 20% dei fotogrammi come fotogrammi chiave e si basa su questi per seguire il movimento della persona.

  • Filtraggio del rumore: Concentrandosi sui fotogrammi chiave e zoomando, il metodo filtra la maggior parte del rumore di sfondo causato dal movimento del drone. La persona rimane centrata nel fotogramma, il che aiuta il modello a focalizzarsi sulle sue azioni.

Dettagli sul ragionamento temporale

L'algoritmo di ragionamento temporale aggiunge un ulteriore livello al processo di riconoscimento delle azioni. Ecco come funziona:

  • Utilizzo delle convoluzioni: L'algoritmo usa convoluzioni per analizzare sia i dettagli spaziali (il contenuto visivo) che i dettagli temporali (il cambiamento nel tempo). Questo aiuta il modello a capire come le azioni si sviluppano di fotogramma in fotogramma.

  • Meccanismo di attenzione: Questo metodo è capace di concentrarsi su parti specifiche del video. Identifica quali fotogrammi o caratteristiche sono più importanti per riconoscere le azioni. Considerando le relazioni tra i diversi fotogrammi, costruisce una comprensione più completa dell'azione.

Valutazione delle prestazioni

Il nuovo metodo è stato testato su vari dataset progettati specificamente per video aerei. I risultati hanno mostrato miglioramenti significativi nelle prestazioni rispetto ai metodi esistenti.

Risultati su diversi dataset

  1. Dataset RoCoG-v2: Su questo dataset, il nuovo metodo ha raggiunto un miglioramento dell'accuratezza di circa il 6.1% al 7.4% rispetto ai migliori metodi conosciuti in precedenza. Questo dataset include numerosi video lunghi con più categorie di azioni.

  2. Dataset UAV-Human: Il nuovo approccio ha fornito un notevole incremento di accuratezza del 8.3% al 10.4% su questo ampio dataset, che include una grande varietà di condizioni e comportamenti umani.

  3. Dataset Drone Action: Questo dataset "Drone Action" include video di persone che effettuano azioni specifiche. Il nuovo approccio ha migliorato l'accuratezza del 3.2%, raggiungendo un'accuratezza massima del 95.9%.

Applicazioni pratiche

La tecnologia ha diverse usi pratici. Può essere implementata sui droni per sorveglianza, missioni di ricerca e soccorso o monitoraggio di eventi. Utilizzando questo metodo, i droni possono identificare le azioni in modo efficiente anche quando volano in alto, fornendo informazioni preziose senza necessitare di risorse di calcolo estensive.

Direzioni future

Anche se i risultati sono promettenti, ci sono alcune limitazioni da affrontare. Il metodo attuale assume principalmente che ci sia solo una persona che agisce alla volta, il che potrebbe non essere sempre il caso nella vita reale. Sviluppare tecniche che possano riconoscere azioni che coinvolgono più persone renderebbe il sistema più robusto.

Inoltre, si possono fare miglioramenti per gestire condizioni di illuminazione variabili, cambiamenti climatici e complessità di sfondo. La ricerca futura è mirata a migliorare i metodi per includere queste considerazioni, così da poter applicare il riconoscimento delle azioni aeree in modo più ampio.

Conclusione

Questo nuovo approccio per riconoscere le azioni nei video aerei colma una lacuna notevole nella tecnologia attuale. Sviluppando funzionalità come auto zoom e ragionamento temporale, questo sistema raggiunge prestazioni migliori sui droni e sui dispositivi a bassa potenza. La promessa di un migliore riconoscimento delle azioni apre la porta a applicazioni versatili in vari campi, rendendo il monitoraggio e la comprensione delle attività umane dal cielo più efficaci ed efficienti.

Fonte originale

Titolo: AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal Reasoning

Estratto: We propose a novel approach for aerial video action recognition. Our method is designed for videos captured using UAVs and can run on edge or mobile devices. We present a learning-based approach that uses customized auto zoom to automatically identify the human target and scale it appropriately. This makes it easier to extract the key features and reduces the computational overhead. We also present an efficient temporal reasoning algorithm to capture the action information along the spatial and temporal domains within a controllable computational cost. Our approach has been implemented and evaluated both on the desktop with high-end GPUs and on the low power Robotics RB5 Platform for robots and drones. In practice, we achieve 6.1-7.4% improvement over SOTA in Top-1 accuracy on the RoCoG-v2 dataset, 8.3-10.4% improvement on the UAV-Human dataset and 3.2% improvement on the Drone Action dataset.

Autori: Xijun Wang, Ruiqi Xian, Tianrui Guan, Celso M. de Melo, Stephen M. Nogar, Aniket Bera, Dinesh Manocha

Ultimo aggiornamento: 2023-03-02 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2303.01589

Fonte PDF: https://arxiv.org/pdf/2303.01589

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili