Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Presentiamo NU-AIR: Dataset Aereo per l'Analisi Urbana

NU-AIR offre riprese aeree uniche per rilevare persone e veicoli nelle città.

― 6 leggere min


Lancio del Dataset NU-AIRLancio del Dataset NU-AIRdi rilevamento degli oggetti urbani.Nuovo set di dati migliora le capacità
Indice

È stato creato un nuovo dataset per aiutare le macchine a riconoscere e localizzare persone e veicoli nelle aree urbane. Questo dataset si chiama NU-AIR ed è il primo del suo genere a usare filmati aerei per raccogliere informazioni sulle scene urbane. Le registrazioni sono state fatte con un tipo speciale di telecamera montata su un drone e puntano a catturare diversi ambienti come incroci affollati, sentieri pedonali e campus universitari.

Panoramica del Dataset

NU-AIR consiste in 70,75 minuti di video registrati in un contesto urbano. La telecamera usata per queste registrazioni ha una risoluzione di 640 per 480 pixel. I filmati includono diverse condizioni di illuminazione e altezze, catturando folle di persone e diversi tipi di veicoli nelle scene stradali. Sono state fatte annotazioni manuali sui filmati per identificare e etichettare le posizioni di 93.204 veicoli e pedoni. Queste informazioni sono essenziali per addestrare i programmi informatici a capire e interpretare ciò che vedono.

Tecnologia Utilizzata

Le registrazioni sono state fatte con un tipo speciale di telecamera chiamata Telecamera a eventi. A differenza delle telecamere normali che catturano immagini a intervalli fissi, le telecamere a eventi rilevano cambiamenti di intensità luminosa in ogni pixel. Ogni evento registra il momento del cambiamento, la posizione del pixel e se la luce è diventata più luminosa o più scura. Questa tecnologia consente registrazioni più veloci e accurate, rendendola più adatta per oggetti in rapido movimento come i veicoli.

Importanza di Grandi Dataset

Avere dataset grandi e ben annotati è fondamentale per creare algoritmi di visione computerizzata efficaci. Tuttavia, le telecamere a eventi possono essere costose, limitando l'accesso a molti ricercatori. Attualmente ci sono pochi dataset neurormorfici disponibili, specialmente quelli che presentano Ambienti Urbani. NU-AIR colma questa lacuna fornendo filmati aerei per l'analisi. Questo dataset può aiutare nella progettazione e nel test di nuovi algoritmi di visione computerizzata orientati agli ambienti urbani.

Contributi Chiave

Gli elementi principali di questo dataset includono:

  • Una raccolta open-source di 70,75 minuti di filmati divisi in segmenti da 15 secondi.
  • Un totale di 283 segmenti disponibili per l'analisi da parte dei ricercatori.
  • Filmati catturati in vari ambienti urbani, tra cui un campus universitario, incroci stradali e sentieri pedonali, sia di giorno che di notte.
  • Annotazioni per due classi: persone e veicoli, con un totale di 93.204 etichette.

Questo dataset consente ai ricercatori di sviluppare e valutare nuovi algoritmi specificamente per i compiti di visione basata su eventi negli ambienti urbani.

Valutazione degli Algoritmi

Per valutare l'efficacia del dataset NU-AIR, sono stati addestrati vari tipi di reti neurali. Queste includono tre Reti Neurali Spiking (SNN) e dieci Reti Neurali Profonde (DNN). I risultati hanno mostrato che i modelli addestrati su NU-AIR si sono comportati in modo competitivo rispetto ad altri dataset noti. Questo dimostra che NU-AIR è una risorsa preziosa per addestrare e testare nuovi modelli di visione computerizzata.

Lavori Correlati

Esistono già diversi dataset per la rilevazione di pedoni e veicoli, principalmente utilizzando telecamere tradizionali a fotogrammi. Dataset noti come ETH e KITTI sono stati utilizzati per scopi di addestramento e valutazione, fornendo informazioni preziose ai ricercatori. Tuttavia, pochi dataset catturano viste aeree o ambienti urbani utilizzando telecamere a eventi. La maggior parte dei dataset attuali sono ambienti interni o controllati.

Setup di Registrazione

I filmati per NU-AIR sono stati raccolti utilizzando una telecamera a eventi Prophesee Gen3.1 VGA montata su un drone DJI M100. Questa telecamera è stata posizionata con cura per catturare l'ambiente urbano da angolazioni diverse. Il drone è stato pilotato in sicurezza mentre si registravano filmati in vari luoghi nel New Jersey, USA. Sono stati registrati un totale di 70,75 minuti di filmati nel corso di una settimana, coprendo diverse condizioni di illuminazione e climatiche.

Processo di Annotazione

Le registrazioni sono state elaborate utilizzando gli eventi rilevati dalla telecamera per creare immagini in scala di grigi. Annotatori umani sono stati incaricati di contrassegnare le posizioni di persone e veicoli nelle immagini. Sono state fornite istruzioni dettagliate per ridurre al minimo gli errori e le annotazioni sono state accuratamente esaminate da esperti per garantire precisione.

Formato del Dataset

Il dataset NU-AIR è strutturato in 14 sessioni di registrazione continue, suddivise in segmenti da 15 secondi. Questi segmenti sono categorizzati in gruppi di addestramento, validazione e test. Questo approccio strutturato consente un facile accesso e utilizzo da parte dei ricercatori. Ogni campione è memorizzato in un formato specifico per facilitare ulteriori analisi.

Valutazione Sperimentale

Per valutare la qualità del dataset, sono state effettuate varie misurazioni, comprese le dimensioni dei riquadri di delimitazione per pedoni e veicoli. Queste informazioni possono aiutare i ricercatori a comprendere la scala e le caratteristiche degli oggetti catturati nel dataset.

Uso della Codifica Voxel

È stata introdotta la codifica dei cubi voxel per rappresentare i dati degli eventi. Questo metodo mantiene sia il tempo che la posizione di ogni evento, consentendo ai ricercatori di raccogliere informazioni complete senza perdere dati critici. A differenza di altri metodi che potrebbero semplificare la rappresentazione dei dati, i cubi voxel forniscono una visione più dettagliata, cruciale per analizzare ambienti urbani complessi.

Test con Reti Neurali

Il dataset è stato utilizzato per addestrare diversi tipi di reti neurali. Le reti neurali spiking (SNN), che operano in modo diverso rispetto ai modelli di apprendimento profondo tradizionali, sono state valutate per le loro prestazioni. Sono state testate tre configurazioni, mostrando risultati competitivi rispetto a studi precedenti che hanno utilizzato altri grandi dataset.

Risultati

Le prestazioni dei modelli addestrati su NU-AIR hanno mostrato risultati promettenti. Le SNN e le DNN testate hanno raggiunto livelli di precisione competitivi, dimostrando l'efficacia dell'addestramento su questo nuovo dataset. I risultati suggeriscono che modelli più grandi generalmente funzionano meglio, ma modelli più piccoli hanno ancora i loro vantaggi, specialmente in situazioni a basso consumo di energia.

Limitazioni

Ci sono alcune limitazioni da menzionare. Le SNN sono state valutate su GPU potenti, il che potrebbe non riflettere come si comporterebbero sui dispositivi a basso consumo previsti. Inoltre, le DNN non hanno considerato dati di colore o temporali, il che potrebbe limitare le loro prestazioni. Infine, i dati sono stati raccolti solo da una città, il che potrebbe restringere l'applicabilità più ampia dei risultati.

Conclusione

Questa ricerca introduce il dataset NU-AIR, che si concentra sulla rilevazione e localizzazione di pedoni e veicoli in ambienti urbani. Il dataset è stato completamente annotato ed è accessibile ai ricercatori. I risultati competitivi dalle valutazioni delle reti neurali indicano che questo nuovo dataset può avere un impatto significativo nello sviluppo nel campo della visione computerizzata. I futuri sforzi si allargheranno probabilmente per includere scene urbane più varie e migliorare gli algoritmi esistenti.

Fonte originale

Titolo: NU-AIR -- A Neuromorphic Urban Aerial Dataset for Detection and Localization of Pedestrians and Vehicles

Estratto: This paper presents an open-source aerial neuromorphic dataset that captures pedestrians and vehicles moving in an urban environment. The dataset, titled NU-AIR, features 70.75 minutes of event footage acquired with a 640 x 480 resolution neuromorphic sensor mounted on a quadrotor operating in an urban environment. Crowds of pedestrians, different types of vehicles, and street scenes featuring busy urban environments are captured at different elevations and illumination conditions. Manual bounding box annotations of vehicles and pedestrians contained in the recordings are provided at a frequency of 30 Hz, yielding 93,204 labels in total. Evaluation of the dataset's fidelity is performed through comprehensive ablation study for three Spiking Neural Networks (SNNs) and training ten Deep Neural Networks (DNNs) to validate the quality and reliability of both the dataset and corresponding annotations. All data and Python code to voxelize the data and subsequently train SNNs/DNNs has been open-sourced.

Autori: Craig Iaboni, Thomas Kelly, Pramod Abichandani

Ultimo aggiornamento: 2024-07-30 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2302.09429

Fonte PDF: https://arxiv.org/pdf/2302.09429

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili