Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Elaborazione dell'audio e del parlato# Suono

Il ruolo dell'audio nella rilevazione dei pedoni

I ricercatori stanno esplorando la tecnologia di rilevamento audio per migliorare il riconoscimento dei pedoni nelle aree urbane.

― 6 leggere min


Rilevamento dei PedoniRilevamento dei Pedonicon Sensing Audiopedoni.sull'uso del suono per identificare iLa ricerca innovativa si concentra
Indice

Rilevare i Pedoni è un compito importante per rendere le città più intelligenti e sicure. Con l'aumento della tecnologia, usare il suono per rilevare le persone per strada sta diventando un focus di ricerca. Questo è diverso dai metodi tradizionali che si basano su telecamere e segnali visivi. La capacità di riconoscere i suoni fatti dai pedoni può contribuire alla pianificazione urbana e migliorare le misure di sicurezza.

Cos'è ASPED?

ASPED sta per Audio Sensing for Pedestrian Detection. È un nuovo dataset creato per aiutare i ricercatori a studiare quanto bene il suono può essere usato per rilevare i pedoni. Il dataset include registrazioni fatte in diverse location all'interno di un campus universitario. Queste registrazioni comprendono sia audio che video, permettendo ai ricercatori di vedere se riescono a capire quante persone ci sono nei dintorni basandosi solo sul suono.

Perché usare l'audio per la rilevazione?

Usare microfoni per rilevare i pedoni ha diversi vantaggi:

  1. Convenienza: I microfoni costano meno delle telecamere e di altri sistemi di sensori.
  2. Efficienza Energetica: Consumano meno energia, permettendo periodi di registrazione più lunghi senza bisogno di ricariche costanti.
  3. Ampia Copertura: I microfoni possono catturare suoni da molte direzioni, talvolta fino a 360 gradi.
  4. Indipendenza dalla Luce: I dispositivi audio non dipendono dalla luce, il che significa che possono lavorare in condizioni come nebbia o di notte.

Questi fattori rendono l'audio un'opzione interessante per monitorare l'attività pedonale.

Sfide nella rilevazione dei pedoni

Rilevare i pedoni usando l'audio non è un compito facile. I suoni prodotti dalle persone, come passi o voci, spesso si mescolano con altri rumori della città. Questo porta a un mix di suoni che può rendere difficile isolare i segnali prodotti dai pedoni. Inoltre, questi suoni possono essere piuttosto deboli, rendendoli difficili da catturare.

Per affrontare queste difficoltà, i ricercatori devono trovare modi per separare i rumori sovrapposti e identificare accuratamente i suoni dei pedoni. Questo implica l'uso di varie tecniche e modelli per analizzare efficacemente i dati audio.

Metodi di raccolta dati

Per il dataset ASPED, i ricercatori hanno usato due tipi di attrezzature per raccogliere dati: registratori audio e telecamere video.

Configurazione audio

L'audio è stato registrato utilizzando registratori Tascam DR-05X abbinati a piccoli microfoni. Questi dispositivi sono stati protetti dalle intemperie usando sacchetti impermeabili. I registratori sono stati posizionati strategicamente attorno al campus per catturare una gamma di suoni da persone che camminano e parlano.

Configurazione video

Per completare i dati audio, è stato registrato anche del video utilizzando telecamere GoPro. Queste telecamere hanno catturato filmati delle aree intorno ai registratori audio. I video hanno aiutato i ricercatori a vedere il numero di pedoni che passavano, il che era fondamentale per etichettare i dati audio. Il tempo del video è stato sincronizzato con le registrazioni audio usando un fischietto per garantire accuratezza.

Annotazione dei dati

Dopo aver raccolto i dati audio e video, il passo successivo è stato annotare o etichettare le informazioni. I ricercatori hanno usato uno strumento chiamato Masked-attention Mask Transformer per identificare i pedoni nei filmati. Questo processo ha coinvolto la rilevazione di riquadri attorno agli individui in ogni fotogramma del video.

Diverse aree intorno ai microfoni sono state stabilite come zone di prossimità, permettendo ai ricercatori di contare quante persone erano entro certi limiti. Il processo di etichettatura ha mostrato che la maggior parte dei fotogrammi non conteneva pedoni, mentre alcuni avevano uno o più.

Metodi sperimentali

I ricercatori hanno cercato di stabilire una performance base per la rilevazione dei pedoni usando l'audio. Hanno testato tre modelli diversi che miravano a classificare se i pedoni erano presenti o meno.

Tipi di modelli

  1. Modello VGGish: Questo modello ha utilizzato caratteristiche audio estratte da una rete pre-allenata, che ha aiutato ad apprendere schemi nel tempo.
  2. Codificatore Convoluzionale: Questo metodo ha lavorato con segnali audio trasformati in un formato specifico chiamato log-mel spettrogramma.
  3. Audio Spectrogram Transformer: Questo modello avanzato ha mostrato risultati forti nella classificazione delle scene audio.

Ogni modello ha prodotto probabilità di output per determinare se i pedoni erano presenti basandosi sui dati audio.

Allenamento e testing

Il dataset è stato diviso in tre parti per allenamento, validazione e testing. I ricercatori hanno testato quanto bene i modelli potessero rilevare i pedoni in vari scenari.

Distribuzione delle classi

I dati etichettati mostrano un chiaro squilibrio, con molti fotogrammi che non hanno attività rilevata. Per aiutare i modelli ad apprendere meglio, i ricercatori hanno usato tecniche come il campionamento pesato per assicurarsi che i dati di allenamento includessero una rappresentazione equa delle attività pedonali.

Risultati e osservazioni

Dopo aver analizzato i risultati dei tre modelli, sono emersi alcuni punti chiave.

  1. Variazione delle prestazioni: Generalmente, il modello VGGish non ha performato bene come gli altri due modelli, CONV e AST.
  2. Accuratezza macro: I modelli hanno performato meglio quando il raggio di registrazione era impostato a 3 o 6 metri. Raggi più piccoli catturavano meno suoni, mentre raggi più grandi includevano suoni più diversificati ma rendevano la rilevazione più difficile.
  3. Impatto della soglia di allenamento: Quando si usavano diverse soglie per l'allenamento e il testing, i modelli tendevano a performare meglio quando venivano usati campioni più facili da rilevare per il testing.

In generale, i risultati indicano che mentre i sensori audio hanno potenziale per rilevare i pedoni, c'è ancora margine di miglioramento prima che possano essere adottati su larga scala nelle applicazioni reali.

Direzioni future

I risultati del progetto ASPED aprono la strada a future ricerche. Alcuni potenziali prossimi passi includono:

  1. Espansione del dataset: I ricercatori prevedono di raccogliere dati da aree con traffico veicolare per capire come si comporta la rilevazione audio in ambienti diversi.
  2. Miglioramento delle tecniche di rilevazione: Possono essere sviluppati metodi più complessi per classificare e contare i pedoni con maggiore precisione basandosi sull'audio.
  3. Applicazione nel mondo reale: Con l'avanzamento della tecnologia, potrebbe trasformare il modo in cui i pianificatori urbani e i funzionari della sicurezza monitorano l'attività pedonale e gestiscono le infrastrutture urbane.

Conclusione

Il dataset ASPED evidenzia il potenziale dell'uso dell'audio per la rilevazione dei pedoni in contesti urbani. Sebbene ci siano sfide da superare, i risultati iniziali mostrano che è possibile tracciare il movimento dei pedoni attraverso il suono. La ricerca continua aiuterà a perfezionare questi metodi, portando a miglioramenti nella pianificazione urbana e a misure di sicurezza potenziate nelle città.

Altro dagli autori

Articoli simili