Sci Simple

New Science Research Articles Everyday

# Informatica # Visione artificiale e riconoscimento di modelli

Droni e Intuizione Umana: Un Parnterariato Che Salva Vita

Unire droni alla visione umana migliora gli sforzi di ricerca in caso di emergenza.

Arturo Miguel Russell Bernal, Jane Cleland-Huang, Walter Scheirer

― 6 leggere min


I droni potenziano le I droni potenziano le ricerche di emergenza droni. migliorare le capacità di ricerca dei Sfruttare le intuizioni umane per
Indice

In situazioni di emergenza, trovare rapidamente una persona dispersa o ferita può fare la differenza tra vita e morte. Con l’aumento dei piccoli sistemi aerei senza pilota (sUAS), comunemente chiamati Droni, la possibilità di cercare dall’alto è diventata una vera rivoluzione. Tuttavia, trovare persone dal cielo non è semplice come sembra. Questo compito è complicato da problemi come oggetti che ostacolano la vista, noti come occlusione, e il fatto che le persone possono apparire piuttosto piccole e sfocate da lontano.

Gli operatori umani che pilotano questi droni possono stancarsi dopo lunghe ore di ricerca. Questa stanchezza, insieme a un numero limitato di operatori, rende la tecnologia un alleato importante. Dotando i droni di capacità di visione artificiale, i soccorritori possono migliorare i loro sforzi di ricerca e liberare risorse umane per altri compiti critici.

Sfide nella Rilevazione Aerea

Anche se i droni hanno il potenziale per assistere notevolmente nelle missioni di ricerca e salvataggio, i loro sistemi di visione artificiale spesso faticano con le condizioni del mondo reale. Ad esempio, quando la vista è ostruita o la risoluzione è bassa, la capacità dei droni di rilevare persone diminuisce. Questo rende difficile per la tecnologia funzionare bene in ambienti difficili dove prendere decisioni rapide è fondamentale.

Immagina di cercare di vedere un amico in un parco affollato dall'alto. Potresti avere difficoltà se alberi o altre persone bloccano la tua vista. Questo è praticamente quello che affrontano i droni quando cercano di trovare qualcuno in una situazione di emergenza reale. Gli ostacoli possono arrivare da angolazioni diverse, come detriti dopo un terremoto, fumi da un incendio o anche solo il paesaggio naturale.

Il Bisogno di Dati

Per migliorare la capacità dei droni di trovare persone in queste situazioni difficili, i ricercatori hanno raccolto un sacco di dati. Hanno esaminato immagini specifiche e hanno chiesto ai volontari di partecipare a uno studio. L’idea era capire come gli esseri umani cercano individui in immagini che non sono sempre chiare.

I ricercatori hanno utilizzato un dataset chiamato NOMAD, che contiene migliaia di immagini catturate dai droni a diverse distanze. Nel loro studio, hanno creato un esperimento che chiedeva ai partecipanti di identificare una persona in questi scatti aerei. Osservando come i partecipanti cercavano, i ricercatori hanno raccolto preziose informazioni sul comportamento umano in compiti visivi.

In questi esperimenti, le persone muovevano il mouse sullo schermo per indicare dove stavano guardando. Informazioni come quanto tempo trascorrevano esaminando determinate aree venivano registrate. Questo era importante per capire come gli esseri umani affrontano il compito di scoprire qualcuno dall'alto.

Creazione di un Dataset Comportamentale

Il team di ricerca ha lavorato sodo per costruire un dataset chiamato Psych-ER per analizzare come le persone si comportano quando cercano individui in immagini aeree. Hanno raccolto più di 5.000 immagini dal dataset NOMAD, dove ogni immagine è stata analizzata per dati come precisione nella ricerca e tempi di risposta. Perché così tanti dettagli? Perché capire come gli esseri umani vedono e interpretano le immagini può aiutare a migliorare le Prestazioni dei sistemi di visione artificiale dei droni.

Il dataset Psych-ER include:

  1. Dati sul comportamento di ricerca umano provenienti da migliaia di immagini, tracciando dove i partecipanti guardavano e quanto tempo si concentravano su aree specifiche.
  2. Un confronto delle loro selezioni rispetto ai veri marcatori a box che indicavano dove la persona avrebbe dovuto essere.
  3. Il tempo impiegato da ogni partecipante per rispondere a ogni immagine.

Questo nuovo dataset funge da guida per i sistemi di visione artificiale per apprendere da come gli esseri umani si comportano quando cercano qualcuno.

Un Nuovo Approccio all’Adattamento della Perdita

Nella visione artificiale, "perdita" si riferisce a una metrica che misura quanto bene un modello si comporta. Fondamentalmente, è un modo per capire quanto le previsioni di un computer siano lontane dai risultati reali. Adattando la funzione di perdita in base al comportamento umano osservato nel dataset Psych-ER, i ricercatori puntavano a migliorare la capacità di un modello di localizzare persone nelle immagini.

Il team ha sperimentato con un modello chiamato RetinaNet, utilizzando la loro nuova funzione di perdita adattata. Hanno scoperto che questo approccio migliorava le prestazioni di rilevamento, specialmente a distanze maggiori e sotto vari livelli di occlusione. Questo significa che il modello ha imparato a dare più importanza a dove doveva guardare, proprio come facevano gli esseri umani.

Risultati e Conclusioni

I risultati dello studio hanno evidenziato alcuni punti importanti sull'uso dei droni con capacità di visione artificiale nelle situazioni di emergenza.

  1. La Performance Umana è Migliore con Occlusione: Gli esseri umani riescono spesso a individuare oggetti occlusi meglio dei modelli computerizzati. Questo solleva l'idea che addestrare i sistemi di visione artificiale con l'input umano potrebbe portare a risultati migliori.

  2. Importanza della Posizione rispetto alla Precisione: Quando agli umani veniva chiesto di trovare una persona in un'immagine, si concentravano di più sull’identificazione della posizione della persona piuttosto che disegnare un box perfetto attorno a loro. Questa intuizione ha aiutato a plasmare la funzione di perdita per il modello computerizzato in modo che dia priorità a dove si trova la persona rispetto a quanto strettamente dovrebbe racchiuderla.

Il Ruolo della Tecnologia nella Risposta alle Emergenze

L'integrazione dei droni negli scenari di risposta alle emergenze sta diventando sempre più importante. I droni non servono solo per fare selfie o consegnare pacchi; possono essere strumenti salvavita quando le vite sono in gioco. La migliore capacità di localizzare individui dall'alto, unita alla comprensione del comportamento umano, può migliorare significativamente le operazioni di ricerca e salvataggio.

I soccorritori possono utilizzare i droni per coprire rapidamente ampie aree, permettendo di individuare potenziali vittime o persone in difficoltà. Utilizzando visione artificiale che si adatta in base a come gli esseri umani percepiscono le immagini, le possibilità di successo nel salvare le persone migliorano notevolmente.

Direzioni Future

La ricerca non si ferma qui. Le possibilità di affinare i sistemi di visione artificiale usando i dati sul comportamento umano sono vaste. Gli sforzi futuri includeranno:

  • Analizzare tutti i dati comportamentali raccolti per estrarre ulteriori intuizioni utili.
  • Sviluppare modelli di visione artificiale personalizzati specificamente adattati per le situazioni di emergenza.
  • Ulteriori applicazioni nel mondo reale per vedere come i modelli migliorati si comportano quando sono utilizzati sui droni.

Man mano che la tecnologia si evolve, è fondamentale che i ricercatori continuino ad adattare e migliorare i sistemi per soddisfare le esigenze dei soccorritori in emergenza.

Conclusione

In sintesi, il lavoro svolto per combinare la tecnologia dei droni con la comprensione umana per cercare persone in situazioni di emergenza è cruciale. La creazione del dataset Psych-ER, insieme al perfezionamento dei modelli di visione artificiale, rappresenta un passo significativo in questo campo. Sfruttando le intuizioni umane, possiamo creare sistemi più intelligenti che potrebbero infine portare a salvare vite. Dopotutto, quando la situazione si fa dura, vogliamo che la nostra tecnologia sia più acuta degli occhi medi del nostro gruppo di ricerca privi di caffeina!

Fonte originale

Titolo: Psych-Occlusion: Using Visual Psychophysics for Aerial Detection of Occluded Persons during Search and Rescue

Estratto: The success of Emergency Response (ER) scenarios, such as search and rescue, is often dependent upon the prompt location of a lost or injured person. With the increasing use of small Unmanned Aerial Systems (sUAS) as "eyes in the sky" during ER scenarios, efficient detection of persons from aerial views plays a crucial role in achieving a successful mission outcome. Fatigue of human operators during prolonged ER missions, coupled with limited human resources, highlights the need for sUAS equipped with Computer Vision (CV) capabilities to aid in finding the person from aerial views. However, the performance of CV models onboard sUAS substantially degrades under real-life rigorous conditions of a typical ER scenario, where person search is hampered by occlusion and low target resolution. To address these challenges, we extracted images from the NOMAD dataset and performed a crowdsource experiment to collect behavioural measurements when humans were asked to "find the person in the picture". We exemplify the use of our behavioral dataset, Psych-ER, by using its human accuracy data to adapt the loss function of a detection model. We tested our loss adaptation on a RetinaNet model evaluated on NOMAD against increasing distance and occlusion, with our psychophysical loss adaptation showing improvements over the baseline at higher distances across different levels of occlusion, without degrading performance at closer distances. To the best of our knowledge, our work is the first human-guided approach to address the location task of a detection model, while addressing real-world challenges of aerial search and rescue. All datasets and code can be found at: https://github.com/ArtRuss/NOMAD.

Autori: Arturo Miguel Russell Bernal, Jane Cleland-Huang, Walter Scheirer

Ultimo aggiornamento: 2024-12-07 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2412.05553

Fonte PDF: https://arxiv.org/pdf/2412.05553

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili