Avanzando la navigazione dei droni con AerialVLN
AerialVLN migliora la navigazione dei droni usando dati linguistici e visivi.
― 5 leggere min
Indice
- Il bisogno di navigazione aerea
- Creazione del simulator AerialVLN
- Navigazione aerea rispetto alla navigazione a terra
- Dettagli del dataset AerialVLN
- La sfida dei percorsi lunghi
- Valutazione dei modelli di navigazione aerea
- Importanza degli input visivi e linguistici
- Conclusione
- Fonte originale
- Link di riferimento
I droni, o veicoli aerei senza pilota (UAV), stanno diventando sempre più popolari per vari compiti come consegnare pacchi, monitorare il traffico e esplorare scenery. Queste macchine volanti possono fare tante cose, ma guidarle usando comandi in linguaggio naturale è una sfida. Tradizionalmente, gli studi sulla Navigazione si sono concentrati su robot o agenti basati a terra. Questo esclude un'area di ricerca importante: come navigare nel cielo usando informazioni visive e linguaggio.
Il bisogno di navigazione aerea
Navigare in aria è diverso dal muoversi a terra. I droni devono tener conto della loro altezza di volo e di relazioni spaziali più complesse. Quando si usano navigatori a terra, i compiti spesso implicano muoversi attraverso edifici o lungo strade. Al contrario, la navigazione aerea ha requisiti unici, come salire e scendere evitando ostacoli nello spazio tridimensionale.
Per affrontare questo gap, i ricercatori hanno progettato un nuovo compito chiamato AerialVLN. Questo compito si concentra sull'aiutare i droni a navigare in ambienti esterni interpretando Istruzioni in linguaggio naturale e utilizzando informazioni visive raccolte mentre volano.
Creazione del simulator AerialVLN
Il compito AerialVLN presenta un simulatore 3D che fornisce viste quasi realistiche di 25 ambienti urbani diversi. Queste scene includono aree centrali, fabbriche, parchi e villaggi. Il simulatore consente ai droni di navigare continuamente attraverso questi ambienti, estendendo scenari e configurazioni secondo necessità.
Il team di ricerca ha sviluppato un modello iniziale basato su metodi esistenti per la navigazione di agenti a terra. Tuttavia, hanno scoperto che c'è ancora un grande gap tra le prestazioni di questo modello e ciò che gli esseri umani possono ottenere. Questo suggerisce che AerialVLN presenta un nuovo e impegnativo campo di studio.
Navigazione aerea rispetto alla navigazione a terra
Esistono molti compiti di navigazione visiva e linguistica per sistemi basati a terra. Vari studi hanno creato compiti, come R2R e Alfred, che coinvolgono la navigazione interna o esterna usando comandi in linguaggio. Tuttavia, questi compiti si concentrano principalmente sulla navigazione a terra, trascurando la possibilità di attività aeree che stanno diventando sempre più comuni con i droni.
La navigazione aerea è più complessa a causa di diversi fattori. Prima di tutto, il drone ha un range d'azione maggiore. Deve includere movimenti come salire, scendere e muoversi a sinistra o a destra senza girarsi. In secondo luogo, gli ambienti esterni sono molto più grandi e intricati rispetto agli ambienti statici trovati negli studi precedenti concentrati sulla navigazione a terra. I droni potrebbero dover identificare edifici o punti di riferimento da una vista dall'alto, il che aggiunge complessità.
Inoltre, navigare in tre dimensioni richiede più che evitare ostacoli. I droni devono imparare a manovrare in uno spazio dove potrebbero rimanere bloccati su oggetti in aria, che è un compito più difficile rispetto all'evitare ostacoli mentre si muovono a terra.
Dettagli del dataset AerialVLN
Per creare il dataset AerialVLN, i ricercatori hanno utilizzato piloti di droni esperti per raccogliere percorsi di volo reali. Questi dati del mondo reale aiutano a garantire che i modelli possano apprendere dai comportamenti e dalle decisioni umane. I piloti sono stati guidati da suggerimenti su direzioni e distanze per aiutarli a completare i voli attraverso la simulazione. I percorsi completati sono stati poi abbinati a istruzioni in linguaggio naturale raccolte da annotatori umani.
Il dataset include più di 25.000 istruzioni con una lunghezza media di circa 83 parole. Ogni istruzione utilizza un linguaggio diverso per guidare efficacemente il drone. Richiedendo riferimenti come "atterra sul tetto dell'edificio vicino alla fontana", le istruzioni aiutano a evitare ambiguità che potrebbero sorgere da punti di riferimento simili.
La sfida dei percorsi lunghi
Una grande sfida per i droni è navigare percorsi più lunghi. In AerialVLN, la lunghezza media del percorso è di circa 661,8 unità, approssimativamente equivalente a 661,8 metri. Rispetto ai dataset precedenti per la navigazione a terra, questa lunghezza è significativamente maggiore. Il dataset include anche molti oggetti referenziati e richiede che il drone comprenda istruzioni complesse per navigare efficacemente.
Questa complessità aumenta la sfida complessiva, rendendo AerialVLN un compito prezioso per studi futuri, specialmente per capire come i droni possano imparare a seguire istruzioni più complicate su lunghe distanze.
Valutazione dei modelli di navigazione aerea
Per valutare le prestazioni dei modelli di navigazione, i ricercatori utilizzano vari metodi di valutazione. I criteri principali includono il tasso di successo nel completare i compiti dati entro una certa distanza dall'obiettivo e l'errore di navigazione, che misura quanto lontano il drone si trova dalla posizione desiderata dopo aver completato il volo.
Cinque modelli di base sono stati testati sul compito AerialVLN, mostrando diversi livelli di successo. Tuttavia, tutti questi modelli non hanno raggiunto le prestazioni umane. I risultati indicano che, mentre i modelli di macchina possono migliorare nel tempo, hanno ancora molta strada da fare prima di eguagliare le abilità dei piloti umani.
Importanza degli input visivi e linguistici
Il compito AerialVLN si basa fortemente sia sulle percezioni visive che sulle istruzioni in linguaggio naturale. Il design del dataset enfatizza l'importanza di combinare queste modalità in modo efficace. I ricercatori hanno condotto studi per capire come la rimozione di segnali visivi o comandi linguistici influisca sulle prestazioni. I risultati hanno mostrato che entrambi sono essenziali per una navigazione di successo.
Eliminare l'input Visivo ha spesso portato a un tasso di successo molto più basso, indicando che il drone non può navigare efficacemente senza informazioni visive. Allo stesso modo, rimuovere le istruzioni linguistiche ha reso difficile per i droni capire dove andare.
Conclusione
L'emergere del compito AerialVLN rappresenta un passo importante verso il miglioramento di come i droni navigano in ambienti esterni complessi usando input visivi e linguistici. Conducendo ricerche in quest'area, si spera di migliorare le capacità dei droni e sviluppare sistemi più efficaci per la navigazione aerea.
Attraverso studi continui su AerialVLN, i ricercatori futuri possono esplorare sfide diverse nella navigazione a lungo raggio, nell'apprendimento delle azioni e nell'uso efficace delle istruzioni. Il dataset AerialVLN è pronto per diventare un componente fondamentale per l'esplorazione della navigazione aerea, fornendo una piattaforma dettagliata per capire come migliorare le prestazioni dei droni in applicazioni nel mondo reale.
Titolo: AerialVLN: Vision-and-Language Navigation for UAVs
Estratto: Recently emerged Vision-and-Language Navigation (VLN) tasks have drawn significant attention in both computer vision and natural language processing communities. Existing VLN tasks are built for agents that navigate on the ground, either indoors or outdoors. However, many tasks require intelligent agents to carry out in the sky, such as UAV-based goods delivery, traffic/security patrol, and scenery tour, to name a few. Navigating in the sky is more complicated than on the ground because agents need to consider the flying height and more complex spatial relationship reasoning. To fill this gap and facilitate research in this field, we propose a new task named AerialVLN, which is UAV-based and towards outdoor environments. We develop a 3D simulator rendered by near-realistic pictures of 25 city-level scenarios. Our simulator supports continuous navigation, environment extension and configuration. We also proposed an extended baseline model based on the widely-used cross-modal-alignment (CMA) navigation methods. We find that there is still a significant gap between the baseline model and human performance, which suggests AerialVLN is a new challenging task. Dataset and code is available at https://github.com/AirVLN/AirVLN.
Autori: Shubo Liu, Hongsheng Zhang, Yuankai Qi, Peng Wang, Yaning Zhang, Qi Wu
Ultimo aggiornamento: 2023-08-13 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2308.06735
Fonte PDF: https://arxiv.org/pdf/2308.06735
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.