Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Intelligenza artificiale# Apprendimento automatico# Robotica

Localizzazione innovativa dei veicoli senza GPS

Un nuovo metodo localizza i veicoli usando lidar e immagini satellitari senza fare affidamento sul GPS.

― 6 leggere min


Localizzazione delLocalizzazione delveicolo senza GPSe immagini satellitari.localizzazione dei veicoli usando lidarNuovo approccio migliora la
Indice

Con il progresso della tecnologia, diventa sempre più importante la necessità di posizionare con precisione i veicoli senza GPS. Questa esigenza è particolarmente forte in aree dove i segnali GPS sono deboli o assenti. Una soluzione promettente prevede l'uso di Modelli Basati sull'Energia (EBM) per la Localizzazione dei veicoli dotati di sensori di distanza, come il LiDAR, utilizzando Immagini Satellitari dall’alto.

Introduzione

La localizzazione è un elemento critico per i veicoli autonomi per navigare nel loro ambiente. Tradizionalmente, i sensori di distanza, come il lidar e le fotocamere, aiutano i veicoli a comprendere ciò che li circonda. Tuttavia, costruire mappe usando questi sensori può essere costoso e richiedere molto tempo. Un’alternativa è usare immagini satellitari, che offrono una copertura più ampia e sono più facili da accedere.

Questo approccio colma il divario tra diversi tipi di sensori-specificamente, i dati lidar e le immagini satellitari. Trasformando i dati sparsi raccolti dal lidar in un formato che può essere confrontato con le immagini satellitari dettagliate, possiamo ottenere una localizzazione accurata anche in ambienti difficili.

Panoramica del Sistema di Localizzazione

Il metodo proposto, chiamato Localizzazione Cross-Modale Basata sull’Energia (ECML), utilizza un framework innovativo per localizzare un veicolo abbinando le letture del lidar, trasformate in immagini a vista d'uccello (BEV), con le tessere satellitari. Poiché la localizzazione del veicolo si basa molto sulla ricerca di posizioni simili nell'immagine lidar e nella mappa satellitare, il modello impara a minimizzare i livelli di energia tra le coppie abbinate.

L'Importanza della Localizzazione Accurata

Una localizzazione precisa del veicolo è essenziale per una navigazione efficace. I veicoli autonomi usano vari sensori, tra cui lidar e fotocamere RGB, per interpretare il loro ambiente. Mentre i sensori lidar sono diventati più economici e sono affidabili in condizioni di scarsa visibilità, spesso richiedono mappe locali per funzionare bene. Purtroppo, raccogliere queste mappe può essere complicato in molte aree del mondo.

Date le limitazioni della mappatura lidar, le immagini satellitari offrono un'alternativa valida. Queste immagini coprono vaste aree, fornendo dettagli strutturali essenziali che possono essere correlati ai dati sparsi del lidar.

Funzionalità del Sistema

Il sistema ECML funziona appiattendo le nuvole di punti lidar in immagini BEV ed estraendo tessere satellitari candidate per il confronto. Il processo prevede la valutazione della somiglianza delle posizioni tra le immagini lidar e le mappe satellitari. Quando viene rilevata un'alta somiglianza, la funzione di energia riflette energia bassa, indicando una localizzazione riuscita.

Per gestire le sostanziali differenze di aspetto tra le letture del lidar e le immagini satellitari, il modello impara una misura di somiglianza tra questi due tipi di dati. La funzione di energia funge da ponte, trasformando il confronto in un valore di energia scalare che indica quanto siano allineate le immagini lidar e satellitari.

Il Ruolo delle Reti Neurali

Per svolgere efficientemente questo compito, il sistema impiega reti neurali convoluzionali (CNN) e transformer. L'architettura del transformer, inizialmente progettata per l'elaborazione del testo, ha mostrato risultati impressionanti nella classificazione delle immagini. Qui, è abbinata a strati convoluzionali per mantenere le caratteristiche strutturali essenziali delle immagini lidar prima di elaborarle con il modello transformer.

Questo approccio ibrido consente al modello di sfruttare i punti di forza di entrambe le architetture, mantenendo informazioni vitali sull'immagine mentre capitalizza sulla potenza del transformer per catturare relazioni complesse.

Transformer Convoluzionali

La nostra localizzazione cross-modale sfrutta i transformer convoluzionali (CT), un'adattamento che combina i vantaggi di CNN e transformer. Anziché tokenizzare direttamente l'immagine, strati convoluzionali preliminari elaborano l'immagine per migliorare l'estrazione delle caratteristiche, assicurandosi che nessuna informazione cruciale venga persa durante la tokenizzazione.

Addestramento del Modello

Il modello si allena in modo auto-supervisionato. Impara a generare immagini satellitari dai dati lidar confrontando coppie di immagini lidar-satellite. L'obiettivo è minimizzare l'energia nella vera posizione dell'immagine satellitare, massimizzandola per altre aree.

L'addestramento avviene su numerosi epoch, utilizzando varie tecniche per garantire che il modello possa generalizzare bene in ambienti e condizioni diverse. Il processo prevede la messa a punto di molti parametri per migliorare l'accuratezza.

Processo di Inferenza

Per l'inferenza reale della localizzazione, il modello utilizza varie immagini lidar ruotate per mitigare potenziali imprecisioni durante la rotazione. La migliore coppia di immagini lidar e satellitari viene selezionata in base al punteggio di somiglianza più alto.

Per semplificare questo processo e garantire una risposta in tempo reale, viene implementato un approccio di inferenza in due fasi. Nella prima fase, il sistema genera un set candidato di coppie utilizzando un campionamento di skip maggiore. Nella seconda fase, affina questi candidati esaminando l'area circostante per individuare la posa ottimale.

Raccolta Dati e Impostazione Sperimentale

Per convalidare l'efficacia di questo approccio, sono stati utilizzati vari dataset, inclusi dataset pubblici noti e un dataset personalizzato raccolto in ambienti specifici. Ogni dataset contiene un mix di ambienti urbani e rurali, migliorando la robustezza del modello in scenari diversi.

La preelaborazione dei dati prevede la trasformazione delle nuvole di punti lidar in immagini BEV che si allineano con la risoluzione dell'immagine satellitare. Si presta particolare attenzione a garantire che l'area di copertura delle immagini satellitari completi il potenziale movimento del veicolo.

Risultati Sperimentali

I risultati dei test del modello mostrano che supera i metodi esistenti in vari parametri. I test di confronto tra diversi modelli rivelano che l'approccio ECML raggiunge una precisione superiore quando si tratta di localizzare in aree senza GPS.

Attraverso numerosi esperimenti, è stato determinato che, man mano che l'area della mappa aumenta e diventa più complessa, le prestazioni del modello rimangono forti rispetto ad altre tecniche. Sebbene ci siano sfide, specialmente con strutture simili che portano a confusione, l'approccio ECML dimostra un tasso di errore favorevole in tali situazioni.

Limitazioni e Futuri Sviluppi

Sebbene il metodo ECML mostri delle promesse, non è senza limiti. Confondere strutture simili può portare a previsioni errate, in particolare su mappe più grandi. Inoltre, aumentare la complessità dell'ambiente introduce ulteriori sfide che possono influire sull'accuratezza.

I futuri miglioramenti potrebbero includere l'integrazione di meccanismi di attenzione per migliorare ulteriormente l'apprendimento delle caratteristiche. Monitorare una sequenza di movimenti del veicolo con misurazioni di odometria potrebbe anche aiutare a distinguere caratteristiche uniche in ambienti complessi. Questi elementi saranno esplorati nella ricerca in corso.

Conclusione

In sintesi, il Modello Basato sull'Energia offre un metodo innovativo per la localizzazione cross-modale tra lidar e immagini satellitari in aree prive di segnali GPS. Utilizzando i transformer convoluzionali, il sistema localizza efficacemente i veicoli in tempo reale, dimostrando prestazioni superiori su vari dataset.

Sfruttando immagini satellitari facilmente disponibili, l'approccio ECML affronta molte delle sfide incontrate nei metodi di localizzazione tradizionali, aprendo la strada a futuri sviluppi nella navigazione dei veicoli autonomi. Con miglioramenti e comprensioni in corso, questi metodi possono migliorare significativamente l'efficacia e l'affidabilità della localizzazione dei veicoli in assenza di GPS.

Fonte originale

Titolo: Energy-Based Models for Cross-Modal Localization using Convolutional Transformers

Estratto: We present a novel framework using Energy-Based Models (EBMs) for localizing a ground vehicle mounted with a range sensor against satellite imagery in the absence of GPS. Lidar sensors have become ubiquitous on autonomous vehicles for describing its surrounding environment. Map priors are typically built using the same sensor modality for localization purposes. However, these map building endeavors using range sensors are often expensive and time-consuming. Alternatively, we leverage the use of satellite images as map priors, which are widely available, easily accessible, and provide comprehensive coverage. We propose a method using convolutional transformers that performs accurate metric-level localization in a cross-modal manner, which is challenging due to the drastic difference in appearance between the sparse range sensor readings and the rich satellite imagery. We train our model end-to-end and demonstrate our approach achieving higher accuracy than the state-of-the-art on KITTI, Pandaset, and a custom dataset.

Autori: Alan Wu, Michael S. Ryoo

Ultimo aggiornamento: 2023-06-06 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.04021

Fonte PDF: https://arxiv.org/pdf/2306.04021

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili