Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Sviluppi nell'integrazione di HDMap e SDMap

Uno studio sulla generazione di HDMap usando SDMap come base e la sua valutazione delle performance.

― 8 leggere min


Innovazioni di HDMap eInnovazioni di HDMap eSDMapprestazioni dei modelli di mappatura.Esaminare l'integrazione e le
Indice

Dettagli sull'Implementazione di P-MapNet

P-MapNet è un sistema che utilizza una potente GPU NVIDIA GeForce RTX 3090 per l'addestramento. Usando un metodo chiamato ottimizzatore Adam, aiutiamo il nostro modello a imparare. Applichiamo anche un piano di apprendimento chiamato StepLR per regolare il tasso di apprendimento durante il processo di addestramento.

Per garantire un confronto equo, utilizziamo EfficientNet-B0, un tipo di modello già addestrato su un grande set di dati chiamato ImageNet. Questo modello ci aiuta a codificare immagini scattate da una vista specifica. Utilizziamo anche un Perceptron Multi-Livello (MLP) per convertire queste immagini in caratteristiche Bird's Eye View (BEV).

Per gestire nuvole di punti dai dati LiDAR, utilizziamo un metodo chiamato PointPillars. Questo ci consente di lavorare efficacemente con i dati della nuvola di punti con una dimensione di 128.

Durante la fase di pre-addestramento per il prior HDMap, addestriamo il nostro modello per 20 cicli (o epoche) per ogni intervallo. Dopo di che, combiniamo le caratteristiche BEV con il modulo di Raffinamento del Prior HDMap e addestriamo per altri 10 cicli per ottenere le previsioni finali dell'HDMap.

Ulteriore Studio sul Prior SDMap

Abbiamo esaminato come il Prior SDMap possa adattarsi a un framework vettoriale end-to-end. Questo processo ha comportato piccole modifiche a un modello chiamato MapTR. Integrando il nostro Modulo Prior SDMap in questo framework, chiamato MapTR-SDMap, abbiamo osservato miglioramenti significativi nelle prestazioni, in particolare nella media della Precisione Media (mAP).

I risultati visivi indicano che MapTR-SDMap funziona meglio quando si tratta di percezioni a lungo raggio. Abbiamo trovato che il metodo di post-elaborazione della segmentazione fornisce risultati stabili poiché si basa su previsioni sensate. Nel frattempo, l'approccio di vettorizzazione end-to-end ha difficoltà con il bias predittivo e le sfide di selezione dei punti chiave.

In conclusione, il metodo di fusione del Prior SDMap mostra guadagni di prestazioni sia nel framework di post-elaborazione della segmentazione che nel framework end-to-end.

Confronto tra MapTR e Prior SDMap

Abbiamo confrontato il modello MapTR con il metodo prior SDMap rispetto al modello standard MapTR. Abbiamo utilizzato telecamere a vista circonferenziale come input e definito soglie di distanza di 0,5 m, 1,0 m e 1,5 m per la valutazione. Le nostre scoperte hanno evidenziato l'efficacia del metodo di fusione del prior SDMap.

IntervalloMetodoDiv.Ped.Bound.mAP
3*MapTR49.5041.1751.0847.25
3*MapTR26.0018.8915.7320.20
3*MapTR12.697.174.238.03

Incoerenze tra Verità Terrena e SDMaps

I nostri prior SDMap provengono da OpenStreetMap (OSM), ma abbiamo osservato incoerenze tra i set di dati etichettati e ciò che si vede nel mondo reale. Non tutte le strade sono annotate in modo accurato in questi set di dati.

In OSM, c'è una categoria per le strade di servizio, che sono strade di accesso per vari luoghi come parchi aziendali e campeggi. Aggiungere queste strade di servizio può rendere il prior SDMap più dettagliato, ma può anche portare a più incoerenze nelle annotazioni del set di dati.

Per valutare se incorporare le strade di servizio è una buona idea, abbiamo condotto esperimenti. Abbiamo trovato che quando la distribuzione delle strade di servizio è errata, le prestazioni del nostro modello migliorano perché la rete non le tratta come rumore. Tuttavia, quando le strade di servizio sono mescolate con le strade principali, può causare problemi perché la rete potrebbe filtrare le strade come rumore.

I risultati della visualizzazione mostrano due casi che dimostrano gli effetti di queste incoerenze. In un caso, includere le strade di servizio è stato vantaggioso perché il SDMap corrispondeva bene alla verità terrena. Nella maggior parte delle situazioni, però, i SDMaps con strade di servizio avevano annotazioni non corrispondenti, portando a alcune strade principali filtrate in modo errato come rumore.

Quando la rete esclude le strade di servizio, evita di apprendere distribuzioni errate e si concentra meglio sulle strade principali. Questo aiuta la rete a guadagnare informazioni utili riguardo le strade principali, anche se alcune mappe dettagliate mancano.

Il prior SDMap funge da guida utile durante la generazione dell'HDMap, creando attraversamenti pedonali e corsie anche se questi non si allineano con la verità terrena.

Impatto delle Strade di Servizio

Abbiamo anche analizzato come l'inserimento delle strade di servizio influisca sulle prestazioni di segmentazione. L'assenza di strade di servizio nel prior SDMap ha portato a circa un miglioramento del 2% nelle prestazioni basate su mIoU (media dell'Intersezione sulla Unione).

Con Strada di ServizioDividerPed CrossingBoundarymIoU
Con Servizio62.447.965.358.53
Senza Servizio63.650.266.860.20

I numeri suggeriscono che la rete è brava a filtrare il rumore, soprattutto quando è esposta a una varietà di SDMaps che non corrispondono alla verità terrena. Questo mostra l'importanza di concentrarsi sulle strade principali per guidare efficacemente la generazione di HDMap.

Analisi della Visualizzazione delle Incoerenze

In un altro caso studio, abbiamo analizzato i risultati negativi che si sono verificati a causa delle incoerenze. Il nostro modello di base è stato in grado di identificare sia le strade biforcute a sinistra che a destra quando le informazioni del prior SDMap erano assenti. Tuttavia, ha avuto difficoltà con le previsioni sul lato lontano, particolarmente a causa di condizioni meteorologiche avverse.

Quando abbiamo utilizzato informazioni del prior SDMap per assistere nella generazione dell'HDMap, le previsioni per le strade biforcute sono diminuite perché il SDMap enfatizzava le strade principali. Aggiungere il prior HDMap ha aiutato con alcuni artefatti ma ha avuto un impatto negativo sulle previsioni delle biforcazioni sul lato vicino.

Problemi con le Strade Biforcate sul Lato Vicino

Il baseline ha mostrato prestazioni efficaci nel prevedere le biforcazioni sul lato vicino. Tuttavia, quando abbiamo integrato sia i priors SDMap che HDMap, l'accuratezza è diminuita. Anche quando abbiamo cercato di aggiungere informazioni sulle strade di servizio, queste erano spesso filtrate come rumore dalla rete.

Abbiamo convalidato questo problema in un modello che includeva dati sulla strada di servizio. La rete ha identificato il SDMap di servizio per una strada biforcata come rumore, risultando in nessun output per alcune strade indicate nella verità terrena.

In conclusione, introdurre informazioni del prior SDMap apre strade per la ricerca, fornendo spunti su come i futuri modelli possano beneficiare dai priors SDMap durante la generazione di HDMap.

Analisi del Livello di Attenzione

La nostra analisi sui livelli di attenzione ha mostrato che aumentare il numero di livelli di trasformatore di solito migliora le prestazioni. Tuttavia, alla fine raggiunge un limite a causa della natura a bassa dimensione dei priors SDMap. Troppi livelli possono portare a overfitting.

Abbiamo condotto esperimenti per misurare l'impatto di diversi livelli di attenzione BEV-SDPrior sulle prestazioni, l'uso della memoria e la velocità di elaborazione.

Livello di AttenzioneDiv.Ped.Bound.mIoUMemoria (GB)FPS

Downsampling delle Caratteristiche BEV

La dimensione delle mappe di caratteristiche nel nostro sistema è influenzata dal fattore di downsampling utilizzato durante la fusione. Mappe di caratteristiche più grandi possono fornire più informazioni, ma consumano anche più memoria e rallentano il sistema. Cercando di trovare un equilibrio tra velocità e accuratezza, abbiamo selezionato una dimensione adatta per prestazioni ottimali.

Abbiamo testato vari fattori di downsampling, osservando la loro influenza sui risultati di mIoU e sulla memoria della GPU.

FattoreDimensione della Mappa di CaratteristicheDiv.Ped.Bound.mIoUMemoria (GB)FPS
........................

Esperimento sulla Proporzione di Maschere

Abbiamo sperimentato con diverse proporzioni di maschere per il pre-addestramento. Alte proporzioni di maschere hanno reso difficile la ricostruzione, mentre basse proporzioni non hanno sfidato abbastanza la rete per catturare i priors HDMap. Abbiamo cercato di trovare l'opzione migliore per il rapporto di pre-addestramento del nostro modello.

Risultati di Vettorizzazione con Post-Elaborazione

Abbiamo anche confrontato i risultati della vettorizzazione delle HD Maps attraverso la post-elaborazione. Abbiamo trovato che il nostro metodo ha raggiunto la massima precisione media di rilevamento delle istanze in vari intervalli di distanza.

Analisi della Strategia di Mascheramento

Abbiamo applicato diverse strategie di mascheramento nei nostri esperimenti. Il metodo basato su griglia comportava l'utilizzo di una dimensione di patch specifica e la selezione di ogni altra patch. L'approccio random-mask, d'altra parte, selezionava casualmente le patch per il mascheramento.

Le nostre scoperte hanno mostrato che la strategia di campionamento casuale ha fornito i migliori risultati durante il pre-addestramento.

Strategia di MascheramentoDividerPed CrossingBoundarymIoU
senza Pre-addestramento64.151.467.460.97

Questo indica che anche senza pre-addestramento, il nostro metodo random-mask ha performato meglio in contesti specifici.

Visualizzazione Qualitativa

Abbiamo incluso risultati visivi aggiuntivi sotto varie condizioni meteorologiche per dimostrare le prestazioni del nostro metodo. I risultati qualitativi mostrano che il Modulo Prior SDMap migliora le previsioni combinando i priors della struttura stradale. Il Modulo Prior HDMap avvicina le previsioni alla distribuzione complessiva dell'HDMap, migliorando il realismo.

Visualizzazione dei Dati SD Map

I dati provenienti sia dai dataset Argoverse2 che nuScenes sono stati utilizzati per arricchire le nostre visualizzazioni dei dati SD Map. I risultati visivi sono presentati, mostrando come i dati SDMap possano arricchire l'output.

Per generare i dati SDMap, abbiamo estratto informazioni su strade, collegamenti stradali e strade speciali da OSM, allineando coordinate e filtrando i dati.

DatasetSotto-MappaNumeri di CorsieLunghezza Totale (km)
NuScenesSingapore-OneNorth57623.4
Argoverse2Austin19346.5
Argoverse2Palo Alto31533.4
Argoverse2Washington DC1020150.6

Abbiamo valutato le visualizzazioni dei dati SD Map rispetto ai dati HD Map in diverse condizioni, valutando le capacità di entrambi i modelli di adattarsi a varie situazioni meteorologiche e di luce.

Così, le nostre scoperte e i dati visivi migliorano collettivamente la nostra comprensione di come SDMap e HDMap possano lavorare insieme in diverse situazioni.

Fonte originale

Titolo: P-MapNet: Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors

Estratto: Autonomous vehicles are gradually entering city roads today, with the help of high-definition maps (HDMaps). However, the reliance on HDMaps prevents autonomous vehicles from stepping into regions without this expensive digital infrastructure. This fact drives many researchers to study online HDMap generation algorithms, but the performance of these algorithms at far regions is still unsatisfying. We present P-MapNet, in which the letter P highlights the fact that we focus on incorporating map priors to improve model performance. Specifically, we exploit priors in both SDMap and HDMap. On one hand, we extract weakly aligned SDMap from OpenStreetMap, and encode it as an additional conditioning branch. Despite the misalignment challenge, our attention-based architecture adaptively attends to relevant SDMap skeletons and significantly improves performance. On the other hand, we exploit a masked autoencoder to capture the prior distribution of HDMap, which can serve as a refinement module to mitigate occlusions and artifacts. We benchmark on the nuScenes and Argoverse2 datasets. Through comprehensive experiments, we show that: (1) our SDMap prior can improve online map generation performance, using both rasterized (by up to $+18.73$ $\rm mIoU$) and vectorized (by up to $+8.50$ $\rm mAP$) output representations. (2) our HDMap prior can improve map perceptual metrics by up to $6.34\%$. (3) P-MapNet can be switched into different inference modes that covers different regions of the accuracy-efficiency trade-off landscape. (4) P-MapNet is a far-seeing solution that brings larger improvements on longer ranges. Codes and models are publicly available at https://jike5.github.io/P-MapNet.

Autori: Zhou Jiang, Zhenxin Zhu, Pengfei Li, Huan-ang Gao, Tianyuan Yuan, Yongliang Shi, Hang Zhao, Hao Zhao

Ultimo aggiornamento: 2024-03-29 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2403.10521

Fonte PDF: https://arxiv.org/pdf/2403.10521

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili