Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Progressi nella costruzione di mappe HD per auto a guida autonoma

Nuovo modello migliora la creazione di mappe HD in tempo reale usando le telecamere a bordo.

― 6 leggere min


Mappe HD in tempo realeMappe HD in tempo realeper auto a guida autonomatelecamere dei veicoli.mappe in modo efficiente usando leNuove tecniche permettono di creare
Indice

Le mappe ad alta definizione (HD) sono super importanti per lo sviluppo delle auto a guida autonoma. Queste mappe forniscono info dettagliate sull'ambiente intorno al veicolo, aiutando il sistema di pilota automatico a capire ciò che lo circonda. Ultimamente c'è stato un grande interesse nel creare Mappe HD al volo usando le telecamere di bordo, invece di affidarsi solo a mappe pre-esistenti che potrebbero non riflettere sempre le condizioni attuali della strada.

Uno dei principali obiettivi di questa ricerca è migliorare il modo in cui queste mappe vengono costruite In tempo reale usando metodi leggeri. Un sistema che può creare mappe HD mentre l'auto è in movimento ha un grande potenziale. In questo contesto, usare solo telecamere per la percezione è interessante, perché sono portatili e economiche.

L'importanza delle telecamere rispetto al LiDAR

Mentre altri sensori come il LiDAR sono bravi a raccogliere info dettagliate 3D sull'ambiente, spesso sono pesanti e costosi. D'altra parte, le telecamere sono più compatte e ampiamente utilizzate, rendendole una scelta favorevole per molte applicazioni di guida autonoma. Questo passaggio verso sistemi basati su telecamere evidenzia la necessità di tecnologie che possano costruire mappe HD usando solo dati visivi.

La necessità di costruire mappe in tempo reale

Tradizionalmente, i veicoli a guida autonoma si sono affidati a mappe dettagliate create usando vari metodi, che richiedono tempo e sforzo umano per essere aggiornate. Queste mappe possono diventare obsolete rapidamente con i cambiamenti nell'ambiente. Questo porta a una crescente tendenza a sviluppare mappe HD locali in modo dinamico con dati in tempo reale raccolti dalle telecamere del veicolo. L'obiettivo è permettere al veicolo di percepire il suo ambiente allo stesso modo in cui lo fanno gli esseri umani, usando indizi visivi per raccogliere informazioni senza fare affidamento su mappe pre-esistenti.

Approcci alla costruzione di mappe HD

Molti dei primi tentativi di creare mappe HD online si sono concentrati sulle previsioni a livello di pixel. Hanno cercato di prevedere le caratteristiche di ogni pixel in un'immagine per costruire una mappa completa. Alcuni metodi hanno diviso il compito in sottocompiti più piccoli, come capire dove si trovano le corsie e rilevare ostacoli. Tuttavia, l'obiettivo finale è definire gli elementi della mappa in un modo che li renda facili da usare nella navigazione e nella pianificazione.

Un notevole miglioramento in questo campo è stato lo sviluppo di un'architettura semplificata che consente un processo di mappatura più efficiente. Evita i problemi di ordine di output e corrispondenza, che possono rallentare la costruzione della mappa.

Riconoscere i limiti dei modelli esistenti

Nonostante i progressi, i modelli esistenti affrontano ancora delle sfide, in particolare riguardo alle loro performance nelle situazioni del mondo reale. I ricercatori hanno identificato due preoccupazioni chiave: una mancanza di comprensione su perché i modelli funzionano come fanno e una performance che non soddisfa ancora le aspettative.

Per affrontare questi problemi, i ricercatori si sono concentrati sul miglioramento delle tecniche di addestramento del modello e sulle strategie di Scalabilità. Questo ha coinvolto il processo di raccolta di dati di verità a terra più efficaci per migliorare l'apprendimento del modello.

Migliorare le tecniche di addestramento

Attraverso un'analisi attenta, è emerso che aumentare i dati di verità a terra migliora significativamente le performance. È diventato chiaro che aumentare il numero di esempi di addestramento presentati al modello lo rende più efficace nell'apprendere i compiti necessari. Inoltre, un corretto pre-addestramento dell'encoder delle immagini del modello è essenziale per trasferire la conoscenza in modo efficace.

I ricercatori hanno anche scoperto intuizioni preziose sull'aumento del numero di query utilizzate nel modello, che aiutano a fornire più supervisione e guida durante l'addestramento. Questa semplice modifica nella metodologia può portare a miglioramenti significativi senza aumentare i costi computazionali durante il processo di mappatura.

Scalare i modelli per migliori performance

Il concetto di scalare i modelli è importante nella visione artificiale. Aumentando la capacità dell'architettura, i ricercatori possono sondare i limiti delle performance nella costruzione di mappe HD. È essenziale che il design di modelli più grandi rimanga efficiente, permettendo un'elaborazione rapida e applicazioni in tempo reale.

Le strategie derivate da queste scoperte sono incorporate in un modello chiamato MapNeXt, che promette migliori funzionalità rispetto agli sforzi precedenti.

Dettagli del nuovo modello

MapNeXt introduce diverse pratiche migliorate sia per modelli onboard che offboard. Per i sistemi onboard, incorpora tecniche di addestramento più efficaci, come l'uso di query aggiuntive e la preparazione del pre-addestramento per l'encoder delle immagini. Questo porta a guadagni significativi nelle performance senza aumentare il carico computazionale durante l'inferenza.

Per i modelli offboard, i ricercatori forniscono linee guida su come scalare i modelli in modo efficace, assicurando che la capacità corrisponda al numero di query di decodifica. Questo consente una migliore scalabilità delle performance rimanendo efficienti.

Confronti di performance sul benchmark nuScenes

Il benchmark nuScenes è un dataset importante per i compiti dei veicoli autonomi. Consiste in numerose scene con migliaia di fotogrammi chiave, fornendo una piattaforma robusta per i test. La performance di diversi modelli può essere confrontata in base alla precisione media, misurando quanto bene i modelli possono identificare gli elementi della mappa a varie distanze.

Nei test recenti, il nuovo modello ha superato i modelli leader precedenti, dimostrando miglioramenti sia in velocità che in accuratezza. Anche quando confrontato con sistemi multi-modali più complessi, il nuovo modello ha mostrato un tasso di performance migliore, rendendolo un'opzione promettente per future implementazioni nel campo della guida autonoma.

Risultati dalle competizioni di sfida

I progressi fatti attraverso il modello MapNeXt sono stati messi alla prova in una recente competizione pubblica focalizzata sulla costruzione di mappe HD. I risultati sono stati impressionanti, con il nuovo modello che ha vinto il secondo posto mentre superava significativamente il modello di base precedente.

Nonostante la competizione richiedesse solo 24 epoche di addestramento, i risultati indicano un forte potenziale per ulteriori miglioramenti. Questo suggerisce che c'è ancora margine di crescita e affinamento negli sforzi di ricerca e sviluppo futuri.

Conclusione

Questo lavoro mette in luce il panorama in evoluzione della costruzione di mappe HD vettorizzate online nel campo della guida autonoma. Attraverso processi di addestramento raffinati, metodi di pre-addestramento appropriati e strategie di scalabilità efficaci, il nuovo modello dimostra come i veicoli autonomi possano navigare e costruire mappe ad alta definizione al volo usando input delle telecamere.

Questa ricerca non solo fornisce una base promettente per futuri progressi, ma mira anche a ispirare più ricercatori a esplorare ulteriori innovazioni in questo campo. Con sforzi continuativi, possiamo aspettarci progressi significativi verso applicazioni pratiche di queste tecnologie negli scenari di guida autonoma.

Fonte originale

Titolo: MapNeXt: Revisiting Training and Scaling Practices for Online Vectorized HD Map Construction

Estratto: High-Definition (HD) maps are pivotal to autopilot navigation. Integrating the capability of lightweight HD map construction at runtime into a self-driving system recently emerges as a promising direction. In this surge, vision-only perception stands out, as a camera rig can still perceive the stereo information, let alone its appealing signature of portability and economy. The latest MapTR architecture solves the online HD map construction task in an end-to-end fashion but its potential is yet to be explored. In this work, we present a full-scale upgrade of MapTR and propose MapNeXt, the next generation of HD map learning architecture, delivering major contributions from the model training and scaling perspectives. After shedding light on the training dynamics of MapTR and exploiting the supervision from map elements thoroughly, MapNeXt-Tiny raises the mAP of MapTR-Tiny from 49.0% to 54.8%, without any architectural modifications. Enjoying the fruit of map segmentation pre-training, MapNeXt-Base further lifts the mAP up to 63.9% that has already outperformed the prior art, a multi-modality MapTR, by 1.4% while being $\sim1.8\times$ faster. Towards pushing the performance frontier to the next level, we draw two conclusions on practical model scaling: increased query favors a larger decoder network for adequate digestion; a large backbone steadily promotes the final accuracy without bells and whistles. Building upon these two rules of thumb, MapNeXt-Huge achieves state-of-the-art performance on the challenging nuScenes benchmark. Specifically, we push the mapless vision-only single-model performance to be over 78% for the first time, exceeding the best model from existing methods by 16%.

Autori: Toyota Li

Ultimo aggiornamento: 2024-01-14 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2401.07323

Fonte PDF: https://arxiv.org/pdf/2401.07323

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili