Presentiamo LineMarkNet: un sistema per la rilevazione efficiente dei punti di riferimento lineari
LineMarkNet migliora la precisione del parcheggio dei veicoli autonomi con una rilevazione delle linee avanzata.
― 7 leggere min
Indice
Il parcheggio con valet è un compito importante nella guida autonoma, dove il veicolo deve parcheggiarsi da solo in un'area designata. Tuttavia, rilevare le linee e i punti di riferimento che aiutano a guidare il veicolo in queste situazioni è stata una sfida per molto tempo. La rilevazione accurata ed efficiente di questi punti di riferimento è cruciale per il funzionamento sicuro dei veicoli autonomi.
In questo articolo, presentiamo un nuovo sistema progettato per rilevare i punti di riferimento delle linee, che possono aiutare i veicoli a parcheggiare più efficientemente. Il nostro sistema utilizza un modello di deep learning per identificare linee fisiche, come quelle di parcheggio e le linee delle corsie, insieme a un concetto innovativo noto come linea mentale. Questa linea mentale collega i veicoli fermi e aiuta a definire le aree adatte per la guida.
Panoramica del Sistema
Il nostro sistema di Rilevamento dei punti di riferimento delle linee, chiamato LineMarkNet, utilizza immagini da più telecamere a 360 gradi. Questo ci consente di raccogliere informazioni da angolazioni diverse, creando una Vista dall'alto dell'ambiente nota come Bird-Eye-View (BEV). Trasformando le immagini raccolte da queste telecamere in uno spazio unificato, possiamo rilevare meglio i vari punti di riferimento delle linee.
Il sistema è progettato per essere leggero, rendendolo adatto per applicazioni in tempo reale nei veicoli. Progettando attentamente i suoi componenti, garantiamo che funzioni efficacemente senza richiedere risorse computazionali eccessive.
Tipi di Punti di Riferimento delle Linee
Per un parcheggio con valet efficace, abbiamo identificato quattro punti di riferimento delle linee essenziali:
Linea di Parcheggio: Questa linea separa le aree percorribili dagli spazi di parcheggio. È cruciale per identificare il posto auto target.
Linea di Corsia: Le linee delle corsie indicano i confini delle diverse corsie. Aiutano i conducenti a rimanere nelle loro corsie durante le manovre.
Linea Mediana: Questa linea corre tra le corsie che si muovono in direzioni opposte, prevenendo collisioni.
Linea di Confine dei Veicoli Fermi: Questa è una linea virtuale che collega i veicoli parcheggiati. Aiuta a indicare il confine tra le aree dove è consentita la guida e quelle dove non lo è.
Questi punti di riferimento sono basati su osservazioni di scenari di parcheggio reali, assicurando che siano rappresentativi degli ambienti comuni.
Processo di Rilevamento
Sistema di Telecamere
Per rilevare i punti di riferimento delle linee, il nostro sistema utilizza un gruppo di quattro telecamere fish-eye. Questa configurazione consente un ampio campo visivo, migliorando la visibilità delle linee e dei punti di riferimento attorno al veicolo. Le immagini catturate da queste telecamere vengono poi elaborate per creare una rappresentazione Bird-Eye-View.
Trasformazione delle Immagini
Trasformare le immagini delle telecamere fish-eye in formato BEV ci aiuta a consolidare le informazioni contestuali da vari angoli di camere. Questa trasformazione è cruciale per rilevare punti di riferimento delle linee lunghi e continui che potrebbero non essere chiaramente visibili da una singola telecamera.
Framework di Deep Learning
Il LineMarkNet utilizza un'architettura di deep learning progettata per l'apprendimento multi-task. Questo significa che può eseguire compiti diversi contemporaneamente, come rilevare vari punti di riferimento delle linee e segmentare le immagini. Condividendo le caratteristiche tra questi compiti, il sistema migliora le sue prestazioni complessive.
Fusione delle Caratteristiche
Il sistema estrae prima le caratteristiche dalle immagini a 360 gradi e dalle immagini BEV separatamente. Queste caratteristiche vengono poi combinate per arricchire le informazioni disponibili per i compiti di rilevamento. Questa fusione aiuta a migliorare l'accuratezza e la robustezza del rilevamento dei punti di riferimento.
Decodifica Multi-task
L'architettura include più decodificatori per diversi compiti. Un decodificatore si concentra sulla segmentazione semantica, che aiuta a identificare i punti di riferimento a livello pixel, mentre un altro esegue il rilevamento di oggetti per localizzare veicoli e altri oggetti rilevanti. Questa configurazione assicura che il sistema possa identificare e classificare efficacemente vari punti di riferimento delle linee.
Modulo di Fitting delle Linee
Dopo aver rilevato i punti di riferimento delle linee, utilizziamo un algoritmo di fitting per calcolare i loro parametri. Questo comporta determinare la pendenza e l'intercetta per i punti di riferimento delle linee, il che aiuta a fornire informazioni precise sulla loro posizione.
Backend di Filtraggio
Nonostante le avanzate capacità di rilevamento di LineMarkNet, le uscite iniziali possono a volte contenere rumore o errori a causa di fattori ambientali come occlusioni. Per affrontare questo problema, abbiamo sviluppato un backend di filtraggio che affina i punti di riferimento rilevati.
Coerenza Multi-view e Temporale
Il backend di filtraggio assicura che i punti di riferimento rilevati da diverse visuali delle telecamere siano allineati e coerenti nel tempo. Applicando un filtro, possiamo smussare eventuali incoerenze nei rilevamenti, fornendo risultati più affidabili.
Prestazioni in Tempo Reale
Il nostro sistema è progettato per essere computazionalmente efficiente in modo da poter funzionare in tempo reale, anche su hardware meno potente. Mantendendo il tempo di elaborazione al di sotto di una certa soglia, assicuriamo che il sistema possa fornire feedback tempestivo durante il processo di parcheggio.
Dataset
Per addestrare e convalidare il nostro sistema, abbiamo creato un ampio dataset specificamente per il rilevamento dei punti di riferimento delle linee in scenari di parcheggio con valet. Il dataset consiste in molti campioni raccolti da vari parcheggi, catturando una vasta gamma di ambienti e condizioni.
Le annotazioni nel dataset indicano la posizione dei punti di riferimento delle linee, consentendo ai nostri modelli di apprendere efficacemente da questi dati.
Risultati Sperimentali
Per mostrare l'efficacia del nostro sistema di rilevamento dei punti di riferimento delle linee, abbiamo condotto una serie di esperimenti confrontando le sue prestazioni con metodi esistenti.
Misurazione dell'Accuratezza
Abbiamo misurato l'accuratezza del nostro sistema utilizzando metriche come il tasso di rilevazione falsa (FD) e il tasso di rilevazione mancata (MD). Un basso FD indica che il sistema non rileva in modo errato i punti di riferimento, mentre un basso MD mostra che identifica con successo la maggior parte dei punti di riferimento presenti.
I nostri risultati sperimentali hanno dimostrato che LineMarkNet ha raggiunto un'accuratezza impressionante, superando significativamente i metodi di rilevamento tradizionali.
Valutazione dell'Efficienza
In termini di efficienza, il nostro sistema opera in tempo reale, elaborando ogni campione in meno di 45 millisecondi. Questa efficienza è fondamentale per applicazioni pratiche nei veicoli autonomi, dove risposte tempestive possono garantire la sicurezza.
Conclusione
In conclusione, abbiamo introdotto un sistema completo per il rilevamento dei punti di riferimento delle linee in scenari di parcheggio con valet. Utilizzando un framework di deep learning e un design intelligente dei componenti, abbiamo raggiunto una soluzione altamente efficace ed efficiente per questo compito impegnativo.
Il nostro approccio non solo migliora la sicurezza e la precisione dei veicoli autonomi durante il parcheggio, ma pone anche le basi per futuri sviluppi nel campo. Puntiamo a continuare a migliorare il sistema affrontando le sue limitazioni ed espandendo i tipi di punti di riferimento rilevati.
Le applicazioni reali del nostro sistema possono migliorare significativamente l'esperienza dell'utente nel parcheggio autonomo, rendendolo un contributo vitale all'avanzamento della tecnologia di guida autonoma.
Lavori Futuri
Sebbene il nostro sistema abbia mostrato risultati promettenti, c'è ancora potenziale per ulteriori miglioramenti. Gli sforzi futuri si concentreranno sul miglioramento del rilevamento in condizioni estreme, come scarsa illuminazione o angolazioni insolite. Inoltre, puntiamo ad ampliare la gamma di punti di riferimento visibili per includere altre caratteristiche importanti legate al parcheggio, come pedoni e bordi stradali.
Affinando i nostri metodi e ampliando il nostro dataset, speriamo di aumentare la robustezza e la versatilità del nostro sistema di rilevamento dei punti di riferimento delle linee, assicurando che soddisfi le diverse esigenze degli ambienti di guida reali.
Titolo: LineMarkNet: Line Landmark Detection for Valet Parking
Estratto: We aim for accurate and efficient line landmark detection for valet parking, which is a long-standing yet unsolved problem in autonomous driving. To this end, we present a deep line landmark detection system where we carefully design the modules to be lightweight. Specifically, we first empirically design four general line landmarks including three physical lines and one novel mental line. The four line landmarks are effective for valet parking. We then develop a deep network (LineMarkNet) to detect line landmarks from surround-view cameras where we, via the pre-calibrated homography, fuse context from four separate cameras into the unified bird-eye-view (BEV) space, specifically we fuse the surroundview features and BEV features, then employ the multi-task decoder to detect multiple line landmarks where we apply the center-based strategy for object detection task, and design our graph transformer to enhance the vision transformer with hierarchical level graph reasoning for semantic segmentation task. At last, we further parameterize the detected line landmarks (e.g., intercept-slope form) whereby a novel filtering backend incorporates temporal and multi-view consistency to achieve smooth and stable detection. Moreover, we annotate a large-scale dataset to validate our method. Experimental results show that our framework achieves the enhanced performance compared with several line detection methods and validate the multi-task network's efficiency about the real-time line landmark detection on the Qualcomm 820A platform while meantime keeps superior accuracy, with our deep line landmark detection system.
Autori: Zizhang Wu, Yuanzhu Gan, Tianhao Xu, Rui Tang, Jian Pu
Ultimo aggiornamento: 2023-09-24 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.10475
Fonte PDF: https://arxiv.org/pdf/2309.10475
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.