Progressi nella fusione dei sensori per veicoli autonomi
Stiamo unendo i dati delle telecamere e dei radar per avere una migliore rilevazione degli oggetti nei veicoli autonomi.
― 11 leggere min
Indice
- Importanza della Fusione dei sensori
- Contesto sul Rilevamento degli oggetti
- Elaborazione delle Nuvole di Punti
- Tecniche di Fusione dei Sensori
- Metodologia di Fusione Proposta
- Architettura della Rete Immagine
- Architettura della Rete Nuvola di Punti
- Blocco di Fusione CDSM
- Risultati Sperimentali
- Conclusione
- Fonte originale
I veicoli moderni stanno sempre più utilizzando la tecnologia per diventare più autonomi. Anche se non hanno ancora raggiunto l'autonomia totale, i ricercatori stanno facendo progressi in questo campo. Uno dei principali fattori che spingono questi avanzamenti è il miglioramento del modo in cui le auto percepiscono l'ambiente circostante. Nei veicoli autonomi (AV), il sistema di percezione aiuta il veicolo a identificare e comprendere l'ambiente attorno a lui. Questo include il rilevamento di altri utenti della strada, come auto e pedoni, oltre al riconoscimento delle infrastrutture chiave, come segnali stradali e segnaletica orizzontale.
Per raggiungere questi obiettivi, gli AV si affidano a una varietà di sensori. Una configurazione tipica include una telecamera frontale ad alta risoluzione per la rilevazione generale degli oggetti, insieme a telecamere a bassa risoluzione per creare una vista completa attorno al veicolo. Inoltre, vengono utilizzati sensori LiDAR ad alta densità per misurazioni accurate delle distanze, mentre una combinazione di Radar a corto e lungo raggio aiuta a raccogliere dati su distanza e velocità.
I dati raccolti da questi sensori arrivano in forme diverse, come immagini e Nuvole di Punti. Creare un modello dell'ambiente usando questi dati grezzi dei sensori può essere piuttosto difficile. Gli algoritmi tradizionali spesso faticano a gestire i dati diversi raccolti da varie situazioni di guida nel mondo reale, ecco perché le tecniche di apprendimento automatico sono diventate essenziali per elaborare gli input dei sensori. Le reti neurali, in particolare, hanno mostrato grande promettente nell'eseguire compiti di rilevamento oggetti, superando le capacità umane di riconoscere oggetti nelle immagini. Allo stesso modo, mentre interpretare nuvole di punti da sensori LiDAR e radar può essere difficile per gli umani, le reti neurali possono facilmente trovare schemi in questi dati.
Per garantire che il sistema di percezione AV funzioni bene, vengono impiegati algoritmi di fusione dei dati. Questi algoritmi uniscono i dati dai singoli sensori per produrre un'uscita di percezione finale. Il risultato è tipicamente più affidabile poiché sfrutta i punti di forza di ciascun sensore. Nei casi in cui un sensore è bloccato o incontra problemi, l'algoritmo di fusione può fornire un ulteriore strato di sicurezza facendo affidamento sulle letture più affidabili. La fusione dei dati può essere categorizzata in due tipi principali: fusione ad alto livello e fusione a basso livello. La fusione ad alto livello combina le informazioni sugli oggetti rilevati da diversi sensori, mentre la fusione a basso livello lavora con flussi di dati grezzi.
Fusione dei sensori
Importanza dellaPer i veicoli autonomi, la fusione a basso livello solitamente coinvolge immagini e dati di nuvole di punti. Le immagini sono catturate da telecamere di livello automobilistico, che sono cruciali per il sistema di percezione, mentre le nuvole di punti provengono da sensori LiDAR e radar. Anche se entrambi producono nuvole di punti 3D con misurazioni accurate delle distanze, ci sono differenze significative tra i due tipi di sensori. Il LiDAR genera tipicamente una nuvola di punti più densa con centinaia di migliaia di punti, mentre il radar produce dati molto più sparsi con solo alcune centinaia di punti. Mentre il LiDAR è in grado di fornire informazioni dettagliate, tende a essere più costoso e meno adatto per la produzione di massa. Al contrario, i sensori radar sono più resilienti agli fattori ambientali e forniscono ulteriori informazioni sulla velocità dei punti rilevati, il che può essere molto vantaggioso per comprendere il traffico.
A causa di queste differenze, entrambi i sensori possono lavorare bene insieme alle immagini delle telecamere per fornire informazioni complementari. Tuttavia, quando si tratta di apprendimento profondo e fusione dei sensori, ci sono meno soluzioni disponibili per la fusione telecamera-radar rispetto alla fusione telecamera-LiDAR.
In questo articolo, discuteremo i metodi di fusione a basso livello telecamera-radar che sfruttano le reti neurali. Introduciamo un nuovo approccio per combinare i dati di questi sensori. Attraendo da ricerche precedenti, utilizziamo una strategia multi-view per l'elaborazione delle immagini della telecamera e l'elaborazione delle nuvole di punti radar voxel-wise. Le mappe delle caratteristiche risultanti vengono quindi combinate in un nuovo blocco di fusione a basso livello Cross-Domain Spatial Matching (CDSM) per produrre una rappresentazione a volo d'uccello (BEV). Da questa rappresentazione, i modelli di rilevamento possono creare scatole di delimitazione 3D per gli oggetti.
Rilevamento degli oggetti
Contesto sulIl rilevamento degli oggetti utilizzando le immagini della telecamera è stato uno dei primi campi ad applicare con successo le reti neurali. Da allora, i ricercatori hanno continuato a migliorare questi algoritmi introducendo nuove architetture e meccanismi per aumentare le prestazioni. I metodi di rilevamento degli oggetti possono essere divisi in due gruppi principali: quelli che operano in un piano immagine 2D e quelli che lavorano in uno spazio 3D monoculare.
Una delle architetture più conosciute nel campo dei rilevatori 2D è YOLO (You Only Look Once). Nel tempo, sono stati apportati miglioramenti per migliorare le sue prestazioni. YOLOv2 adottò un meccanismo di ancoraggio per predire le dimensioni delle scatole di delimitazione basate su dimensioni ancorate predefinite, mentre YOLOv3 incorporò un addestramento multi-scala per rilevare oggetti di varie dimensioni a diversi livelli della rete neurale. YOLOv4 ottimizzò ulteriormente l'architettura introducendo nuove strutture di backbone, meccanismi di attenzione e miglioramenti nei calcoli delle perdite.
Sebbene il rilevamento degli oggetti nello spazio 3D da un'unica immagine della telecamera sia più complesso, studi recenti hanno dimostrato che specifiche architetture di rete neurale possono produrre risultati significativi. Ad esempio, il metodo CenterNet separa il rilevamento degli oggetti 3D in due fasi: predire il centro per un cubo in un'immagine data e poi regredire ulteriori parametri 3D come profondità e angoli di rotazione.
Elaborazione delle Nuvole di Punti
I dati delle nuvole di punti provenienti da sensori come LiDAR e radar consistono in un elenco di punti con caratteristiche corrispondenti, come intensità per il LiDAR o velocità per il radar. Elaborare le nuvole di punti con le reti neurali presenta alcune sfide, principalmente perché la rete deve gestire variazioni nell'ordine dei dati. L'elenco di punti può variare in lunghezza e può essere sparso nello spazio 3D.
Per affrontare questi problemi, si possono utilizzare due approcci: metodi punto-wise e voxel-wise. Gli approcci punto-wise estraggono caratteristiche da ciascun punto utilizzando strati di trasformazione, mentre i metodi voxel-wise aggregano i punti in cubi più piccoli o voxel. Il metodo VoxelNet divide lo spazio in cubi più piccoli e elabora questi voxel per ridurre il carico computazionale. PointPillars migliora questo approccio impilando voxel lungo l'asse Z, rendendo possibile utilizzare convoluzioni 2D più veloci invece delle convoluzioni 3D.
Il rilevamento degli oggetti 3D solo radar è meno comune, ma lavori recenti si sono concentrati sull'uso delle rilevazioni di picco radar per creare nuvole di punti sparse che possono essere elaborate per il rilevamento degli oggetti 3D.
Tecniche di Fusione dei Sensori
Gli algoritmi di fusione combinano i dati provenienti da diversi sensori per ottenere prestazioni migliorate. Questo è particolarmente vero per immagini e nuvole di punti, poiché le telecamere e i sensori LiDAR o radar percepiscono l'ambiente in modi complementari. Date le differenze nel modo in cui questi sensori catturano i dati, unire le informazioni può essere difficile.
Nei setup multi-view, i dati di ciascun sensore vengono elaborati da una sottorete distinta per ottenere mappe di caratteristiche specifiche per la vista. Queste mappe vengono tipicamente combinate in una rete di proposta di regione di fusione per identificare aree di interesse per il rilevamento degli oggetti. Il processo di fusione mira a unire informazioni dettagliate in modo efficace durante il processo di addestramento.
Un altro approccio alla fusione migliora la vista frontale dei dati LiDAR incorporando informazioni sui pixel della Camera. Questo metodo implica la creazione di una vista frontale fusa che viene elaborata da una rete neurale, consentendo un approccio più integrato al rilevamento degli oggetti.
Nonostante i progressi nella fusione dei dati LiDAR e delle immagini delle telecamere, rimangono poche soluzioni che combinano efficacemente le immagini delle telecamere con le nuvole di punti radar. Alcuni metodi esistenti migliorano le immagini delle telecamere con rilevazioni radar proiettate, mentre altri hanno esplorato configurazioni multi-sensore per una maggiore accuratezza nel rilevamento degli oggetti.
Metodologia di Fusione Proposta
Il nostro approccio alla fusione dei sensori adotta un setup multi-view. Utilizziamo architetture di rete separate per l'elaborazione delle immagini delle telecamere e delle nuvole di punti radar. Le immagini vengono elaborate in un dominio 2D e i dati delle nuvole di punti vengono elaborati in uno spazio 3D.
L'elemento centrale della nostra innovazione è il blocco di fusione Cross-Domain Spatial Matching (CDSM). Questo blocco ha lo scopo di allineare i dati dei diversi domini dei sensori in modo che possano essere combinati efficacemente.
Architettura della Rete Immagine
Per l'elaborazione delle immagini della telecamera, abbiamo progettato un rilevatore a singola fase basato sull'architettura EfficientDet. Questo modello consiste in un backbone EfficientNetV2 per l'estrazione delle caratteristiche, un BiFPN per aggregare le caratteristiche e teste di classificazione e regressione per predire classi di oggetti e scatole di delimitazione. La risoluzione di input per le immagini è stata regolata per corrispondere al rapporto d'aspetto del dataset, e le caratteristiche sono state estratte da varie fasi della rete per accogliere diverse dimensioni degli oggetti.
Architettura della Rete Nuvola di Punti
Per l'elaborazione delle nuvole di punti radar, ci siamo ispirati alle tecniche di elaborazione delle nuvole di punti LiDAR. Abbiamo diviso lo spazio 3D in una griglia voxel e calcolato le caratteristiche in base ai punti radar in ciascun voxel. Simile alla rete immagine, la rete nuvola di punti contiene anch'essa un backbone, un blocco BiFPN e teste di previsione. Tuttavia, a causa della natura sparsa delle nuvole di punti radar, sono state apportate modifiche per ottimizzare l'architettura per l'elaborazione di questi dati.
Blocco di Fusione CDSM
L'innovazione principale del nostro approccio è il blocco di fusione CDSM, che si concentra sull'allineamento dei dati dei sensori della telecamera e del radar. Utilizziamo un sistema di coordinate del veicolo (VCS) per posizionare entrambe le letture dei sensori in uno spazio unificato. Questo assicura che le informazioni provenienti da entrambi i sensori siano correttamente orientate prima di essere fuse.
Nel blocco CDSM, il primo passo implica l'allineamento delle mappe delle caratteristiche della telecamera per corrispondere all'orientamento della nuvola di punti radar. Questo viene realizzato attraverso uno strato di rotazione personalizzato che applica rotazioni quaternion per ottenere l'allineamento spaziale. Una volta che le caratteristiche sono allineate, possiamo combinare i dati provenienti da entrambi i sensori in modo efficace.
La fase successiva implica l'aggregazione delle mappe delle caratteristiche della telecamera in una singola rappresentazione BEV. Questo è seguito da un processo di affinamento che migliora le caratteristiche attraverso diversi strati convoluzionali, permettendo la creazione di mappe di caratteristiche di livello superiore. Infine, le mappe di caratteristiche aggregate e affinate dalla telecamera vengono concatenate con le caratteristiche radar per produrre una singola rappresentazione 3D. Questi dati combinati vengono poi elaborati attraverso un secondo blocco BiFPN per fornire previsioni 3D finali per il rilevamento degli oggetti.
Risultati Sperimentali
Abbiamo condotto esperimenti utilizzando il dataset NuScenes, che contiene dati di guida nel mondo reale raccolti in vari ambienti. Per la nostra ricerca, ci siamo concentrati su dati provenienti da una telecamera RGB frontale, insieme a letture da sensori LiDAR e radar.
Per preparare i dati all'elaborazione, abbiamo ridimensionato le immagini della telecamera e mappato le coordinate nuvola di punti radar a un VCS definito. Abbiamo anche filtrato le etichette in base alla visibilità e alle rilevazioni radar per creare un set di addestramento coerente focalizzato sugli oggetti auto.
L'addestramento ha coinvolto la creazione di modelli separati per il rilevamento della telecamera e del radar, nonché un modello di fusione multi-sensore combinato con il blocco CDSM. Abbiamo monitorato le prestazioni utilizzando la metrica della precisione media (mAP), che valuta l'accuratezza del rilevamento degli oggetti basata sulle relazioni precisione-richiamo.
I risultati hanno dimostrato che il modello di fusione CDSM ha superato significativamente entrambi i modelli a singolo sensore. Mentre il modello solo visione ha raggiunto alti tassi di rilevamento, ha faticato con la stima della profondità. Il modello radar forniva posizionamenti accurati ma mancava di frequenza nel rilevamento. Il modello di fusione ha sfruttato i punti di forza di entrambi i sistemi, offrendo previsioni migliorate sia in termini di posizione che di dimensioni per gli oggetti rilevati.
Inoltre, il nostro modello di fusione ha superato le soluzioni esistenti all'avanguardia nel dominio del rilevamento degli oggetti 3D. Abbiamo confrontato le prestazioni rispetto ad altri metodi basati sulla metrica mAP, rivelando che il nostro approccio ha raggiunto risultati eccezionali all'interno della configurazione telecamera-radar.
Conclusione
In questo pezzo, ci siamo concentrati sulla fusione dei dati dei sensori provenienti da telecamere e dispositivi radar per applicazioni di veicoli autonomi. Abbiamo esaminato il lavoro pertinente nel rilevamento degli oggetti con un singolo sensore e nelle soluzioni di fusione. Il nostro metodo proposto, che presenta l'approccio Cross-Domain Spatial Matching (CDSM), ha mostrato risultati promettenti sul dataset NuScenes.
I risultati dei nostri esperimenti evidenziano i vantaggi della fusione dei sensori, in particolare nel migliorare le prestazioni e l'accuratezza del rilevamento in vari scenari. Anche se i nostri risultati sono promettenti, c'è potenziale per ulteriori miglioramenti, specialmente applicando tecniche di apprendimento automatico direttamente ai dati radar. Man mano che la ricerca in questo campo continua, possiamo aspettarci progressi che sosterranno lo sviluppo di veicoli autonomi più sicuri e più efficienti.
Titolo: Cross-Domain Spatial Matching for Camera and Radar Sensor Data Fusion in Autonomous Vehicle Perception System
Estratto: In this paper, we propose a novel approach to address the problem of camera and radar sensor fusion for 3D object detection in autonomous vehicle perception systems. Our approach builds on recent advances in deep learning and leverages the strengths of both sensors to improve object detection performance. Precisely, we extract 2D features from camera images using a state-of-the-art deep learning architecture and then apply a novel Cross-Domain Spatial Matching (CDSM) transformation method to convert these features into 3D space. We then fuse them with extracted radar data using a complementary fusion strategy to produce a final 3D object representation. To demonstrate the effectiveness of our approach, we evaluate it on the NuScenes dataset. We compare our approach to both single-sensor performance and current state-of-the-art fusion methods. Our results show that the proposed approach achieves superior performance over single-sensor solutions and could directly compete with other top-level fusion methods.
Autori: Daniel Dworak, Mateusz Komorkiewicz, Paweł Skruch, Jerzy Baranowski
Ultimo aggiornamento: 2024-04-25 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2404.16548
Fonte PDF: https://arxiv.org/pdf/2404.16548
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.