ReBound: Uno Strumento Pratico per l'Etichettatura 3D nelle Auto a Guida Autonoma
ReBound semplifica l'etichettatura 3D per migliorare il riconoscimento degli oggetti nelle auto a guida autonoma.
― 6 leggere min
Indice
Negli ultimi anni, addestrare i computer a riconoscere oggetti negli ambienti 3D è diventato fondamentale, soprattutto per le auto a guida autonoma. Queste auto hanno bisogno di vedere e capire ciò che le circonda per guidare in sicurezza. I ricercatori studiano come insegnare a queste auto a rilevare cose come altri veicoli, pedoni e segnali stradali usando grandi set di esempi, noti come dataset. Alcuni dataset noti usati per questo scopo sono nuScenes e Argoverse 2.0. Tuttavia, spesso questi dataset presentano etichette mancanti o errate. Questo significa che alcuni oggetti nelle immagini o scansioni potrebbero non essere contrassegnati correttamente, il che può creare difficoltà nell'insegnare all'auto a vedere con precisione.
Il Problema con i Dataset Esistenti
La maggior parte delle volte, quando guardiamo una scena usando LiDAR (che misura le distanze usando la luce) o telecamere, ci sono molti oggetti in giro. Questi oggetti devono essere etichettati correttamente per addestrare efficacemente il sistema di rilevamento. Sfortunatamente, in alcuni dataset, gli oggetti lontani potrebbero non essere etichettati in modo accurato. Per esempio, nel dataset nuScenes, qualsiasi cosa oltre i 50 metri potrebbe non essere etichettata in modo costante. Questo può portare a problemi quando vogliamo che l'auto rilevi cose lontane, come segnali stradali o semafori, che sono importanti per una guida sicura.
Correggere manualmente queste etichette non è un compito facile. Quando si usano immagini 2D, è difficile sapere esattamente quanto sia lontano qualcosa, mentre usare Nuvole di Punti 3D da LiDAR può essere complicato poiché i dati possono essere scarsi. Questo rende difficile identificare gli oggetti, specialmente quelli più lontani o nascosti tra molte altre cose.
Ci sono servizi che possono aiutare con questa etichettatura, ma possono essere molto costosi. Di conseguenza, sono stati creati diversi strumenti per rendere l'etichettatura veloce e semplice, ma spesso non supportano molti formati di dati diversi. Inoltre, potrebbero non consentire un'analisi più profonda o un Apprendimento Attivo, dove il sistema impara dai suoi errori e migliora nel tempo.
Introducendo ReBound
Per affrontare questi problemi, abbiamo creato ReBound, uno strumento gratuito progettato per l'etichettatura 3D. Questo strumento consente agli utenti di aggiungere, modificare o eliminare etichette in dataset esistenti o da previsioni fatte da modelli informatici. Con ReBound, gli utenti possono modificare le etichette in modo che si adattino meglio alle loro esigenze, soprattutto per scopi di apprendimento.
ReBound supporta diversi dataset, tra cui nuScenes, Waymo e Argoverse 2.0. Può convertire i formati specifici utilizzati da questi dataset in un formato generale che può essere facilmente gestito e compreso. In questo modo, gli utenti possono lavorare con diversi tipi di dati senza incorrere in problemi di formattazione.
Come Funziona ReBound
ReBound include diverse funzionalità che rendono più facile etichettare e visualizzare dati 3D. Lo strumento ha tre sezioni principali: una finestra di controllo, un visualizzatore di nuvole di punti e un visualizzatore di immagini RGB. La finestra di controllo consente agli utenti di spostarsi tra diverse sequenze di dati, mentre il visualizzatore di nuvole di punti mostra i dati 3D e eventuali annotazioni. Gli utenti possono ingrandire, rimpicciolire e ruotare la vista per vedere gli oggetti da angolazioni diverse.
Usando ReBound, gli utenti possono cliccare direttamente sui punti nella vista 3D per aggiungere nuove etichette, modificare quelle esistenti o eliminare etichette che non sono più necessarie. Per apportare queste modifiche, gli utenti possono semplicemente selezionare una casella 3D che rappresenta un oggetto e regolare la sua posizione, dimensione e orientamento tramite la finestra di controllo. Queste modifiche sono immediatamente riflesse nelle finestre di visualizzazione, rendendo chiari i cambiamenti apportati.
Lo strumento consente due tipi di movimento: cambiamenti orizzontali, che permettono agli utenti di spostare gli oggetti a sinistra o a destra, e cambiamenti verticali, che consentono agli utenti di regolare l'altezza o l'orientamento. In questo modo, gli utenti possono apportare aggiustamenti precisi o creare nuove etichette con un semplice clic.
ReBound non solo semplifica il processo di etichettatura, ma consente anche agli utenti di analizzare la qualità delle previsioni fatte dai modelli. Gli utenti possono vedere quali oggetti rilevati potrebbero avere bisogno di correzioni in base a quanto siano accurate le previsioni del modello, rendendo il processo di apprendimento più fluido ed efficace.
Supportando l'Apprendimento Attivo
Uno dei principali vantaggi di ReBound è come supporta l'apprendimento attivo. L'apprendimento attivo è un modo per migliorare le prestazioni del modello concentrandosi sui casi più importanti. Invece di etichettare ogni singola immagine o scansione, questo approccio consente ai ricercatori di etichettare solo i punti dati più informativi. Concentrandosi sui dati su cui il modello ha incertezze, gli utenti possono migliorare rapidamente l'accuratezza del sistema.
ReBound aiuta in questo processo consentendo agli utenti di filtrare le previsioni in base a quanto il modello è sicuro delle sue etichette. Questo rende più facile per i ricercatori concentrare i loro sforzi dove sono più necessari, assicurando che il processo di apprendimento sia efficiente ed efficace.
Esperienza dell'Utente
Per valutare quanto sia facile usare ReBound, abbiamo condotto sondaggi con vari partecipanti. Abbiamo chiesto loro di eseguire diversi compiti con lo strumento dopo aver visto una dimostrazione. I feedback hanno evidenziato aree in cui gli utenti hanno trovato lo strumento intuitivo e le sfide che hanno affrontato.
Molti partecipanti hanno trovato che creare, modificare ed eliminare etichette fosse semplice. Tuttavia, hanno anche indicato che ruotare e traslare le caselle 3D era più difficile e potrebbe richiedere un po' di pratica, soprattutto per chi aveva poca esperienza con strumenti 3D.
Diversi partecipanti hanno menzionato che lo strumento potrebbe essere utile per i ricercatori che lavorano sulla tecnologia di guida autonoma. Essere in grado di modificare facilmente le etichette è stato visto come una funzione importante che potrebbe aiutare a migliorare l'accuratezza dei sistemi di rilevamento degli oggetti.
Visualizzare le Annotazioni
Usando ReBound, gli utenti possono visualizzare quanto bene le etichette corrispondano agli oggetti reali nell'ambiente. Questo è cruciale, poiché etichette errate possono portare a modelli meno accurati. Ad esempio, se la posizione di un'auto etichettata non corrisponde a dove si trova realmente l'auto, potrebbe confondere il modello.
Utilizzando ReBound, gli utenti possono facilmente individuare quando un'annotazione è disallineata e correggerla. Ad esempio, se un'etichetta per un veicolo è posizionata in modo errato, gli utenti possono aggiustarla finché non riflette accuratamente la posizione dell'auto reale. Questo assicura che i modelli si allenino su dati di alta qualità, il che porta ultimamente a prestazioni migliori.
Conclusione
La comunità accademica sta facendo continuamente progressi nel campo del rilevamento degli oggetti. Tuttavia, i dataset utilizzati per addestrare le auto a guida autonoma presentano spesso limitazioni, soprattutto per quanto riguarda le etichette. ReBound offre una soluzione open-source per aiutare ricercatori e sviluppatori a riannotare più facilmente i dati esistenti.
Semplificando il processo di etichettatura e supportando l'apprendimento attivo, ReBound consente agli utenti di migliorare la qualità dei loro dati, portando a risultati migliori nell'addestramento di modelli di rilevamento degli oggetti 3D. Attraverso il feedback degli utenti, abbiamo scoperto che ReBound è efficace nel consentire agli utenti di aggiungere, modificare ed eliminare rapidamente annotazioni, rendendolo uno strumento utile nel campo in evoluzione dei veicoli autonomi.
Titolo: ReBound: An Open-Source 3D Bounding Box Annotation Tool for Active Learning
Estratto: In recent years, supervised learning has become the dominant paradigm for training deep-learning based methods for 3D object detection. Lately, the academic community has studied 3D object detection in the context of autonomous vehicles (AVs) using publicly available datasets such as nuScenes and Argoverse 2.0. However, these datasets may have incomplete annotations, often only labeling a small subset of objects in a scene. Although commercial services exists for 3D bounding box annotation, these are often prohibitively expensive. To address these limitations, we propose ReBound, an open-source 3D visualization and dataset re-annotation tool that works across different datasets. In this paper, we detail the design of our tool and present survey results that highlight the usability of our software. Further, we show that ReBound is effective for exploratory data analysis and can facilitate active-learning. Our code and documentation is available at https://github.com/ajedgley/ReBound
Autori: Wesley Chen, Andrew Edgley, Raunak Hota, Joshua Liu, Ezra Schwartz, Aminah Yizar, Neehar Peri, James Purtilo
Ultimo aggiornamento: 2023-03-10 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.06250
Fonte PDF: https://arxiv.org/pdf/2303.06250
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.