ReBound : Un outil pratique pour l'étiquetage 3D dans les voitures autonomes
ReBound simplifie l'étiquetage 3D pour améliorer la détection d'objets dans les voitures autonomes.
― 8 min lire
Table des matières
Ces dernières années, entraîner des ordinateurs à reconnaître des objets dans des environnements 3D est devenu super important, surtout pour les voitures autonomes. Ces voitures ont besoin de voir et de comprendre leur environnement pour conduire en toute sécurité. Les chercheurs étudient comment apprendre à ces voitures à détecter des choses comme d'autres véhicules, des piétons et des panneaux de signalisation en utilisant de grands ensembles d'exemples, appelés ensembles de données. Parmi les ensembles de données bien connus utilisés pour ça, on trouve nuScenes et Argoverse 2.0. Cependant, ces ensembles de données ont souvent des étiquettes manquantes ou incorrectes. Ça veut dire que certains objets dans les images ou les scans peuvent ne pas être bien marqués, ce qui complique l'apprentissage de la voiture pour voir avec précision.
Le Problème des Ensembles de Données Existants
La plupart du temps, quand on regarde une scène avec un LiDAR (qui mesure les distances avec de la lumière) ou des caméras, il y a plein d'objets autour. Ces objets doivent être bien étiquetés pour entraîner le système de détection efficacement. Malheureusement, dans certains ensembles de données, les objets qui sont loin ne sont pas toujours étiquetés correctement. Par exemple, dans l'ensemble de données nuScenes, tout ce qui est au-delà de 50 mètres peut ne pas être étiqueté de manière cohérente. Ça peut poser des problèmes quand on veut que la voiture détecte des choses de loin, comme des panneaux de rue ou des feux de circulation, qui sont cruciaux pour conduire en toute sécurité.
Corriger manuellement ces étiquettes, c'est pas facile. Avec des images 2D, il est difficile de savoir exactement à quelle distance se trouve quelque chose, tandis que les Nuages de points 3D du LiDAR peuvent être compliqués parce que les données peuvent être rares. Ça rend l'identification des objets difficile, surtout ceux qui sont plus loin ou cachés parmi d'autres choses.
Il existe des services qui peuvent aider avec ce marquage, mais ça peut coûter cher. De ce fait, plusieurs outils ont été créés pour rendre le marquage rapide et facile, mais ils ne supportent souvent pas beaucoup de formats de données différents. En plus, ils n’offrent pas toujours une analyse plus approfondie ou un Apprentissage Actif, où le système apprend de ses erreurs et s'améliore avec le temps.
Présentation de ReBound
Pour régler ces problèmes, on a créé ReBound, un outil gratuit conçu pour le marquage 3D. Cet outil permet aux utilisateurs d’ajouter, de modifier ou de supprimer des étiquettes dans des ensembles de données existants ou à partir de Prédictions faites par des modèles informatiques. Avec ReBound, les utilisateurs peuvent adapter les étiquettes pour mieux répondre à leurs besoins, surtout pour des fins d'apprentissage.
ReBound prend en charge différents ensembles de données, y compris nuScenes, Waymo et Argoverse 2.0. Il peut convertir les formats spécifiques utilisés par ces ensembles de données en un format général qui est facilement gérable et compréhensible. Comme ça, les utilisateurs peuvent travailler avec différents types de données sans se perdre dans des problèmes de formatage.
Comment ReBound Fonctionne
ReBound a plusieurs fonctionnalités qui facilitent le marquage et la visualisation des données 3D. L'outil a trois sections principales : une fenêtre de contrôle, un visualiseur de nuages de points et un visualiseur d'images RGB. La fenêtre de contrôle permet aux utilisateurs de naviguer entre différents cadres de données, tandis que le visualiseur de nuages de points affiche les données 3D et les annotations. Les utilisateurs peuvent zoomer, dézoomer et faire pivoter la vue pour voir les objets sous différents angles.
En utilisant ReBound, les utilisateurs peuvent directement cliquer sur des points dans la vue 3D pour ajouter de nouvelles étiquettes, modifier celles qui existent ou supprimer des étiquettes qui ne sont plus nécessaires. Pour faire ces changements, il suffit de sélectionner une boîte 3D représentant un objet et d'ajuster sa position, sa taille et son orientation via la fenêtre de contrôle. Ces modifications sont instantanément reflétées dans les fenêtres de visualisation, ce qui rend clair les ajustements effectués.
L'outil permet deux types de mouvements : des changements horizontaux, qui permettent de déplacer des objets à gauche ou à droite, et des changements verticaux, qui permettent d'ajuster la hauteur ou l'orientation. Ainsi, les utilisateurs peuvent faire des ajustements précis ou créer de nouvelles étiquettes d'un simple clic.
ReBound simplifie non seulement le processus de marquage mais permet aussi aux utilisateurs d'analyser la qualité des prédictions faites par les modèles. Les utilisateurs peuvent voir quels objets détectés pourraient avoir besoin d'être corrigés en fonction de la précision des prédictions du modèle, rendant le processus d'apprentissage plus fluide et efficace.
Support de l'Apprentissage Actif
Un des gros avantages de ReBound, c'est qu'il supporte l'apprentissage actif. L'apprentissage actif est une méthode pour améliorer la performance des modèles en se concentrant sur les exemples les plus importants. Au lieu de marquer chaque image ou scan, cette approche permet aux chercheurs de n'étiqueter que les points de données les plus informatifs. En se concentrant sur les données sur lesquelles le modèle n’est pas sûr, les utilisateurs peuvent rapidement améliorer la précision du système.
ReBound aide dans ce processus en permettant aux utilisateurs de filtrer les prédictions en fonction de la confiance du modèle sur ses étiquettes. Ça facilite le travail des chercheurs pour concentrer leurs efforts là où c'est le plus nécessaire, garantissant que le processus d'apprentissage est efficace.
Expérience Utilisateur
Pour évaluer la facilité d'utilisation de ReBound, on a mené des sondages auprès de différents participants. On leur a demandé de réaliser plusieurs tâches avec l'outil après avoir regardé une démonstration. Les retours ont mis en lumière des points où les utilisateurs ont trouvé l'outil intuitif ainsi que des défis qu'ils ont rencontrés.
Beaucoup de participants ont trouvé que créer, modifier et supprimer des étiquettes était simple. Cependant, ils ont également indiqué que faire pivoter et traduire des boîtes 3D était plus compliqué et pouvait nécessiter un peu de pratique, surtout pour ceux qui avaient peu d'expérience avec des outils 3D.
Plusieurs participants ont mentionné que l'outil pourrait être bénéfique pour les chercheurs travaillant sur la technologie des voitures autonomes. Le fait de pouvoir ajuster facilement les étiquettes a été vu comme une fonction importante qui pourrait aider à améliorer la précision des systèmes de détection d'objets.
Visualisation des Annotations
Avec ReBound, les utilisateurs peuvent visualiser à quel point les étiquettes correspondent aux objets réels dans l'environnement. C'est crucial, car un mauvais marquage peut mener à des modèles moins précis. Par exemple, si la position d'une voiture étiquetée ne correspond pas à l'endroit où la voiture se trouve vraiment, ça pourrait embrouiller le modèle.
En utilisant ReBound, les utilisateurs peuvent facilement repérer quand une annotation est désalignée et la corriger. Par exemple, si une étiquette pour un véhicule est mal placée, les utilisateurs peuvent l'ajuster jusqu'à ce qu'elle reflète précisément la position de la vraie voiture. Ça garantit que les modèles s'entraînent sur des données de haute qualité, ce qui mène finalement à de meilleures performances.
Conclusion
La communauté académique fait constamment avancer le domaine de la détection d'objets. Cependant, les ensembles de données utilisés pour entraîner les voitures autonomes ont souvent des limitations, surtout concernant les étiquettes. ReBound fournit une solution open-source pour aider les chercheurs et développeurs à réannoter les données existantes plus facilement.
En simplifiant le processus de marquage et en soutenant l'apprentissage actif, ReBound permet aux utilisateurs d'améliorer la qualité de leurs données, menant à de meilleurs résultats dans la formation de modèles de détection d'objets 3D. Grâce aux retours des utilisateurs, on a découvert que ReBound est efficace pour permettre aux utilisateurs d'ajouter, de modifier et de supprimer rapidement des annotations, faisant de cet outil un atout utile dans le domaine en évolution des véhicules autonomes.
Titre: ReBound: An Open-Source 3D Bounding Box Annotation Tool for Active Learning
Résumé: In recent years, supervised learning has become the dominant paradigm for training deep-learning based methods for 3D object detection. Lately, the academic community has studied 3D object detection in the context of autonomous vehicles (AVs) using publicly available datasets such as nuScenes and Argoverse 2.0. However, these datasets may have incomplete annotations, often only labeling a small subset of objects in a scene. Although commercial services exists for 3D bounding box annotation, these are often prohibitively expensive. To address these limitations, we propose ReBound, an open-source 3D visualization and dataset re-annotation tool that works across different datasets. In this paper, we detail the design of our tool and present survey results that highlight the usability of our software. Further, we show that ReBound is effective for exploratory data analysis and can facilitate active-learning. Our code and documentation is available at https://github.com/ajedgley/ReBound
Auteurs: Wesley Chen, Andrew Edgley, Raunak Hota, Joshua Liu, Ezra Schwartz, Aminah Yizar, Neehar Peri, James Purtilo
Dernière mise à jour: 2023-03-10 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.06250
Source PDF: https://arxiv.org/pdf/2303.06250
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.