Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Robotique

Améliorer la détection d'objets 3D pour les voitures autonomes

Utiliser des données LiDAR historiques pour améliorer la détection 3D basée sur la caméra dans les véhicules autonomes.

― 9 min lire


Améliorer la détection 3DAméliorer la détection 3Davec LiDARles voitures autonomes.améliorer la détection d'objets dansUtiliser des données historiques pour
Table des matières

La Détection d'objets 3D précise est super importante pour les voitures autonomes. Ces véhicules doivent voir et comprendre leur environnement, y compris les autres voitures, les piétons et les obstacles, pour rouler en toute sécurité. Même si les appareils qui utilisent le LiDAR (Light Detection and Ranging) peuvent fournir des infos 3D détaillées sur l'environnement, ils sont souvent trop chers pour un usage courant dans les voitures.

Du coup, beaucoup de systèmes utilisent des caméras moins chères. Mais ces systèmes basés sur des caméras ont souvent du mal à fournir la même performance que ceux basés sur le LiDAR. C'est surtout parce que les caméras peuvent avoir du mal à mesurer la profondeur avec précision, ce qui est crucial pour détecter des objets en 3D.

Dans cet article, on va parler d'une nouvelle approche pour améliorer la détection d'objets 3D avec des caméras en utilisant des données de scans LiDAR passés. Plus précisément, on va explorer comment les données LiDAR historiques peuvent aider à améliorer les capacités de détection de ces systèmes de caméra.

Le problème avec les approches actuelles

Les capteurs LiDAR sont super pour fournir des infos 3D précises mais coûtent cher. Ça les rend impratiques pour beaucoup de voitures de consommation. D'un autre côté, même si les caméras sont plus abordables, elles sont souvent à la traîne quand il s'agit d'estimation de profondeur précise.

Quand une caméra prend une image, elle ne sait pas intrinsèquement à quelle distance se trouvent les objets. Ça peut créer de la confusion pendant la détection, surtout quand des objets sont partiellement bloqués ou quand il y a plusieurs objets proches les uns des autres. En conséquence, les systèmes basés sur des caméras peuvent louper des détails importants ou faire des suppositions incorrectes sur l'environnement.

Certaines voitures haut de gamme, comme les voitures de luxe ou les voitures de police, peuvent avoir des capteurs LiDAR installés. Quand ces véhicules circulent et collectent des données, ils créent des scans LiDAR qui contiennent des infos précieuses sur l'environnement. Si les voitures qui n'ont que des caméras dans la même zone peuvent accéder à ces données LiDAR historiques, ça soulève une question importante : Est-ce que ces données passées peuvent améliorer la détection d'objets en temps réel par les systèmes de caméras ?

Notre approche

On propose une nouvelle manière de fusionner les scans LiDAR historiques avec les données de la caméra pour améliorer la détection d'objets en 3D. Notre méthode est conçue pour être simple et compatible avec beaucoup de modèles de détection basés sur des caméras existants.

L'idée au cœur de notre approche est que même si les scans LiDAR passés ne montrent pas les objets exacts présents dans la scène actuelle, ils peuvent quand même offrir des infos de fond importantes. En analysant plusieurs passages passés au même endroit, on peut filtrer les objets temporaires et se concentrer sur les caractéristiques statiques qui restent constantes dans le temps.

Quand une caméra prend une image, on peut identifier des parties de la scène où les données actuelles ne correspondent pas aux infos de profondeur historiques collectées par le LiDAR. Ce décalage indique des objets en mouvement, ce qui facilite l'identification et la localisation de ces objets par le système de détection.

Pour les régions où les données de profondeur passées correspondent à l'image actuelle de la caméra, on peut rassembler des infos de profondeur précises pour les objets statiques, ce qui aide le système à les localiser plus précisément. Notre méthode consiste à créer des cartes de profondeur à partir des scans LiDAR passés et à utiliser ces cartes pour extraire des caractéristiques utiles qui améliorent les capacités de détection d'objets de la caméra.

Étapes de la méthode

1. Collecte et préparation des données

La première étape de notre approche est de rassembler les données LiDAR historiques. On suppose que les véhicules équipés de capteurs LiDAR ont circulé plusieurs fois dans les mêmes zones et ont collecté des scans de l'environnement. Ces données peuvent ensuite être partagées avec les véhicules qui n'ont que des caméras.

Chaque scan LiDAR historique fournit une richesse d'infos sur les alentours. En alignant ces anciens scans avec des données GPS et de localisation, on peut extraire des infos de profondeur significatives qui reflètent l'état du fond statique.

2. Création de cartes de profondeur

Ensuite, on convertit ces scans LiDAR historiques en cartes de profondeur. Une carte de profondeur est une représentation visuelle qui montre la distance de chaque point dans la scène par rapport à la caméra. On projette les points des scans LiDAR dans un système de coordonnées qui correspond à la perspective de la caméra.

Cette projection nous permet de remplir une carte de profondeur, où chaque pixel correspond à une mesure de distance de la caméra à un point dans l'environnement. Ces cartes de profondeur contiennent des informations précieuses sur le fond, qu'on peut utiliser pour améliorer les tâches de détection actuelles.

3. Extraction de caractéristiques

Une fois qu'on a les cartes de profondeur, on doit extraire des caractéristiques qui peuvent être utiles pour la détection. On fait passer les cartes de profondeur à travers un modèle d'extraction de caractéristiques, similaire à ce qui se fait avec les images de caméra. L'objectif ici est de créer une représentation des caractéristiques des cartes de profondeur qui puisse compléter les caractéristiques extraites des images actuelles de la caméra.

On combine ensuite ces caractéristiques en les regroupant à travers plusieurs passages passés. Cette étape garantit qu'on capte des informations pertinentes tout en minimisant le bruit des objets transitoires qui ont pu être présents dans les scans passés.

4. Intégration du modèle de détection

Maintenant qu'on a à la fois les caractéristiques de la caméra et les caractéristiques de profondeur, la prochaine étape est de les intégrer dans le modèle de détection d'objets. Les caractéristiques combinées servent d'entrée pour le détecteur, qui traite les infos pour identifier et localiser des objets en 3D.

Cette intégration peut être faite avec des changements minimes sur les modèles de détection existants, rendant l'approche polyvalente et facile à mettre en œuvre. L'ensemble du processus est différentiable, ce qui signifie qu'il peut être entraîné de bout en bout avec le reste du système de détection.

Évaluation de notre méthode

Pour évaluer notre méthode, on l'a testée sur deux ensembles de données réelles pour voitures autonomes. Ces ensembles contiennent plusieurs images de caméra et des scans LiDAR correspondants, fournissant un environnement riche pour l'évaluation.

On a utilisé deux modèles différents de détection d'objets 3D monoculaires pour mener nos expériences. Chaque modèle a été entraîné séparément, et on a évalué la performance en fonction de la manière dont ils pouvaient détecter des objets à différentes distances.

Résultats

Quand on a appliqué notre méthode, on a observé des améliorations constantes de performance sur les deux modèles et les ensembles de données. Notre approche a pu atteindre jusqu'à 9.5 points de précision moyenne (mAP) en détectant des objets par rapport aux modèles de référence.

Notamment, les améliorations étaient plus prononcées pour la détection à longue portée, où il est souvent plus difficile d'inférer la profondeur uniquement à partir des images de caméra. Les informations de profondeur issues des scans LiDAR historiques ont notablement aidé à détecter des objets qui étaient loin, ce qui est crucial pour garantir la sécurité des véhicules autonomes.

Comprendre les améliorations

On a analysé les gains de performance pour déterminer où notre méthode était la plus efficace. Les améliorations étaient particulièrement significatives pour détecter certaines classes d'objets, comme les bus et les vélos. Dans un ensemble de données, on a observé une amélioration de 6 points pour la détection des bus et une amélioration de 1.9 point pour les vélos.

De plus, on a regardé l'efficacité de notre approche à différentes distances. Les améliorations étaient particulièrement bénéfiques pour détecter des objets à des distances de 30 à 50 mètres. Cette distance est souvent la plus difficile pour les systèmes de caméra, et notre méthode a fourni un bon soutien dans ces scénarios.

Conclusions et travaux futurs

Notre recherche montre que l'utilisation de scans LiDAR passés peut grandement booster les capacités des systèmes de détection d'objets 3D uniquement avec des caméras. En tirant parti des Données historiques, on peut surmonter certaines des limitations associées à l'estimation de profondeur à partir des images seules.

La méthode qu'on propose est légère et efficace, ce qui en fait un ajout précieux aux systèmes existants. À l'avenir, il y a un potentiel pour affiner encore cette technique et explorer son application dans divers scénarios du monde réel.

Les travaux futurs pourraient impliquer de tester notre approche dans des environnements et conditions plus diversifiés pour évaluer sa robustesse. Il y a aussi de la place pour enquêter sur la manière dont des types et sources de données supplémentaires pourraient encore améliorer les systèmes de détection en conduite autonome.

En intégrant des données historiques dans les frameworks de détection modernes, on peut se rapprocher de l'objectif d'une technologie de conduite autonome plus sûre et plus fiable pour un usage quotidien.

Source originale

Titre: Better Monocular 3D Detectors with LiDAR from the Past

Résumé: Accurate 3D object detection is crucial to autonomous driving. Though LiDAR-based detectors have achieved impressive performance, the high cost of LiDAR sensors precludes their widespread adoption in affordable vehicles. Camera-based detectors are cheaper alternatives but often suffer inferior performance compared to their LiDAR-based counterparts due to inherent depth ambiguities in images. In this work, we seek to improve monocular 3D detectors by leveraging unlabeled historical LiDAR data. Specifically, at inference time, we assume that the camera-based detectors have access to multiple unlabeled LiDAR scans from past traversals at locations of interest (potentially from other high-end vehicles equipped with LiDAR sensors). Under this setup, we proposed a novel, simple, and end-to-end trainable framework, termed AsyncDepth, to effectively extract relevant features from asynchronous LiDAR traversals of the same location for monocular 3D detectors. We show consistent and significant performance gain (up to 9 AP) across multiple state-of-the-art models and datasets with a negligible additional latency of 9.66 ms and a small storage cost.

Auteurs: Yurong You, Cheng Perng Phoo, Carlos Andres Diaz-Ruiz, Katie Z Luo, Wei-Lun Chao, Mark Campbell, Bharath Hariharan, Kilian Q Weinberger

Dernière mise à jour: 2024-04-09 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.05139

Source PDF: https://arxiv.org/pdf/2404.05139

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires