Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans la fusion de capteurs pour les véhicules autonomes

On fusionne les données de la caméra et du radar pour une meilleure détection d'objets dans les véhicules autonomes.

― 14 min lire


Fusion de la caméra et duFusion de la caméra et duradarconduite autonome.Améliorer la détection d'objets dans la
Table des matières

Les véhicules modernes utilisent de plus en plus la technologie pour devenir plus autonomes. Même s'ils n'ont pas encore atteint une autonomie totale, les chercheurs avancent dans ce domaine. L'un des principaux facteurs qui poussent ces avancées, c'est l'amélioration de la façon dont les voitures perçoivent leur environnement. Dans les véhicules autonomes (AV), le système de perception aide le véhicule à identifier et à comprendre l'environnement qui l'entoure. Ça inclut la détection des autres usagers de la route, comme les voitures et les piétons, ainsi que la reconnaissance des infrastructures clés, comme les panneaux de signalisation et les marquages de voie.

Pour réaliser ces tâches, les AV dépendent d'une variété de capteurs. Une configuration typique comprend une caméra frontale haute résolution pour la Détection d'objets en général, accompagnée de Caméras de résolution plus basse pour créer une vue complète autour du véhicule. De plus, des capteurs LiDAR à haute densité sont utilisés pour des mesures de distance précises, tandis qu'une combinaison de Radars à courte et longue portée aide à recueillir des données sur la distance et la vitesse.

Les données collectées par ces capteurs se présentent sous différentes formes, comme des images et des Nuages de points. Créer un modèle de l'environnement à partir de ces données brutes peut être assez difficile. Les algorithmes traditionnels ont souvent du mal à gérer la diversité des données recueillies dans diverses situations de conduite réelles, c'est pourquoi les techniques d'apprentissage automatique sont devenues essentielles pour traiter les entrées des capteurs. Les réseaux neuronaux, en particulier, ont montré une grande promesse dans l'exécution de tâches de détection d'objets, surpassant les capacités humaines à reconnaître des objets dans des images. De même, même si l'interprétation des nuages de points issus des capteurs LiDAR et radar peut être un défi pour les humains, les réseaux neuronaux peuvent facilement trouver des motifs dans ces données.

Pour s'assurer que le système de perception des AV fonctionne bien, des algorithmes de fusion de données sont utilisés. Ces algorithmes fusionnent les données des capteurs individuels pour produire une sortie de perception finale. Le résultat est généralement plus fiable, car il tire parti des forces de chaque capteur. Dans les cas où un capteur est bloqué ou rencontre des problèmes, l'algorithme de fusion peut fournir une couche de sécurité supplémentaire en s'appuyant sur les mesures les plus fiables. La fusion de données peut être catégorisée en deux types principaux : fusion à haut niveau et fusion à bas niveau. La fusion à haut niveau combine des informations sur les objets détectés provenant de différents capteurs, tandis que la fusion à bas niveau traite des flux de données brutes.

Importance de la Fusion de capteurs

Pour les véhicules autonomes, la fusion à bas niveau implique généralement des images et des données de nuages de points. Les images sont capturées par des caméras de qualité automobile, qui sont cruciales pour le système de perception, tandis que les nuages de points proviennent des capteurs LiDAR et radar. Bien que les deux produisent des nuages de points 3D avec des mesures de distance précises, il existe des différences significatives entre les deux types de capteurs. Le LiDAR génère généralement un nuage de points plus dense avec des centaines de milliers de points, tandis que le radar produit des données beaucoup plus clairsemées avec seulement quelques centaines de points. Bien que le LiDAR soit capable de fournir des informations détaillées, il tend à être plus coûteux et moins adapté à la production de masse. En revanche, les capteurs radar sont plus résistants aux facteurs environnementaux et fournissent des informations supplémentaires sur la vitesse des points détectés, ce qui peut être très bénéfique pour comprendre le trafic.

À cause de ces différences, les deux capteurs peuvent bien fonctionner ensemble avec les images de caméra pour fournir des informations complémentaires. Cependant, en ce qui concerne l'apprentissage profond et la fusion de capteurs, il existe moins de solutions disponibles pour la fusion caméra-radar comparativement à la fusion caméra-LiDAR.

Dans cet article, nous discutons des méthodes de fusion caméra-radar à bas niveau qui tirent parti des réseaux neuronaux. Nous introduisons une nouvelle approche pour combiner les données de ces capteurs. En nous basant sur des recherches précédentes, nous utilisons une stratégie multi-vue pour le traitement des caméras et le traitement des nuages de points radar voxel par voxel. Les cartes de caractéristiques résultantes sont ensuite combinées dans un nouveau bloc de fusion à bas niveau Cross-Domain Spatial Matching (CDSM) pour produire une représentation en vue aérienne (BEV). À partir de cette représentation, les modèles de détection peuvent créer des boîtes de délimitation 3D pour les objets.

Contexte sur la détection d'objets

La détection d'objets à l'aide d'images de caméra était l'un des premiers domaines à appliquer avec succès des réseaux neuronaux. Depuis lors, les chercheurs ont continuellement amélioré ces algorithmes en introduisant de nouvelles architectures et mécanismes pour augmenter les performances. Les méthodes de détection d'objets peuvent être divisées en deux groupes principaux : celles qui opèrent dans un plan d'image 2D et celles qui travaillent dans un espace 3D monoculaire.

Une architecture bien connue dans le domaine des détecteurs 2D est YOLO (You Only Look Once). Au fil du temps, des améliorations ont été apportées pour optimiser ses performances. YOLOv2 a adopté un mécanisme de boîte d'ancrage pour prédire les tailles de boîtes de délimitation en fonction de tailles d'ancrage prédéfinies, tandis que YOLOv3 a incorporé un entraînement multi-échelle pour détecter des objets de différentes tailles à différents niveaux du réseau de neurones. YOLOv4 a encore optimisé l'architecture en introduisant de nouvelles structures de backbone, des mécanismes d'attention, et des calculs de perte améliorés.

Bien que détecter des objets dans un espace 3D à partir d'une seule image de caméra soit plus complexe, des études récentes ont montré que certaines architectures de réseaux neuronaux peuvent produire des résultats significatifs. Par exemple, la méthode CenterNet sépare la détection d'objets 3D en deux étapes : prédire le centre d'un cuboïde dans une image donnée, puis régresser d'autres paramètres 3D tels que la profondeur et les angles de rotation.

Traitement des nuages de points

Les données de nuages de points provenant de capteurs comme le LiDAR et le radar consistent en une liste de points avec des caractéristiques correspondantes, telles que l'intensité pour le LiDAR ou les vitesses pour le radar. Traiter des nuages de points avec des réseaux neuronaux pose certains défis, principalement parce que le réseau doit gérer des variations dans l'ordre des données. La liste de points peut varier en longueur et peut être clairsemée dans l'espace 3D.

Pour relever ces défis, deux approches peuvent être utilisées : les méthodes point par point et voxel par voxel. Les approches point par point extraient des caractéristiques de chaque point à l'aide de couches de transformation, tandis que les méthodes voxel par voxel agrègent les points en petits cuboïdes ou voxels. La méthode VoxelNet divise l'espace en cubes plus petits et traite ces voxels pour minimiser la charge de calcul. PointPillars améliore cette approche en empilant les voxels le long de l'axe Z, rendant possible l'utilisation de convolutions 2D plus rapides plutôt que de convolutions 3D.

La détection d'objets 3D uniquement par radar est moins courante, mais des travaux récents se sont concentrés sur l'utilisation des détections de pics radar pour créer des nuages de points clairsemés qui peuvent être traités pour la détection d'objets 3D.

Techniques de fusion de capteurs

Les algorithmes de fusion combinent des données provenant de différents capteurs pour obtenir de meilleures performances. C'est particulièrement vrai pour les images et les nuages de points, car les caméras et les capteurs LiDAR ou radar perçoivent l'environnement de manière complémentaire. Étant donné les différences dans la façon dont ces capteurs capturent les données, fusionner les informations peut être un défi.

Dans des configurations multi-vues, les données de chaque capteur sont traitées par un sous-réseau distinct pour obtenir des cartes de caractéristiques spécifiques à la vue. Ces cartes sont généralement combinées dans un réseau de propositions de fusion de région pour identifier les régions d'intérêt pour la détection d'objets. Le processus de fusion vise à fusionner des informations détaillées de manière efficace tout au long du processus d'entraînement.

Une autre approche de fusion améliore la vue frontale des données LiDAR en incorporant des informations de pixels de caméra. Cette méthode consiste à créer une vue frontale fusionnée qui est traitée par un réseau neuronal, permettant une approche plus intégrée de la détection d'objets.

Malgré les progrès réalisés dans la fusion des données LiDAR et des images de caméra, il reste peu de solutions qui combinent efficacement les images de caméra avec les nuages de points radar. Certaines méthodes existantes améliorent les images de caméra avec des détections radar projetées, tandis que d'autres ont exploré des configurations multi-capteurs pour améliorer la précision de détection des objets.

Méthodologie de fusion proposée

Notre approche de fusion de capteurs adopte une configuration multi-vues. Nous utilisons des architectures de réseau séparées pour le traitement des images de caméra et des nuages de points radar. Les images sont traitées dans un domaine 2D, et les données de nuages de points sont traitées dans un espace 3D.

L'élément clé de notre innovation est le bloc de fusion Cross-Domain Spatial Matching (CDSM). Ce bloc vise à aligner les données des différents domaines de capteurs afin qu'elles puissent être combinées de manière efficace.

Architecture du réseau d'images

Pour le traitement des images de caméra, nous avons conçu un détecteur à une seule étape basé sur l'architecture EfficientDet. Ce modèle comprend un backbone EfficientNetV2 pour l'extraction des caractéristiques, un BiFPN pour l'agrégation des caractéristiques, et des têtes de classification et de régression pour prédire les classes d'objets et les boîtes de délimitation. La résolution d'entrée pour les images a été ajustée pour correspondre au rapport d'aspect du jeu de données, et des caractéristiques ont été extraites de différentes étapes du réseau pour tenir compte des tailles d'objets variées.

Architecture du réseau de nuages de points

Pour le traitement des nuages de points radar, nous nous sommes inspirés des techniques de traitement des nuages de points LiDAR. Nous avons divisé l'espace 3D en une grille de voxels et calculé des caractéristiques basées sur les points radar dans chaque voxel. Semblable au réseau d'images, le réseau de nuages de points contient également un backbone, un bloc BiFPN et des têtes de prédiction. Cependant, en raison de la nature clairsemée des nuages de points radar, des ajustements ont été apportés pour optimiser l'architecture pour le traitement de ces données.

Bloc de fusion CDSM

L'innovation principale dans notre approche est le bloc de fusion CDSM, qui se concentre sur l'alignement des données des capteurs de la caméra et du radar. Nous utilisons un système de coordonnées de véhicule (VCS) pour positionner les lectures des deux capteurs dans un espace unifié. Cela garantit que les informations des deux capteurs sont correctement orientées avant d'être fusionnées.

Dans le bloc CDSM, la première étape consiste à aligner les cartes de caractéristiques de la caméra pour correspondre à l'orientation du nuage de points radar. Cela est réalisé grâce à une couche de rotation personnalisée qui applique des rotations quaternion pour obtenir un alignement spatial. Une fois les caractéristiques alignées, nous pouvons combiner les données des deux capteurs de manière efficace.

La prochaine étape consiste à agréger les cartes de caractéristiques de la caméra en une seule représentation BEV. Cela est suivi d'un processus de raffinement qui améliore les caractéristiques à travers plusieurs couches de convolution, permettant de créer des cartes de caractéristiques de niveau supérieur. Enfin, les cartes de caractéristiques agrégées et raffinées de la caméra sont concaténées avec les caractéristiques radar pour produire une seule représentation 3D. Ces données combinées sont ensuite traitées à travers un second bloc BiFPN pour obtenir des prédictions finales en 3D pour la détection d'objets.

Résultats expérimentaux

Nous avons réalisé des expériences en utilisant le jeu de données NuScenes, qui contient des données de conduite réelles recueillies dans divers environnements. Pour notre recherche, nous nous sommes concentrés sur les données d'une caméra RGB de vue frontale, ainsi que sur les lectures des capteurs LiDAR et radar.

Pour préparer les données au traitement, nous avons redimensionné les images de la caméra et mappé les coordonnées du nuage de points radar à un VCS défini. Nous avons également filtré les étiquettes en fonction de la visibilité et des détections radar pour créer un ensemble d'entraînement cohérent axé sur les objets de type voiture.

L'entraînement a impliqué la création de modèles séparés pour la détection caméra et radar, ainsi qu'un modèle de fusion multi-capteurs combiné avec le bloc CDSM. Nous avons surveillé les performances à l'aide de la métrique de moyenne de précision (mAP), qui évalue l'exactitude de la détection d'objets en fonction des relations précision-rappel.

Les résultats ont démontré que le modèle de fusion CDSM surpassait significativement les modèles à capteur unique. Bien que le modèle uniquement vision atteigne des taux de détection élevés, il avait du mal avec l'estimation de profondeur. Le modèle radar fournissait un positionnement précis mais manquait de fréquence de détection. Le modèle de fusion a tiré parti des forces des deux systèmes, produisant des prédictions améliorées tant en termes de position que de taille pour les objets détectés.

De plus, notre modèle de fusion a surpassé les solutions existantes de pointe dans le domaine de la détection d'objets 3D. Nous avons comparé les performances par rapport à d'autres méthodes sur la base de la métrique mAP, révélant que notre approche a obtenu des résultats exceptionnels dans la configuration caméra et radar.

Conclusion

Dans cet article, nous nous sommes concentrés sur la fusion des données de capteurs provenant des caméras et des appareils radar pour les applications de véhicules autonomes. Nous avons examiné les travaux pertinents dans la détection d'objets à capteur unique et les solutions de fusion. Notre méthode proposée, mettant en avant l'approche Cross-Domain Spatial Matching (CDSM), a montré des résultats prometteurs sur le jeu de données NuScenes.

Les résultats de nos expériences soulignent les avantages de la fusion de capteurs, en particulier pour améliorer les performances de détection et l'exactitude dans divers scénarios. Même si nos résultats sont prometteurs, il existe un potentiel d'amélioration supplémentaire, notamment en appliquant des techniques d'apprentissage automatique directement sur les données radar. À mesure que la recherche dans ce domaine se poursuit, nous pouvons nous attendre à des avancées qui soutiendront le développement de véhicules autonomes plus sûrs et plus efficaces.

Source originale

Titre: Cross-Domain Spatial Matching for Camera and Radar Sensor Data Fusion in Autonomous Vehicle Perception System

Résumé: In this paper, we propose a novel approach to address the problem of camera and radar sensor fusion for 3D object detection in autonomous vehicle perception systems. Our approach builds on recent advances in deep learning and leverages the strengths of both sensors to improve object detection performance. Precisely, we extract 2D features from camera images using a state-of-the-art deep learning architecture and then apply a novel Cross-Domain Spatial Matching (CDSM) transformation method to convert these features into 3D space. We then fuse them with extracted radar data using a complementary fusion strategy to produce a final 3D object representation. To demonstrate the effectiveness of our approach, we evaluate it on the NuScenes dataset. We compare our approach to both single-sensor performance and current state-of-the-art fusion methods. Our results show that the proposed approach achieves superior performance over single-sensor solutions and could directly compete with other top-level fusion methods.

Auteurs: Daniel Dworak, Mateusz Komorkiewicz, Paweł Skruch, Jerzy Baranowski

Dernière mise à jour: 2024-04-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.16548

Source PDF: https://arxiv.org/pdf/2404.16548

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires