Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans l'intégration des HDMap et SDMap

Une étude sur la génération de HDMap en utilisant SDMap comme base et son évaluation de performance.

― 10 min lire


Innovations HDMap etInnovations HDMap etSDMapcartographie.performance des modèles deExamen de l'intégration et de la
Table des matières

Détails de mise en œuvre de P-MapNet

P-MapNet est un système qui utilise une puissante GPU NVIDIA GeForce RTX 3090 pour l'entraînement. On utilise une méthode appelée l'optimiseur Adam pour aider notre modèle à apprendre. On applique aussi un planning d'apprentissage appelé StepLR pour ajuster le taux d'apprentissage tout au long du processus d'entraînement.

Pour assurer une comparaison juste, on utilise EfficientNet-B0, un type de modèle déjà entraîné sur un grand dataset appelé ImageNet. Ce modèle nous aide à encoder des images prises d'un point de vue spécifique. On utilise aussi un Perceptron Multi-Couches (MLP) pour convertir ces images en caractéristiques de Vue d'Oiseau (BEV).

Pour gérer les nuages de points provenant des données LiDAR, on utilise une méthode appelée PointPillars. Ça nous permet de travailler efficacement avec les données de nuages de points à une taille de 128.

Pendant la phase de pré-entraînement pour le HDMap prior, on entraîne notre modèle pendant 20 cycles (ou époques) pour chaque plage. Ensuite, on combine les caractéristiques BEV avec le module de Raffinement de Prior HDMap et on entraîne encore 10 cycles pour obtenir les prédictions finales de HDMap.

Étude supplémentaire sur le SDMap Prior

On a examiné comment le SDMap Prior peut s'intégrer dans un cadre vectorisé de bout en bout. Ce processus impliquait de faire de petits ajustements à un modèle appelé MapTR. En intégrant notre Module SDMap Prior dans ce cadre, appelé MapTR-SDMap, on a observé des améliorations significatives en performance, notamment en précision moyenne (mAP).

Les résultats visuels indiquent que MapTR-SDMap fonctionne mieux pour gérer des perceptions à longue portée. On a constaté que la méthode de post-traitement de segmentation fournit des résultats stables car elle repose sur des prédictions perçues. Pendant ce temps, l'approche de vectorisation de bout en bout lutte avec le biais prédictif et les défis de sélection de points clés.

En conclusion, la méthode de fusion SDMap Prior montre des gains de performance tant dans le cadre de post-traitement de segmentation que dans le cadre de bout en bout.

Comparaison entre MapTR et SDMap Prior

On a comparé le modèle MapTR avec la méthode SDMap prior contre le modèle MapTR standard. On a utilisé des caméras à vue circulaire comme entrée et défini des seuils de distance de 0,5 m, 1,0 m et 1,5 m pour l'évaluation. Nos résultats ont mis en avant l'efficacité de la méthode de fusion SDMap prior.

PlageMéthodeDiv.Ped.Bound.mAP
3*MapTR49.5041.1751.0847.25
3*MapTR26.0018.8915.7320.20
3*MapTR12.697.174.238.03

Inconsistances entre la vérité terrain et les SDMaps

Nos SDMap priors viennent d'OpenStreetMap (OSM), mais on a observé des incohérences entre les datasets étiquetés et ce qui se voit dans le monde réel. Toutes les routes ne sont pas exactement annotées dans ces datasets.

Dans OSM, il y a une catégorie pour les routes de service, qui sont des routes d'accès pour divers lieux comme des parcs d'affaires et des terrains de camping. Ajouter ces routes de service peut rendre le SDMap prior plus détaillé, mais ça peut aussi entraîner plus d'incohérences dans les annotations des datasets.

Pour évaluer si l'incorporation des routes de service est une bonne idée, on a fait des expériences. On a trouvé que lorsque la distribution des routes de service est fausse, la performance de notre modèle s'améliore parce que le réseau ne les considère pas comme du bruit. Cependant, lorsque les routes de service sont mélangées avec des routes principales, ça peut causer des problèmes car le réseau peut filtrer les routes comme du bruit.

Les résultats de visualisation montrent deux cas illustrant les effets de ces incohérences. Dans un cas, inclure les routes de service était bénéfique parce que le SDMap correspondait bien à la vérité terrain. Dans la plupart des situations, cependant, les SDMaps avec routes de service avaient des annotations mal assorties, ce qui a conduit à ce que certaines routes principales soient incorrectement filtrées comme du bruit.

Quand le réseau exclut les routes de service, il évite d'apprendre des distributions incorrectes et se concentre mieux sur les routes principales. Ça aide le réseau à obtenir des informations utiles concernant les routes principales, même si certaines cartes détaillées manquent.

Le SDMap prior sert de guide utile lors de la génération de HDMap, créant des passages piétons et des voies même si elles ne correspondent pas à la vérité terrain.

Impact des Routes de Service

On a aussi analysé comment l'incorporation des routes de service affecte la performance de segmentation. L'absence de routes de service dans le SDMap prior a entraîné environ une amélioration de 2 % des performances selon le mIoU (mean Intersection over Union).

Avec Route de ServiceDividerPassage PiétonLimitemIoU
Avec Service62.447.965.358.53
Sans Service63.650.266.860.20

Les chiffres suggèrent que le réseau est bon pour filtrer le bruit, surtout quand il est exposé à une variété de SDMaps qui ne correspondent pas à la vérité terrain. Ça montre l'importance de se concentrer sur les routes principales pour guider efficacement la génération de HDMap.

Analyse de Visualisation des Incohérences

Dans une autre étude de cas, on a analysé les résultats négatifs qui se sont produits à cause des incohérences. Notre modèle de base a pu identifier les routes à fourche gauche et droite quand les informations du SDMap prior étaient absentes. Cependant, il a eu du mal avec les prédictions de l'autre côté, en particulier à cause de conditions météorologiques défavorables.

Quand on a utilisé les informations du SDMap prior pour aider à la génération de HDMap, les prédictions pour les routes à fourche ont diminué parce que le SDMap mettait l'accent sur les routes principales. Ajouter le HDMap prior a aidé avec certains artefacts mais a eu un impact négatif sur les prédictions de fourches proches.

Problèmes avec les Routes à Fourche Proches

Le modèle de base a montré des performances efficaces pour prédire les fourches proches. Pourtant, quand on a intégré à la fois les SDMap et les HDMap priors, la précision a chuté. Même quand on a essayé d'ajouter des informations sur les routes de service, celles-ci étaient souvent filtrées comme du bruit par le réseau.

On a validé ce problème dans un modèle qui incluait les données sur les routes de service. Le réseau a identifié le SDMap de service pour une route à fourche comme du bruit, résultant en aucune sortie pour certaines routes indiquées dans la vérité terrain.

En conclusion, introduire des informations de SDMap prior ouvre des avenues pour la recherche, fournissant des insights sur comment les futurs modèles peuvent bénéficier des SDMap priors lors de la génération de HDMap.

Analyse des Couches d'Attention

Notre analyse sur les couches d'attention a montré qu'augmenter le nombre de couches de transformateur améliore généralement la performance. Cependant, ça atteint finalement une limite à cause de la nature de faible dimension des SDMap priors. Trop de couches peuvent mener à du surapprentissage.

On a réalisé des expériences pour mesurer l'impact de différentes couches de cross-attention BEV-SDPrior sur la performance, l'utilisation de mémoire, et la vitesse de traitement.

Couches d'AttentionDiv.Ped.Bound.mIoUMémoire (Go)FPS

Réduction de Caractéristiques BEV

La taille des cartes de caractéristiques dans notre système est influencée par le facteur de réduction utilisé lors de la fusion. Des cartes de caractéristiques plus grandes peuvent fournir plus d'informations, mais elles consomment aussi plus de mémoire et ralentissent le système. En visant un équilibre entre vitesse et précision, on a sélectionné une taille appropriée pour une performance optimale.

On a testé différents facteurs de réduction, observant leur influence sur les résultats de mIoU et la mémoire GPU.

FacteurTaille de la Carte de CaractéristiquesDiv.Ped.Bound.mIoUMémoire (Go)FPS
........................

Expérience de Proportion de Masques

On a expérimenté avec différents ratios de masque pour le pré-entraînement. Des ratios de masque élevés rendaient la reconstruction difficile, tandis que des ratios bas ne défiaient pas assez le réseau pour capturer les SDMap priors. On visait à trouver la meilleure option pour le ratio de pré-entraînement de notre modèle.

Résultats de Vectorisation avec Post-Travaux

On a aussi comparé les résultats de vectorisation des HD Maps à travers le post-traitement. On a trouvé que notre méthode a atteint la plus haute précision moyenne de détection d'instances à travers diverses plages de distance.

Analyse de Stratégie de Masque

On a appliqué différentes stratégies de masquage dans nos expériences. La méthode basée sur la grille impliquait d'utiliser une taille de patch spécifique et de sélectionner chaque autre patch. L'approche de masque aléatoire, quant à elle, sélectionnait au hasard des patches pour le masquage.

Nos résultats ont montré que la stratégie d'échantillonnage aléatoire a fourni les meilleurs résultats pendant le pré-entraînement.

Stratégie de MasqueDividerPassage PiétonLimitemIoU
sans pré-entraînement64.151.467.460.97

Cela indique que même sans pré-entraînement, notre méthode de masque aléatoire a mieux fonctionné dans des contextes spécifiques.

Visualisation Qualitative

On a inclus des résultats visuels supplémentaires sous diverses conditions météorologiques pour démontrer la performance de notre méthode. Les résultats qualitatifs montrent que le Module SDMap Prior améliore la prédiction en combinant des priors de structure routière. Le Module HDMap Prior rapproche les prédictions de la distribution globale de HDMap, améliorant le réalisme.

Visualisation des Données SD Map

Des données provenant à la fois des datasets Argoverse2 et nuScenes ont été utilisées pour améliorer nos visualisations de données SD Map. Les résultats visuels sont présentés, montrant comment les données SDMap peuvent enrichir la sortie.

Pour générer les données SDMap, on a extrait des informations sur les routes, les liens de route et les routes spéciales depuis OSM, en alignant les coordonnées et en filtrant les données.

DatasetSous-CarteNombre de VoiesLongueur Totale (km)
NuScenesSingapore-OneNorth57623.4
Argoverse2Austin19346.5
Argoverse2Palo Alto31533.4
Argoverse2Washington DC1020150.6

On a évalué les visualisations des données SD Map par rapport aux données HD Map dans différentes conditions, en évaluant la capacité des deux modèles à s'adapter à diverses situations météorologiques et d'éclairage.

Ainsi, nos résultats et données visuelles renforcent notre compréhension de la façon dont SDMap et HDMap peuvent fonctionner ensemble dans des situations diverses.

Source originale

Titre: P-MapNet: Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors

Résumé: Autonomous vehicles are gradually entering city roads today, with the help of high-definition maps (HDMaps). However, the reliance on HDMaps prevents autonomous vehicles from stepping into regions without this expensive digital infrastructure. This fact drives many researchers to study online HDMap generation algorithms, but the performance of these algorithms at far regions is still unsatisfying. We present P-MapNet, in which the letter P highlights the fact that we focus on incorporating map priors to improve model performance. Specifically, we exploit priors in both SDMap and HDMap. On one hand, we extract weakly aligned SDMap from OpenStreetMap, and encode it as an additional conditioning branch. Despite the misalignment challenge, our attention-based architecture adaptively attends to relevant SDMap skeletons and significantly improves performance. On the other hand, we exploit a masked autoencoder to capture the prior distribution of HDMap, which can serve as a refinement module to mitigate occlusions and artifacts. We benchmark on the nuScenes and Argoverse2 datasets. Through comprehensive experiments, we show that: (1) our SDMap prior can improve online map generation performance, using both rasterized (by up to $+18.73$ $\rm mIoU$) and vectorized (by up to $+8.50$ $\rm mAP$) output representations. (2) our HDMap prior can improve map perceptual metrics by up to $6.34\%$. (3) P-MapNet can be switched into different inference modes that covers different regions of the accuracy-efficiency trade-off landscape. (4) P-MapNet is a far-seeing solution that brings larger improvements on longer ranges. Codes and models are publicly available at https://jike5.github.io/P-MapNet.

Auteurs: Zhou Jiang, Zhenxin Zhu, Pengfei Li, Huan-ang Gao, Tianyuan Yuan, Yongliang Shi, Hang Zhao, Hao Zhao

Dernière mise à jour: 2024-03-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2403.10521

Source PDF: https://arxiv.org/pdf/2403.10521

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires