Avancées dans l'intégration des HDMap et SDMap
Une étude sur la génération de HDMap en utilisant SDMap comme base et son évaluation de performance.
― 10 min lire
Table des matières
- Détails de mise en œuvre de P-MapNet
- Étude supplémentaire sur le SDMap Prior
- Comparaison entre MapTR et SDMap Prior
- Inconsistances entre la vérité terrain et les SDMaps
- Impact des Routes de Service
- Analyse de Visualisation des Incohérences
- Problèmes avec les Routes à Fourche Proches
- Analyse des Couches d'Attention
- Réduction de Caractéristiques BEV
- Expérience de Proportion de Masques
- Résultats de Vectorisation avec Post-Travaux
- Analyse de Stratégie de Masque
- Visualisation Qualitative
- Visualisation des Données SD Map
- Source originale
- Liens de référence
Détails de mise en œuvre de P-MapNet
P-MapNet est un système qui utilise une puissante GPU NVIDIA GeForce RTX 3090 pour l'entraînement. On utilise une méthode appelée l'optimiseur Adam pour aider notre modèle à apprendre. On applique aussi un planning d'apprentissage appelé StepLR pour ajuster le taux d'apprentissage tout au long du processus d'entraînement.
Pour assurer une comparaison juste, on utilise EfficientNet-B0, un type de modèle déjà entraîné sur un grand dataset appelé ImageNet. Ce modèle nous aide à encoder des images prises d'un point de vue spécifique. On utilise aussi un Perceptron Multi-Couches (MLP) pour convertir ces images en caractéristiques de Vue d'Oiseau (BEV).
Pour gérer les nuages de points provenant des données LiDAR, on utilise une méthode appelée PointPillars. Ça nous permet de travailler efficacement avec les données de nuages de points à une taille de 128.
Pendant la phase de pré-entraînement pour le HDMap prior, on entraîne notre modèle pendant 20 cycles (ou époques) pour chaque plage. Ensuite, on combine les caractéristiques BEV avec le module de Raffinement de Prior HDMap et on entraîne encore 10 cycles pour obtenir les prédictions finales de HDMap.
Étude supplémentaire sur le SDMap Prior
On a examiné comment le SDMap Prior peut s'intégrer dans un cadre vectorisé de bout en bout. Ce processus impliquait de faire de petits ajustements à un modèle appelé MapTR. En intégrant notre Module SDMap Prior dans ce cadre, appelé MapTR-SDMap, on a observé des améliorations significatives en performance, notamment en précision moyenne (mAP).
Les résultats visuels indiquent que MapTR-SDMap fonctionne mieux pour gérer des perceptions à longue portée. On a constaté que la méthode de post-traitement de segmentation fournit des résultats stables car elle repose sur des prédictions perçues. Pendant ce temps, l'approche de vectorisation de bout en bout lutte avec le biais prédictif et les défis de sélection de points clés.
En conclusion, la méthode de fusion SDMap Prior montre des gains de performance tant dans le cadre de post-traitement de segmentation que dans le cadre de bout en bout.
Comparaison entre MapTR et SDMap Prior
On a comparé le modèle MapTR avec la méthode SDMap prior contre le modèle MapTR standard. On a utilisé des caméras à vue circulaire comme entrée et défini des seuils de distance de 0,5 m, 1,0 m et 1,5 m pour l'évaluation. Nos résultats ont mis en avant l'efficacité de la méthode de fusion SDMap prior.
Plage | Méthode | Div. | Ped. | Bound. | mAP |
---|---|---|---|---|---|
3* | MapTR | 49.50 | 41.17 | 51.08 | 47.25 |
3* | MapTR | 26.00 | 18.89 | 15.73 | 20.20 |
3* | MapTR | 12.69 | 7.17 | 4.23 | 8.03 |
Inconsistances entre la vérité terrain et les SDMaps
Nos SDMap priors viennent d'OpenStreetMap (OSM), mais on a observé des incohérences entre les datasets étiquetés et ce qui se voit dans le monde réel. Toutes les routes ne sont pas exactement annotées dans ces datasets.
Dans OSM, il y a une catégorie pour les routes de service, qui sont des routes d'accès pour divers lieux comme des parcs d'affaires et des terrains de camping. Ajouter ces routes de service peut rendre le SDMap prior plus détaillé, mais ça peut aussi entraîner plus d'incohérences dans les annotations des datasets.
Pour évaluer si l'incorporation des routes de service est une bonne idée, on a fait des expériences. On a trouvé que lorsque la distribution des routes de service est fausse, la performance de notre modèle s'améliore parce que le réseau ne les considère pas comme du bruit. Cependant, lorsque les routes de service sont mélangées avec des routes principales, ça peut causer des problèmes car le réseau peut filtrer les routes comme du bruit.
Les résultats de visualisation montrent deux cas illustrant les effets de ces incohérences. Dans un cas, inclure les routes de service était bénéfique parce que le SDMap correspondait bien à la vérité terrain. Dans la plupart des situations, cependant, les SDMaps avec routes de service avaient des annotations mal assorties, ce qui a conduit à ce que certaines routes principales soient incorrectement filtrées comme du bruit.
Quand le réseau exclut les routes de service, il évite d'apprendre des distributions incorrectes et se concentre mieux sur les routes principales. Ça aide le réseau à obtenir des informations utiles concernant les routes principales, même si certaines cartes détaillées manquent.
Le SDMap prior sert de guide utile lors de la génération de HDMap, créant des passages piétons et des voies même si elles ne correspondent pas à la vérité terrain.
Impact des Routes de Service
On a aussi analysé comment l'incorporation des routes de service affecte la performance de segmentation. L'absence de routes de service dans le SDMap prior a entraîné environ une amélioration de 2 % des performances selon le mIoU (mean Intersection over Union).
Avec Route de Service | Divider | Passage Piéton | Limite | mIoU |
---|---|---|---|---|
Avec Service | 62.4 | 47.9 | 65.3 | 58.53 |
Sans Service | 63.6 | 50.2 | 66.8 | 60.20 |
Les chiffres suggèrent que le réseau est bon pour filtrer le bruit, surtout quand il est exposé à une variété de SDMaps qui ne correspondent pas à la vérité terrain. Ça montre l'importance de se concentrer sur les routes principales pour guider efficacement la génération de HDMap.
Analyse de Visualisation des Incohérences
Dans une autre étude de cas, on a analysé les résultats négatifs qui se sont produits à cause des incohérences. Notre modèle de base a pu identifier les routes à fourche gauche et droite quand les informations du SDMap prior étaient absentes. Cependant, il a eu du mal avec les prédictions de l'autre côté, en particulier à cause de conditions météorologiques défavorables.
Quand on a utilisé les informations du SDMap prior pour aider à la génération de HDMap, les prédictions pour les routes à fourche ont diminué parce que le SDMap mettait l'accent sur les routes principales. Ajouter le HDMap prior a aidé avec certains artefacts mais a eu un impact négatif sur les prédictions de fourches proches.
Problèmes avec les Routes à Fourche Proches
Le modèle de base a montré des performances efficaces pour prédire les fourches proches. Pourtant, quand on a intégré à la fois les SDMap et les HDMap priors, la précision a chuté. Même quand on a essayé d'ajouter des informations sur les routes de service, celles-ci étaient souvent filtrées comme du bruit par le réseau.
On a validé ce problème dans un modèle qui incluait les données sur les routes de service. Le réseau a identifié le SDMap de service pour une route à fourche comme du bruit, résultant en aucune sortie pour certaines routes indiquées dans la vérité terrain.
En conclusion, introduire des informations de SDMap prior ouvre des avenues pour la recherche, fournissant des insights sur comment les futurs modèles peuvent bénéficier des SDMap priors lors de la génération de HDMap.
Analyse des Couches d'Attention
Notre analyse sur les couches d'attention a montré qu'augmenter le nombre de couches de transformateur améliore généralement la performance. Cependant, ça atteint finalement une limite à cause de la nature de faible dimension des SDMap priors. Trop de couches peuvent mener à du surapprentissage.
On a réalisé des expériences pour mesurer l'impact de différentes couches de cross-attention BEV-SDPrior sur la performance, l'utilisation de mémoire, et la vitesse de traitement.
Couches d'Attention | Div. | Ped. | Bound. | mIoU | Mémoire (Go) | FPS |
---|
Réduction de Caractéristiques BEV
La taille des cartes de caractéristiques dans notre système est influencée par le facteur de réduction utilisé lors de la fusion. Des cartes de caractéristiques plus grandes peuvent fournir plus d'informations, mais elles consomment aussi plus de mémoire et ralentissent le système. En visant un équilibre entre vitesse et précision, on a sélectionné une taille appropriée pour une performance optimale.
On a testé différents facteurs de réduction, observant leur influence sur les résultats de mIoU et la mémoire GPU.
Facteur | Taille de la Carte de Caractéristiques | Div. | Ped. | Bound. | mIoU | Mémoire (Go) | FPS |
---|---|---|---|---|---|---|---|
... | ... | ... | ... | ... | ... | ... | ... |
Expérience de Proportion de Masques
On a expérimenté avec différents ratios de masque pour le pré-entraînement. Des ratios de masque élevés rendaient la reconstruction difficile, tandis que des ratios bas ne défiaient pas assez le réseau pour capturer les SDMap priors. On visait à trouver la meilleure option pour le ratio de pré-entraînement de notre modèle.
Résultats de Vectorisation avec Post-Travaux
On a aussi comparé les résultats de vectorisation des HD Maps à travers le post-traitement. On a trouvé que notre méthode a atteint la plus haute précision moyenne de détection d'instances à travers diverses plages de distance.
Analyse de Stratégie de Masque
On a appliqué différentes stratégies de masquage dans nos expériences. La méthode basée sur la grille impliquait d'utiliser une taille de patch spécifique et de sélectionner chaque autre patch. L'approche de masque aléatoire, quant à elle, sélectionnait au hasard des patches pour le masquage.
Nos résultats ont montré que la stratégie d'échantillonnage aléatoire a fourni les meilleurs résultats pendant le pré-entraînement.
Stratégie de Masque | Divider | Passage Piéton | Limite | mIoU |
---|---|---|---|---|
sans pré-entraînement | 64.1 | 51.4 | 67.4 | 60.97 |
Cela indique que même sans pré-entraînement, notre méthode de masque aléatoire a mieux fonctionné dans des contextes spécifiques.
Visualisation Qualitative
On a inclus des résultats visuels supplémentaires sous diverses conditions météorologiques pour démontrer la performance de notre méthode. Les résultats qualitatifs montrent que le Module SDMap Prior améliore la prédiction en combinant des priors de structure routière. Le Module HDMap Prior rapproche les prédictions de la distribution globale de HDMap, améliorant le réalisme.
Visualisation des Données SD Map
Des données provenant à la fois des datasets Argoverse2 et nuScenes ont été utilisées pour améliorer nos visualisations de données SD Map. Les résultats visuels sont présentés, montrant comment les données SDMap peuvent enrichir la sortie.
Pour générer les données SDMap, on a extrait des informations sur les routes, les liens de route et les routes spéciales depuis OSM, en alignant les coordonnées et en filtrant les données.
Dataset | Sous-Carte | Nombre de Voies | Longueur Totale (km) |
---|---|---|---|
NuScenes | Singapore-OneNorth | 576 | 23.4 |
Argoverse2 | Austin | 193 | 46.5 |
Argoverse2 | Palo Alto | 315 | 33.4 |
Argoverse2 | Washington DC | 1020 | 150.6 |
On a évalué les visualisations des données SD Map par rapport aux données HD Map dans différentes conditions, en évaluant la capacité des deux modèles à s'adapter à diverses situations météorologiques et d'éclairage.
Ainsi, nos résultats et données visuelles renforcent notre compréhension de la façon dont SDMap et HDMap peuvent fonctionner ensemble dans des situations diverses.
Titre: P-MapNet: Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors
Résumé: Autonomous vehicles are gradually entering city roads today, with the help of high-definition maps (HDMaps). However, the reliance on HDMaps prevents autonomous vehicles from stepping into regions without this expensive digital infrastructure. This fact drives many researchers to study online HDMap generation algorithms, but the performance of these algorithms at far regions is still unsatisfying. We present P-MapNet, in which the letter P highlights the fact that we focus on incorporating map priors to improve model performance. Specifically, we exploit priors in both SDMap and HDMap. On one hand, we extract weakly aligned SDMap from OpenStreetMap, and encode it as an additional conditioning branch. Despite the misalignment challenge, our attention-based architecture adaptively attends to relevant SDMap skeletons and significantly improves performance. On the other hand, we exploit a masked autoencoder to capture the prior distribution of HDMap, which can serve as a refinement module to mitigate occlusions and artifacts. We benchmark on the nuScenes and Argoverse2 datasets. Through comprehensive experiments, we show that: (1) our SDMap prior can improve online map generation performance, using both rasterized (by up to $+18.73$ $\rm mIoU$) and vectorized (by up to $+8.50$ $\rm mAP$) output representations. (2) our HDMap prior can improve map perceptual metrics by up to $6.34\%$. (3) P-MapNet can be switched into different inference modes that covers different regions of the accuracy-efficiency trade-off landscape. (4) P-MapNet is a far-seeing solution that brings larger improvements on longer ranges. Codes and models are publicly available at https://jike5.github.io/P-MapNet.
Auteurs: Zhou Jiang, Zhenxin Zhu, Pengfei Li, Huan-ang Gao, Tianyuan Yuan, Yongliang Shi, Hang Zhao, Hao Zhao
Dernière mise à jour: 2024-03-29 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.10521
Source PDF: https://arxiv.org/pdf/2403.10521
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.