Avanços na Integração de HDMap e SDMap
Um estudo sobre a geração de HDMap usando SDMap como base e sua avaliação de desempenho.
― 9 min ler
Índice
- Estudo Adicional sobre o SDMap Prior
- Comparando MapTR com SDMap Prior
- Inconsistências entre a Verdade de Campo e os SDMaps
- Impacto das Estradas de Serviço
- Análise de Visualização das Inconsistências
- Problemas com Estradas de Bifurcação Lado Próximo
- Análise da Camada de Atenção
- Redução de Recursos BEV
- Experimentos com Proporção de Máscara
- Resultados de Vetorização com Pós-Processamento
- Análise da Estratégia de Máscara
- Visualização Qualitativa
- Visualização de Dados do SD Map
- Fonte original
- Ligações de referência
P-MapNet é um sistema que usa uma potente GPU NVIDIA GeForce RTX 3090 para treinar. A gente utiliza um método chamado Adam optimizer pra ajudar nosso modelo a aprender. Também aplicamos um cronograma de aprendizagem chamado StepLR pra ajustar a taxa de aprendizagem ao longo do processo de treinamento.
Pra garantir uma comparação justa, usamos o EfficientNet-B0, que é um tipo de modelo já treinado em um grande conjunto de dados chamado ImageNet. Esse modelo ajuda a codificar imagens capturadas de um ângulo específico. A gente também usa um Perceptron de Múltiplas Camadas (MLP) pra converter essas imagens em características de Visão de Pássaro (BEV).
Pra lidar com nuvens de pontos dos dados de LiDAR, usamos um método chamado PointPillars. Isso nos permite trabalhar com os dados de nuvem de pontos de forma eficaz num tamanho de 128.
Durante a fase de pré-treinamento para o HDMap prior, treinamos nosso modelo por 20 ciclos (ou épocas) para cada intervalo. Depois disso, combinamos as características BEV com o módulo de Refinamento de Prior HDMap e treinamos por mais 10 ciclos pra obter as previsões finais do HDMap.
Estudo Adicional sobre o SDMap Prior
A gente examinou como o SDMap Prior pode se encaixar numa estrutura vetorizada de ponta a ponta. Esse processo envolveu fazer pequenos ajustes em um modelo chamado MapTR. Integrando nosso Módulo SDMap Prior a essa estrutura, que chamamos de MapTR-SDMap, notamos melhorias significativas no desempenho, especialmente na média de Precisão Média (mAP).
Os resultados visuais indicam que o MapTR-SDMap se sai melhor ao lidar com percepções de longo alcance. A gente descobriu que o método de pós-processamento de segmentação fornece resultados estáveis já que se baseia em previsões sensadas. Enquanto isso, a abordagem de vetorização de ponta a ponta enfrenta desafios com viés preditivo e seleção de pontos chave.
Em conclusão, o método de fusão do SDMap Prior mostra ganhos de desempenho tanto na estrutura de pós-processamento de segmentação quanto na estrutura de ponta a ponta.
Comparando MapTR com SDMap Prior
A gente comparou o modelo MapTR com o método SDMap prior contra o modelo padrão MapTR. Usamos câmeras de visão ao redor como entrada e definimos limiares de distância de 0,5m, 1,0m e 1,5m para a avaliação. Nossas descobertas destacaram a eficácia do método de fusão do SDMap prior.
Intervalo | Método | Div. | Ped. | Bound. | mAP |
---|---|---|---|---|---|
3* | MapTR | 49.50 | 41.17 | 51.08 | 47.25 |
3* | MapTR | 26.00 | 18.89 | 15.73 | 20.20 |
3* | MapTR | 12.69 | 7.17 | 4.23 | 8.03 |
Inconsistências entre a Verdade de Campo e os SDMaps
Nossos priors SDMap vêm do OpenStreetMap (OSM), mas a gente observou inconsistências entre os conjuntos de dados rotulados e o que é visto no mundo real. Nem todas as estradas estão corretamente anotadas nesses conjuntos de dados.
No OSM, tem uma categoria pra estradas de serviço, que são estradas de acesso pra vários lugares como parques empresariais e acampamentos. Adicionar essas estradas de serviço pode deixar o prior SDMap mais detalhado, mas também pode levar a mais inconsistências nas anotações do conjunto de dados.
Pra avaliar se incorporar estradas de serviço é uma boa ideia, fizemos experimentos. A gente descobriu que quando a distribuição das estradas de serviço está errada, o desempenho do nosso modelo melhora porque a rede não as trata como ruído. Mas, quando as estradas de serviço estão misturadas com estradas principais, isso pode causar problemas porque a rede pode filtrar as estradas como ruído.
Os resultados de visualização mostram dois casos demonstrando os efeitos dessas inconsistências. Em um caso, incluir estradas de serviço foi benéfico porque o SDMap correspondeu bem à verdade de campo. Na maioria das situações, porém, os SDMaps com estradas de serviço tiveram anotações desalinhadas, levando algumas estradas principais a serem filtradas incorretamente como ruído.
Quando a rede exclui as estradas de serviço, ela evita aprender distribuições incorretas e foca melhor nas estradas principais. Isso ajuda a rede a obter informações úteis sobre as estradas primárias, mesmo que alguns mapas detalhados estejam ausentes.
O prior SDMap serve como um guia útil durante a geração do HDMap, criando faixas de pedestres e pistas mesmo que essas não se alinhem com a verdade de campo.
Impacto das Estradas de Serviço
A gente também analisou como incorporar estradas de serviço afeta o desempenho da segmentação. A ausência de estradas de serviço no prior SDMap levou a uma melhora de cerca de 2% no desempenho baseado em mIoU (média de Interseção sobre União).
Com Estrada de Serviço | Divisor | Ped Crossing | Boundary | mIoU |
---|---|---|---|---|
Com Serviço | 62.4 | 47.9 | 65.3 | 58.53 |
Sem Serviço | 63.6 | 50.2 | 66.8 | 60.20 |
Os números sugerem que a rede é boa em filtrar ruído, especialmente quando exposta a uma variedade de SDMaps que não correspondem à verdade de campo. Isso mostra a importância de focar nas estradas principais pra guiar a geração do HDMap de forma eficaz.
Análise de Visualização das Inconsistências
Em outro estudo de caso, analisamos os resultados negativos que ocorreram devido a inconsistências. Nosso modelo base conseguiu identificar estradas de bifurcação à esquerda e à direita quando a informação do prior SDMap estava ausente. Porém, teve dificuldades com previsões do lado distante, principalmente por conta das condições climáticas adversas.
Quando usamos informações do prior SDMap pra ajudar na geração do HDMap, as previsões para estradas de bifurcação diminuíram porque o SDMap enfatizou as estradas principais. Adicionar o prior HDMap ajudou com alguns artefatos, mas impactou negativamente as previsões próximas das bifurcações.
Problemas com Estradas de Bifurcação Lado Próximo
A base mostrou um desempenho eficaz na previsão das bifurcações do lado próximo. Mas, quando integramos ambos os priors SDMap e HDMap, a precisão caiu. Mesmo quando tentamos adicionar informações das estradas de serviço, essas muitas vezes foram filtradas como ruído pela rede.
A gente validou esse problema em um modelo que incluía dados das estradas de serviço. A rede identificou o SDMap de serviço para uma estrada de bifurcação como ruído, resultando em nenhuma saída para algumas estradas indicadas na verdade de campo.
Em conclusão, introduzir informações do prior SDMap abre caminhos pra pesquisa, fornecendo insights sobre como futuros modelos podem se beneficiar dos priors SDMap durante a geração do HDMap.
Análise da Camada de Atenção
Nossa análise sobre as camadas de atenção mostrou que aumentar o número de camadas de transformador geralmente melhora o desempenho. Contudo, isso acaba atingindo um limite devido à natureza de baixa dimensão dos priors SDMap. Muitas camadas podem levar ao sobreajuste.
Fizemos experimentos pra medir o impacto de diferentes camadas de atenção cruzada BEV-SDPrior no desempenho, uso de memória, e velocidade de processamento.
Camada de Atenção | Div. | Ped. | Bound. | mIoU | Memória (GB) | FPS |
---|
Redução de Recursos BEV
O tamanho dos mapas de características no nosso sistema é influenciado pelo fator de redução utilizado durante a fusão. Mapas de características maiores podem fornecer mais informações, mas também consomem mais memória e desaceleram o sistema. Encontramos um equilíbrio entre velocidade e precisão, então selecionamos um tamanho adequado pra um desempenho ótimo.
Testamos vários fatores de redução, observando sua influência nos resultados de mIoU e na memória da GPU.
Fator | Tamanho do Mapa de Características | Div. | Ped. | Bound. | mIoU | Memória (GB) | FPS |
---|---|---|---|---|---|---|---|
... | ... | ... | ... | ... | ... | ... | ... |
Experimentos com Proporção de Máscara
Fizemos experimentos com diferentes razões de máscara pra pré-treinamento. Altas razões de máscara tornaram a reconstrução difícil, enquanto razões baixas não desafiaram a rede o suficiente pra capturar os priors do HDMap. A gente queria encontrar a melhor opção pra razão de pré-treinamento do nosso modelo.
Resultados de Vetorização com Pós-Processamento
A gente também comparou os resultados da vetorização dos Mapas HD através do pós-processamento. Descobrimos que nosso método alcançou a maior precisão média de detecção de instâncias em várias faixas de distância.
Análise da Estratégia de Máscara
Aplicamos diferentes estratégias de máscara em nossos experimentos. O método baseado em grade envolveu usar um tamanho de patch específico e selecionar cada outro patch. A abordagem de máscara aleatória, por outro lado, selecionou patches aleatoriamente pra mascarar.
As nossas descobertas mostraram que a estratégia de amostragem aleatória forneceu os melhores resultados durante o pré-treinamento.
Estratégia de Máscara | Divisor | Ped Crossing | Boundary | mIoU |
---|---|---|---|---|
sem Pré-treinamento | 64.1 | 51.4 | 67.4 | 60.97 |
Isso indica que mesmo sem pré-treinamento, nosso método de máscara aleatória teve um desempenho melhor em contextos específicos.
Visualização Qualitativa
Incluímos resultados visuais adicionais sob várias condições climáticas pra demonstrar o desempenho do nosso método. Os resultados qualitativos mostram que o Módulo SDMap Prior melhora a previsão ao combinar priors de estrutura de estrada. O Módulo HDMap Prior aproxima as previsões da distribuição geral do HDMap, melhorando o realismo.
Visualização de Dados do SD Map
Dados de ambos os conjuntos de dados Argoverse2 e nuScenes foram usados pra enriquecer nossas visualizações de dados do SD Map. Os resultados visuais são apresentados, mostrando como os dados do SDMap podem enriquecer a saída.
Pra gerar os dados do SDMap, coletamos informações sobre estradas, ligações de estrada e estradas especiais do OSM, alinhando coordenadas e filtrando dados.
Conjunto de Dados | Sub-Mapa | Números de Pista | Comprimento Total (km) |
---|---|---|---|
NuScenes | Singapore-OneNorth | 576 | 23.4 |
Argoverse2 | Austin | 193 | 46.5 |
Argoverse2 | Palo Alto | 315 | 33.4 |
Argoverse2 | Washington DC | 1020 | 150.6 |
A gente avaliou as visualizações dos dados do SD Map em comparação com os dados do HD Map em diferentes condições, avaliando a capacidade de ambos os modelos de se adaptar a várias situações de clima e luz.
Assim, nossas descobertas e dados visuais coletivamente ampliam nossa compreensão de como SDMap e HDMap podem trabalhar juntos em diversas situações.
Título: P-MapNet: Far-seeing Map Generator Enhanced by both SDMap and HDMap Priors
Resumo: Autonomous vehicles are gradually entering city roads today, with the help of high-definition maps (HDMaps). However, the reliance on HDMaps prevents autonomous vehicles from stepping into regions without this expensive digital infrastructure. This fact drives many researchers to study online HDMap generation algorithms, but the performance of these algorithms at far regions is still unsatisfying. We present P-MapNet, in which the letter P highlights the fact that we focus on incorporating map priors to improve model performance. Specifically, we exploit priors in both SDMap and HDMap. On one hand, we extract weakly aligned SDMap from OpenStreetMap, and encode it as an additional conditioning branch. Despite the misalignment challenge, our attention-based architecture adaptively attends to relevant SDMap skeletons and significantly improves performance. On the other hand, we exploit a masked autoencoder to capture the prior distribution of HDMap, which can serve as a refinement module to mitigate occlusions and artifacts. We benchmark on the nuScenes and Argoverse2 datasets. Through comprehensive experiments, we show that: (1) our SDMap prior can improve online map generation performance, using both rasterized (by up to $+18.73$ $\rm mIoU$) and vectorized (by up to $+8.50$ $\rm mAP$) output representations. (2) our HDMap prior can improve map perceptual metrics by up to $6.34\%$. (3) P-MapNet can be switched into different inference modes that covers different regions of the accuracy-efficiency trade-off landscape. (4) P-MapNet is a far-seeing solution that brings larger improvements on longer ranges. Codes and models are publicly available at https://jike5.github.io/P-MapNet.
Autores: Zhou Jiang, Zhenxin Zhu, Pengfei Li, Huan-ang Gao, Tianyuan Yuan, Yongliang Shi, Hang Zhao, Hao Zhao
Última atualização: 2024-03-29 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2403.10521
Fonte PDF: https://arxiv.org/pdf/2403.10521
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.