Localização Inovadora de Veículos Sem GPS
Um novo método localiza veículos usando lidar e imagens de satélite sem depender de GPS.
― 7 min ler
À medida que a tecnologia avança, a necessidade de posicionamento preciso de veículos sem GPS se torna cada vez mais importante. Essa necessidade surge especialmente em áreas onde os sinais de GPS são fracos ou indisponíveis. Uma solução promissora envolve o uso de Modelos Baseados em Energia (EBMs) para Localização de veículos equipados com sensores de alcance, como LiDAR, utilizando Imagens de Satélite.
Introdução
A localização é uma parte crítica para que veículos autônomos naveguem em seu ambiente. Tradicionalmente, sensores de alcance, como lidar e câmeras, ajudam os veículos a entenderem seu entorno. No entanto, construir mapas usando esses sensores pode ser caro e demorado. Uma alternativa é usar imagens de satélite, que oferecem uma cobertura mais ampla e são mais fáceis de acessar.
Essa abordagem faz a ponte entre diferentes tipos de sensores-especificamente, dados de lidar e imagens de satélite. Ao traduzir os dados esparsos coletados do lidar em um formato que pode ser comparado com imagens ricas de satélite, conseguimos alcançar uma localização precisa mesmo em ambientes desafiadores.
Visão Geral do Sistema de Localização
O método proposto, chamado Localização Cruzada Baseada em Energia (ECML), utiliza uma nova estrutura para localizar um veículo correspondendo leituras de lidar, transformadas em imagens em visão de pássaro (BEV), com azulejos de satélite. Como a localização do veículo depende fortemente de encontrar poses semelhantes na imagem de lidar e no mapa de satélite, o modelo aprende a minimizar os níveis de energia entre pares correspondentes.
A Importância da Localização Precisa
A localização precisa do veículo é essencial para uma navegação eficaz. Veículos autônomos usam vários sensores, incluindo lidar e câmeras RGB, para interpretar seu entorno. Embora os sensores de lidar tenham se tornado mais acessíveis e sejam confiáveis em condições de baixa visibilidade, eles geralmente precisam de mapas locais para funcionar de forma eficaz. Infelizmente, coletar esses mapas pode ser desafiador em muitas regiões do mundo.
Dadas as limitações do mapeamento por lidar, imagens de satélite oferecem uma alternativa viável. Essas imagens cobrem vastas áreas, fornecendo detalhes estruturais essenciais que podem ser correlacionados com os dados esparsos do lidar.
Funcionalidade do Sistema
O sistema ECML funciona achatando nuvens de pontos de lidar em imagens BEV e extraindo azulejos de satélites candidatos para comparação. O processo envolve avaliar a similaridade de poses entre as imagens de lidar e os mapas de satélite. Quando alta similaridade é detectada, a função de energia reflete baixa energia, indicando uma localização bem-sucedida.
Para lidar com as diferenças substanciais na aparência entre as leituras de lidar e as imagens de satélite, o modelo aprende uma medida de similaridade entre esses dois tipos de dados. A função de energia funciona como uma ponte, transformando a comparação em um valor de energia escalar que indica como as imagens de lidar e satélite estão alinhadas.
O Papel das Redes Neurais
Para realizar essa tarefa de forma eficiente, o sistema emprega redes neurais convolucionais (CNNs) e transformadores. A arquitetura do transformador, inicialmente projetada para processamento de texto, mostrou resultados impressionantes na classificação de imagens. Aqui, ela é combinada com camadas convolucionais para manter características estruturais essenciais das imagens de lidar antes de processá-las com o modelo de transformador.
Essa abordagem híbrida permite que o modelo aproveite os pontos fortes de ambas as arquiteturas, retendo informações vitais da imagem enquanto se capitaliza sobre o poder do transformador para capturar relações complexas.
Transformadores Convolucionais
Nossa localização cruzada aproveita transformadores convolucionais (CT), uma adaptação que combina os benefícios de CNNs e transformadores. Em vez de tokenizar a imagem diretamente, camadas convolucionais preliminares processam a imagem para melhorar a extração de características, garantindo que nenhuma informação crucial seja perdida durante a tokenização.
Treinamento do Modelo
O modelo treina de forma auto-supervisionada. Ele aprende a gerar imagens de satélite a partir dos dados de lidar comparando pares de imagens de lidar-satélite. O objetivo é minimizar a energia na localização verdadeira da imagem de satélite enquanto maximiza para outras regiões.
O treinamento ocorre ao longo de várias épocas, com várias técnicas empregadas para garantir que o modelo generalize bem para diferentes ambientes e condições. O processo envolve o ajuste fino de muitos parâmetros para aumentar a precisão.
Processo de Inferência
Para a inferência real de localização, o modelo usa várias imagens de lidar rotacionadas para mitigar possíveis imprecisões durante a rotação. O melhor par de imagens de lidar e satélite é selecionado com base na pontuação de similaridade mais alta.
Para agilizar esse processo e garantir uma resposta em tempo real, uma abordagem de inferência em duas etapas é implementada. Na primeira etapa, o sistema gera um conjunto candidato de pares usando um maior intervalo de amostragem. Na segunda etapa, refina esses candidatos examinando a área ao redor para encontrar a pose ideal.
Coleta de Dados e Configuração Experimental
Para validar a eficácia dessa abordagem, diversos conjuntos de dados foram empregados, incluindo conjuntos públicos bem conhecidos e um conjunto personalizado coletado em ambientes específicos. Cada conjunto contém uma mistura de cenários urbanos e rurais, aumentando a robustez do modelo em diversos cenários.
O pré-processamento de dados envolve a transformação de nuvens de pontos de lidar em imagens BEV que se alinham com a resolução da imagem de satélite. É dada consideração cuidadosa para garantir que a área de cobertura das imagens de satélite complemente o potencial movimento do veículo.
Resultados Experimentais
Os resultados dos testes do modelo mostram que ele supera os métodos existentes em várias métricas. Testes de comparação entre diferentes modelos revelam que a abordagem ECML alcança maior precisão ao localizar em regiões sem GPS.
Através de numerosos experimentos, foi determinado que, à medida que a área do mapa aumenta e se torna mais complexa, o desempenho do modelo permanece forte em comparação com outras técnicas. Embora existam desafios, especialmente com estruturas semelhantes que levam à confusão, a abordagem ECML demonstra uma taxa de erro favorável em tais situações.
Limitações e Trabalhos Futuros
Embora o método ECML mostre promessas, ele não está isento de limitações. Estruturas semelhantes podem causar previsões incorretas, particularmente em mapas maiores. Além disso, aumentar a complexidade do ambiente introduz desafios adicionais que podem afetar a precisão.
Melhorias futuras poderiam envolver a integração de mecanismos de atenção para aprimorar ainda mais o aprendizado de características. Rastrear uma sequência de movimentos do veículo com medições de odometria também pode ajudar a distinguir características únicas em ambientes complexos. Esses elementos serão explorados em pesquisas em andamento.
Conclusão
Resumindo, o Modelo Baseado em Energia fornece um método inovador para localização cruzada entre lidar e imagens de satélite em áreas sem sinais de GPS. Ao utilizar transformadores convolucionais, o sistema localiza efetivamente veículos em tempo real, demonstrando um desempenho superior em diversos conjuntos de dados.
Aproveitando imagens de satélite prontamente disponíveis, a abordagem ECML aborda muitos desafios enfrentados em métodos tradicionais de localização, abrindo caminho para futuros desenvolvimentos na navegação de veículos autônomos. Com refinamentos e entendimentos contínuos, esses métodos podem melhorar significativamente a eficácia e a confiabilidade da localização de veículos na ausência de GPS.
Título: Energy-Based Models for Cross-Modal Localization using Convolutional Transformers
Resumo: We present a novel framework using Energy-Based Models (EBMs) for localizing a ground vehicle mounted with a range sensor against satellite imagery in the absence of GPS. Lidar sensors have become ubiquitous on autonomous vehicles for describing its surrounding environment. Map priors are typically built using the same sensor modality for localization purposes. However, these map building endeavors using range sensors are often expensive and time-consuming. Alternatively, we leverage the use of satellite images as map priors, which are widely available, easily accessible, and provide comprehensive coverage. We propose a method using convolutional transformers that performs accurate metric-level localization in a cross-modal manner, which is challenging due to the drastic difference in appearance between the sparse range sensor readings and the rich satellite imagery. We train our model end-to-end and demonstrate our approach achieving higher accuracy than the state-of-the-art on KITTI, Pandaset, and a custom dataset.
Autores: Alan Wu, Michael S. Ryoo
Última atualização: 2023-06-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.04021
Fonte PDF: https://arxiv.org/pdf/2306.04021
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.