Novo Modelo para Geo-Localização Cruzada
Apresentando uma maneira mais simples e eficaz de geo-localização a partir de diferentes perspectivas de imagem.
― 10 min ler
Índice
A geo-localização em cruz é uma tarefa difícil que ajuda a determinar as localizações geográficas de imagens tiradas de diferentes perspectivas, como imagens de satélite e imagens de vista do chão. Esse desafio vem do fato de que imagens tiradas de ângulos ou visões diferentes têm formas e detalhes diferentes. Para resolver isso, são necessárias técnicas especiais, como pré-processamento e estratégias de zoom, para localizar com precisão.
Um método comum para lidar com isso é a Transformação Polar, que ajuda a alinhar melhor as imagens. No entanto, essa transformação pode causar distorções nas imagens, que precisam ser corrigidas. Outra abordagem para melhorar o desempenho do modelo é usar exemplos negativos difíceis durante o treinamento. Negativos difíceis são amostras que parecem semelhantes às respostas corretas, mas na verdade não são. Infelizmente, funções de perda tradicionais em geo-localização têm dificultado a adição dessas escolhas difíceis de forma eficaz.
Estrutura Simplificada
No nosso trabalho, apresentamos um modelo mais simples, mas eficaz, para geo-localização em cruz. Ele usa uma técnica conhecida como aprendizado contrastivo com um tipo específico de função de perda chamada perda InfoNCE simétrica. Esse método mostrou ser mais eficaz do que os modelos líderes atuais nesse espaço. Nosso modelo não depende de etapas ou modificações extras complexas e pode generalizar bem para áreas novas e previamente não vistas.
Para melhorar ainda mais o treinamento, apresentamos dois métodos de amostragem para identificar Amostras Negativas Difíceis. O primeiro método usa locais geográficos próximos para encontrar bons pontos de partida para o treinamento. O segundo método procura imagens que são visualmente semelhantes com base em suas representações para encontrar negativos difíceis.
Nosso trabalho demonstrou um desempenho notavelmente bom em conjuntos de dados amplamente utilizados como CVUSA, CVACT, University-1652 e VIGOR. Comparar como nosso modelo se comporta em diferentes configurações mostra que ele tem fortes capacidades de generalização para diferentes áreas.
Os Dois Tipos de Estratégias de Amostragem
Usamos duas estratégias de amostragem diferentes para melhorar o processo de aprendizado. A primeira estratégia foca na proximidade geográfica das imagens. Isso significa que imagens que estão fisicamente próximas umas das outras são usadas como amostras de treinamento para garantir alguma semelhança básica.
A segunda estratégia, Amostragem de Similaridade Dinâmica, usa a semelhança visual das imagens. Conforme o treinamento avança, nós nos baseamos na similaridade coseno para quantificar o quão semelhantes as imagens são. Durante o treinamento, escolhemos seletivamente amostras negativas difíceis com base nessa métrica para desafiar o modelo de maneira eficaz e significativa.
Importância em Vários Campos
A capacidade de encontrar localizações geográficas a partir de imagens sem metadados adicionais é importante para muitos setores, incluindo agricultura e indústrias automotivas. Por exemplo, na agricultura, robôs que precisam aplicar fertilizantes exigem posicionamento preciso para fazê-lo de forma eficaz. Embora existam sistemas GPS de alta precisão, eles podem ser caros e vulneráveis a interrupções. Portanto, usar imagens aéreas para identificação de localização pode simplificar a tarefa, especialmente em ambientes que seguem padrões previsíveis.
Áreas urbanas apresentam desafios particulares devido ao efeito de canyon urbano, onde edifícios altos podem obstruir sinais GPS ou afetar sua precisão. Um estudo sobre dirigir em Nova York mostrou que um número significativo de sinais GPS teve erros de até 10 metros. Ao usar técnicas de visão computacional que dependem de imagens, temos a chance de melhorar a precisão desses sinais.
Abordagens Anteriores
Historicamente, muitos modelos tentaram resolver esse problema de geo-localização usando pistas visuais, como a posição do sol ou as sombras projetadas por diferentes objetos. Recentemente, o foco se deslocou para o uso de métodos de recuperação de imagens aprimorados por tecnologias de aprendizado profundo. Na recuperação de imagens em cruz, nosso objetivo é combinar imagens tiradas de diferentes perspectivas-como uma vista do chão e uma vista de satélite-para determinar a localização geográfica apropriada.
A maioria dos designs anteriores se baseou em redes neurais convolucionais (CNNs) para sua arquitetura, enquanto pesquisas mais recentes começaram a explorar modelos Transformer ou a arquitetura MLP Mixer. Em muitos casos, usar codificadores separados para diferentes perspectivas resultou em modelos maiores e mais complexos.
Outra técnica comum é o uso de transformações polares. Embora essas transformações tentem alinhar imagens de diferentes visões, elas muitas vezes introduzem distorções. Para combater esses problemas, alguns pesquisadores desenvolveram modelos capazes de corrigir essas distorções durante o processo de treinamento.
Nossa Metodologia Proposta
Introduzimos um modelo CNN Siamês com compartilhamento de pesos projetado para aprender representações generalizadas usando a perda InfoNCE. O modelo foca em aprender representações de imagem eficazes enquanto minimiza a diferença entre amostras relacionadas.
Nossa metodologia emprega dois métodos de amostragem para coletar negativos difíceis. Primeiro, utilizamos informações de GPS durante a fase de treinamento para inicializar a amostragem. Isso é útil no início do treinamento, quando o modelo não tem experiência substancial. Em épocas posteriores, fazemos a transição para uma abordagem mais refinada com base na similaridade visual.
CNN Siamês com Compartilhamento de Pesos
O coração do nosso modelo é uma rede Siamês que utiliza um único codificador que opera em imagens de rua e de satélite. Essa configuração elimina a necessidade de modelos separados para cada tipo de visão, simplificando a arquitetura geral e reduzindo o número de parâmetros necessários. Usamos vetores de características com média para otimizar o aprendizado de representações relevantes.
Para inicializar nosso treinamento, utilizamos coordenadas GPS de conjuntos de dados como CVUSA e VIGOR. Essas coordenadas nos permitem selecionar imagens próximas com base na distância geográfica, garantindo que nossos dados de treinamento iniciais apoiem ativamente o aprendizado.
Amostragem de Similaridade Dinâmica
A Amostragem de Similaridade Dinâmica (DSS) entra em cena após as primeiras épocas de treinamento. Assim que nosso modelo ganha alguma compreensão dos dados, calculamos distâncias visuais entre todas as amostras usando similaridade coseno. Isso nos permite selecionar imagens visualmente semelhantes para treinamento em lotes futuros.
O objetivo é garantir que nosso modelo encontre exemplos desafiadores que impulsionem seu aprendizado sem sobrecarregá-lo. Ao equilibrar a similaridade visual com a diversidade por meio de seleções aleatórias, mantemos uma experiência de treinamento abrangente.
Avaliando Nossa Abordagem
Testamos nosso modelo em quatro conjuntos de dados bem conhecidos: CVUSA, CVACT, University-1652 e VIGOR. Cada conjunto de dados apresentou desafios únicos, permitindo que entendêssemos os pontos fortes e fracos da nossa abordagem.
Análise dos Conjuntos de Dados
CVUSA: Este conjunto de dados inclui mais de 35.000 pares de vistas e representa um dos benchmarks fundamentais na área. Imagens de satélite e de vista de rua são alinhadas com base em suas posições de câmera.
CVACT: Semelhante ao CVUSA, este conjunto de dados oferece uma divisão equilibrada de treinamento e validação, focando em ambientes urbanos em Canberra, Austrália.
University-1652: Aqui, enfrentamos a tarefa de combinar imagens de drones com imagens de satélite, adicionando uma camada extra de complexidade devido às diferentes perspectivas envolvidas.
VIGOR: Este conjunto de dados introduz uma gama mais ampla de imagens de várias cidades, desafiando a capacidade do nosso modelo de generalizar para regiões desconhecidas.
Através de nossos experimentos, mostramos que nosso modelo é capaz de superar abordagens anteriores em termos de métricas de recall em todos os conjuntos de dados. Isso destaca a capacidade do nosso modelo de generalizar de forma eficaz.
Resultados e Métricas de Desempenho
Nossos experimentos indicam um desempenho forte nos conjuntos de dados testados. Superamos muitos modelos existentes, particularmente em métricas de recall. Por exemplo, tanto no CVUSA quanto no CVACT, nosso modelo alcançou recalls mais altos em 1 (R@1), indicando que frequentemente recupera a imagem correta como a correspondência mais próxima.
Além disso, avaliamos nosso modelo no contexto de ambientes urbanos para demonstrar suas capacidades de generalização. O conjunto de dados VIGOR nos permitiu testar quão bem nossa abordagem pode se adaptar a novas regiões onde não foi treinada diretamente.
Observações
Uma das principais observações de nossos resultados é que modelos treinados com ambos os tipos de estratégias de amostragem apresentaram bom desempenho. A combinação de amostragem geográfica e de similaridade visual forneceu ao nosso modelo variedade e desafio suficientes durante o treinamento.
Além disso, notamos que a ausência de etapas complexas de pré-processamento não prejudicou o desempenho do nosso modelo. Em vez disso, permitiu um processo de treinamento mais simplificado sem a necessidade de recursos adicionais ou ajustes que consomem tempo.
Desafios e Trabalho Futuro
Apesar de nossos resultados promissores, vários desafios permanecem na geo-localização em cruz. Um problema significativo é a dependência de conjuntos de dados que se concentram principalmente em ambientes urbanos. Pesquisas futuras devem visar criar conjuntos de dados que incluam uma gama mais diversa de configurações, especialmente cenários rurais que imitam a variabilidade do mundo real.
Além disso, conjuntos de dados existentes frequentemente têm imagens tiradas de locais muito semelhantes, facilitando para os modelos aprenderem características superficiais em vez de representações mais profundas e significativas. Conjuntos de dados futuros devem incluir cenas variadas que exijam que os modelos entendam e diferenciem entre pistas visuais sutis.
Por último, embora nosso método tenha mostrado promissoras capacidades de generalização, trabalhar em direção a uma maior adaptabilidade em regiões desconhecidas permanece uma área para melhoria. Técnicas que possam preencher a lacuna entre modelos treinados e novos ambientes podem melhorar muito a aplicação prática da tecnologia de geo-localização.
Conclusão
Em conclusão, nosso trabalho oferece uma solução simples, mas eficaz, para o problema da geo-localização em cruz. Ao usar um modelo de codificador de imagem único e empregar estratégias de aprendizado contrastivo, conseguimos um desempenho forte em vários conjuntos de dados amplamente utilizados. Nosso foco específico em estratégias de amostragem eficazes para negativos difíceis foi um dos principais contribuintes para esse sucesso.
Embora tenhamos feito progressos significativos, esforços futuros devem se concentrar em abordar os desafios da diversidade em conjuntos de dados e em melhorar ainda mais as capacidades de generalização do nosso modelo. Nossas descobertas enfatizam a importância da simplicidade no design e o valor de metodologias de treinamento eficazes na busca contínua por avanços no campo da geo-localização.
Título: Sample4Geo: Hard Negative Sampling For Cross-View Geo-Localisation
Resumo: Cross-View Geo-Localisation is still a challenging task where additional modules, specific pre-processing or zooming strategies are necessary to determine accurate positions of images. Since different views have different geometries, pre-processing like polar transformation helps to merge them. However, this results in distorted images which then have to be rectified. Adding hard negatives to the training batch could improve the overall performance but with the default loss functions in geo-localisation it is difficult to include them. In this article, we present a simplified but effective architecture based on contrastive learning with symmetric InfoNCE loss that outperforms current state-of-the-art results. Our framework consists of a narrow training pipeline that eliminates the need of using aggregation modules, avoids further pre-processing steps and even increases the generalisation capability of the model to unknown regions. We introduce two types of sampling strategies for hard negatives. The first explicitly exploits geographically neighboring locations to provide a good starting point. The second leverages the visual similarity between the image embeddings in order to mine hard negative samples. Our work shows excellent performance on common cross-view datasets like CVUSA, CVACT, University-1652 and VIGOR. A comparison between cross-area and same-area settings demonstrate the good generalisation capability of our model.
Autores: Fabian Deuser, Konrad Habel, Norbert Oswald
Última atualização: 2023-08-29 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.11851
Fonte PDF: https://arxiv.org/pdf/2303.11851
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.