Identificação Direta de Formatos de Edifícios a partir de Imagens Aéreas
Um novo modelo pra identificar formas de prédios direto de imagens sem precisar de processamento extra.
― 6 min ler
Índice
Na área de planejamento geoespacial, é importante mostrar os objetos de um jeito que possa ser facilmente usado para outras tarefas, tipo design de sites ou gráficos. Normalmente, isso é feito usando um método chamado Segmentação Semântica, que identifica e classifica cada pixel em uma imagem. Mas esse método pode ser lento e geralmente exige etapas extras para transformar os resultados em um formato vetorial utilizável. A gente apresenta um novo modelo que consegue identificar diretamente as formas dos prédios a partir de Imagens, facilitando o uso dos resultados para tarefas baseadas em vetores.
Contexto
O uso de deep learning para analisar prédios e outras estruturas melhorou muito recentemente. Métodos tradicionais para identificar prédios em imagens normalmente dependiam de regras geométricas e cálculos complexos. Abordagens mais modernas usam técnicas de deep learning que envolvem segmentação semântica, mas essas ainda podem ser limitadas. Elas classificam cada pixel, mas muitas vezes levam a resultados incertos, especialmente nas bordas dos objetos. Corrigir essas bordas geralmente requer etapas adicionais que podem gerar erros indesejados nas formas finais.
Nosso objetivo é criar um modelo que consiga contornar as formas dos prédios sem precisar dessas etapas extras. Fazendo isso, esperamos tornar o processo mais rápido e eficiente.
Trabalhos Relacionados
Muitos estudos já analisaram como identificar prédios em imagens. A maioria usa segmentação semântica como parte fundamental de seus métodos. Esses trabalhos podem ser divididos em três grupos principais:
Métodos Tradicionais: Essas abordagens usam técnicas básicas de visão computacional que dependem de pistas geométricas e estratégias complexas de otimização para encontrar os contornos dos prédios.
Deep Learning com Pós-processamento: Este grupo de estudos utiliza métodos de deep learning com segmentação semântica, seguido de etapas adicionais para corrigir os resultados. Por exemplo, alguns métodos se concentram em definir as bordas dos prédios de forma mais precisa usando técnicas extras.
Modelagem Direta de Polígonos: Alguns pesquisadores estão tentando criar Modelos que consigam representar diretamente as formas dos prédios sem precisar de etapas extras após a identificação inicial. Embora cada um desses métodos tenha seus prós e contras, acreditamos que reduzir a necessidade de pós-processamento complexo é uma direção promissora para pesquisas futuras.
Descrição do Modelo
Nosso modelo, que chamamos de Polygonizer, inclui um codificador e um decodificador. O codificador usa uma versão modificada de um modelo conhecido como ResNet50, mas pulamos algumas camadas e adicionamos novas informações para ajudar o modelo a aprender melhor. Isso inclui adicionar valores específicos para ajudar o modelo a entender o espaço e o layout dos prédios.
O modelo processa as imagens primeiro analisando-as para criar um mapa de características. Esse mapa inclui diferentes informações posicionais e dimensionais, que ajudam o modelo a acompanhar onde cada ponto está. O decodificador então usa essas informações para prever e gerar as formas dos prédios passo a passo, até chegar a um ponto de parada.
Configuração Experimental
Para testar nosso modelo, usamos um conjunto de dados específico que contém imagens de prédios com caixas de delimitação conhecidas. Isso significa que tínhamos exemplos claros de onde os prédios começam e terminam. Ao treinar nosso modelo dessa forma, conseguimos focar em ensinar como identificar as formas de forma precisa.
Comparamos o desempenho do nosso modelo com outros dois métodos recentes na área. Embora nosso modelo tenha se saído bem, ele foi treinado usando as caixas de delimitação conhecidas, o que pode ter facilitado um pouco a tarefa. Analisamos várias métricas de desempenho e nosso modelo geralmente teve um desempenho melhor que os outros, especialmente em relação à precisão dos ângulos nas formas dos prédios.
Resultados
Nosso modelo apresentou bons resultados em comparação com outros métodos. Ele teve um desempenho particularmente bom em tarefas onde as imagens de entrada eram claras e bem definidas. Porém, também quisemos testar como nosso modelo lidaria em situações desafiadoras, como imagens que foram alteradas de alguma forma.
Teste de Robustez
Para ver como nosso modelo pode se sair em condições não ideais, testamos ele com imagens que tinham certas alterações. Fizemos três tipos de mudanças nas imagens:
Mascarando Pixels: Removemos randomicamente alguns pixels das imagens para ver como o modelo ainda conseguiria funcionar com dados incompletos.
Redução de Amostragem: Reduzimos a qualidade das imagens para simular situações onde os detalhes podem não estar muito claros.
Rotação: Rotacionamos as imagens em 15 graus de cada vez para verificar como o modelo poderia identificar formas de diferentes ângulos.
Nossos testes mostraram que nosso modelo geralmente foi capaz de lidar melhor com a redução de amostragem e mascaramento do que os outros métodos. No entanto, o desempenho caiu à medida que a qualidade das imagens diminuía. Notavelmente, os outros métodos tiveram dificuldade significativa quando os detalhes se perderam.
Discussão
Acreditamos que nosso método oferece uma maneira mais simples de contornar edifícios em comparação com os métodos existentes. Ele se sai bem sem precisar de um modelo separado para prever a primeira parte da forma, tornando tudo mais eficiente. Dito isso, nosso modelo também tem algumas limitações. Ele funciona melhor quando há apenas um prédio em cada imagem, e pode ter dificuldades com formas muito complexas ou longas.
Olhando para o futuro, planejamos refinar nosso modelo ainda mais. Um dos objetivos é permitir que ele encontre prédios automaticamente em imagens, sem precisar de caixas de delimitação prévias. Isso ajudará a tornar o processo mais fluido e útil em aplicações do mundo real.
Conclusão
Em conclusão, desenvolvemos um método simples para identificar formas de prédios a partir de imagens aéreas. Nossa abordagem aprende efetivamente os ângulos e dimensões dos prédios, tornando-se um forte candidato para aplicações futuras em planejamento e análise geoespacial. Ao focar em reduzir a complexidade do processo, buscamos contribuir para melhores e mais eficazes ferramentas de entendimento do ambiente construído.
Experimentos Adicionais
Também realizamos experimentos adicionais para entender como nosso modelo se comporta em diferentes condições, especialmente em relação à rotação. Descobrimos que nosso modelo mantém um alto nível de precisão mesmo com as imagens rotacionadas, o que é importante para aplicações do mundo real onde as imagens podem não estar sempre perfeitamente alinhadas.
Através desses testes e resultados, nosso modelo mostra potencial para se tornar uma ferramenta valiosa para profissionais que trabalham com imagens de sensoriamento remoto. Estamos empolgados para continuar nossa pesquisa nessa área e explorar novas formas de aprimorar as capacidades do modelo.
Título: Polygonizer: An auto-regressive building delineator
Resumo: In geospatial planning, it is often essential to represent objects in a vectorized format, as this format easily translates to downstream tasks such as web development, graphics, or design. While these problems are frequently addressed using semantic segmentation, which requires additional post-processing to vectorize objects in a non-trivial way, we present an Image-to-Sequence model that allows for direct shape inference and is ready for vector-based workflows out of the box. We demonstrate the model's performance in various ways, including perturbations to the image input that correspond to variations or artifacts commonly encountered in remote sensing applications. Our model outperforms prior works when using ground truth bounding boxes (one object per image), achieving the lowest maximum tangent angle error.
Autores: Maxim Khomiakov, Michael Riis Andersen, Jes Frellsen
Última atualização: 2023-04-08 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.04048
Fonte PDF: https://arxiv.org/pdf/2304.04048
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.