Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

HTC-DC Net: Avançando a Estimação de Altura Monocular

Um novo modelo melhora a estimativa de altura a partir de imagens únicas para aplicações urbanas.

― 7 min ler


HTC-DC Net Melhora aHTC-DC Net Melhora aEstimativa de Alturaa partir de imagens únicas.Novo modelo melhora previsões de altura
Índice

Entender nosso ambiente exige conhecimento sobre as alturas dos objetos, especialmente em cidades onde os prédios e a vegetação têm papéis importantes. Tradicionalmente, as informações de altura vêm de sensores 3D como LiDAR (detecção e medição de luz), mas esses sensores podem ser caros e nem sempre estão disponíveis. Em vez disso, os pesquisadores estão analisando imagens ópticas, principalmente de satélites, para estimar alturas usando apenas uma única imagem. Essa abordagem é chamada de Estimativa de Altura Monocular.

A estimativa de altura monocular envolve prever a altura dos objetos a partir de uma única imagem. Os mapas de altura resultantes, que podem ser na forma de modelos, são valiosos para diversas aplicações, como planejamento urbano, gestão de desastres e estudos ambientais.

O Desafio da Estimativa de Altura Monocular

Estimar alturas a partir de uma imagem é complicado porque é um problema mal definido, ou seja, várias soluções possíveis podem parecer semelhantes. Isso pode fazer com que as redes (sistemas de computador) façam previsões ruins, especialmente para prédios altos, em comparação com objetos de baixa altura, como arbustos ou carros. A maioria dos objetos no mundo é baixa, o que pode distorcer os resultados das redes treinadas.

Para resolver esses problemas, os pesquisadores desenvolveram métodos que melhoram a precisão das previsões de altura. Uma abordagem eficaz é usar um método de classificação-regressão, que combina as vantagens de tarefas de classificação e regressão.

Método Proposto: HTC-DC Net

Para enfrentar esses desafios, um novo modelo chamado HTC-DC Net foi desenvolvido. Esse modelo é composto por várias partes:

  1. Rede Backbone: Essa parte extrai características importantes das imagens de entrada.

  2. Módulo HTC-AdaBins: Esse módulo classifica os valores de altura em vários bins (ou categorias) adaptados a cada imagem, facilitando a representação mais eficaz dos valores de altura.

  3. Processo de Regressão Híbrida: Essa etapa final suaviza as previsões da fase de classificação para fornecer valores de altura precisos.

Como Funciona o HTC-DC Net

O HTC-DC Net é projetado para lidar com a distribuição de valores de altura em cauda longa, onde alturas baixas são comuns enquanto alturas altas são raras. O método separa os valores de altura em diferentes categorias, permitindo que a rede se concentre mais em previsões precisas para prédios altos enquanto gerencia os dados comuns de baixa altura.

Características Locais e Globais

O módulo HTC-AdaBins consiste em duas ramificações: uma que calcula características locais por meio de um processo de convolução básico, e outra que capta o Contexto Global usando um transformador de visão (ViT). A combinação de características locais e globais melhora a compreensão do modelo sobre a imagem.

A ramificação local processa características locais usando uma camada de convolução, enquanto a ramificação global usa um ViT para lidar com dependências de longo alcance na imagem. Essa combinação permite uma visão mais abrangente dos dados, melhorando a classificação dos valores de altura.

Lidando com a Distribuição em Cauda Longa

Uma das inovações significativas do HTC-DC Net é o método de corte de cabeça-cauda (HTC). Essa técnica trata pixels de alta e baixa altura separadamente, ajudando o modelo a focar em áreas com dados mais críticos, como prédios altos.

Nos dados de sensoriamento remoto, um número significativo de pixels corresponde a áreas de baixa altura. Ao empregar a técnica HTC, a rede pode equilibrar a influência do primeiro plano (objetos altos) e do fundo (itens de baixa altura) durante o treinamento, reduzindo o viés nas previsões.

Processo de Regressão Híbrida

Após a classificação, o modelo usa um processo de regressão híbrida para converter previsões de classes discretas em valores contínuos de altura. Esse processo média os valores de altura preditivos com base em suas probabilidades, suavizando efetivamente os resultados para capturar estimativas de altura mais precisas.

Resultados do HTC-DC Net

O HTC-DC Net foi testado em três conjuntos de dados diferentes, que incluíam vários tipos de imagens de satélite. O desempenho da rede foi avaliado usando métricas que forneceram insights sobre quão bem ela previu alturas em comparação com os valores reais.

No geral, o HTC-DC Net superou métodos existentes por uma margem significativa. Ele gerou mapas de altura mais nítidos, com bordas e detalhes melhor definidos, especialmente em ambientes urbanos onde diferenciar entre prédios e outros objetos é crucial.

Conjuntos de Dados Usados

  1. Conjunto de Dados DFC19: Esse conjunto consiste em imagens de satélite de múltiplas datas, junto com mapas de altura verdadeiros capturados pelo LiDAR. As imagens vêm de duas localidades nos Estados Unidos e cobrem áreas urbanas.

  2. Conjunto de Dados GBH: Esse novo conjunto proposto contém imagens de 19 cidades ao redor do mundo. Ele inclui mapas de altura gerados a partir de dados processados do LiDAR, junto com mapas de pé de prédio.

  3. Conjunto de Dados ISPRS Vaihingen: Esse conjunto inclui imagens aéreas de alta resolução e mapas de altura correspondentes coletados do LiDAR em uma área específica da Alemanha.

Métricas de Avaliação

Para medir o sucesso do HTC-DC Net em comparação com outros métodos, várias métricas foram utilizadas, incluindo:

  • Erro Quadrático Médio (RMSE): Essa métrica analisa o erro pixel a pixel das previsões de altura.
  • RMSE por Prédio: Essa métrica se concentra especificamente na precisão das alturas previstas para prédios, que é vital para aplicações como planejamento urbano.

Comparação com Outros Modelos

O HTC-DC Net foi comparado a vários outros modelos para avaliar sua eficácia. Os resultados demonstraram que ele conseguiu consistentemente melhores métricas de desempenho em todos os conjuntos de dados. Outros métodos existentes muitas vezes tiveram dificuldades com clareza ou subestimaram as alturas dos prédios, especialmente em configurações urbanas complexas.

Conclusão

Em resumo, o HTC-DC Net representa um avanço significativo na estimativa de altura monocular a partir de imagens de sensoriamento remoto. Ao abordar efetivamente desafios como a distribuição de valores de altura em cauda longa e empregar uma abordagem de classificação-regressão, o modelo fornece previsões de altura precisas a partir de imagens de entrada únicas.

Esse trabalho estabelece as bases para pesquisas futuras, principalmente na exploração de métodos para superar mudanças de domínio encontradas em diferentes ambientes urbanos. Os resultados abrem novas avenidas para utilizar imagens ópticas para apoiar uma variedade de aplicações em planejamento urbano, monitoramento ambiental e gestão de desastres.

Pesquisas futuras podem se concentrar em melhorar as capacidades de generalização do modelo em diferentes paisagens urbanas e integrar melhor essa tecnologia em aplicações práticas. À medida que o sensoriamento remoto continua a evoluir, abordagens como o HTC-DC Net desempenharão um papel crucial na construção de uma compreensão mais profunda de nossos ambientes urbanos.

Fonte original

Título: HTC-DC Net: Monocular Height Estimation from Single Remote Sensing Images

Resumo: 3D geo-information is of great significance for understanding the living environment; however, 3D perception from remote sensing data, especially on a large scale, is restricted. To tackle this problem, we propose a method for monocular height estimation from optical imagery, which is currently one of the richest sources of remote sensing data. As an ill-posed problem, monocular height estimation requires well-designed networks for enhanced representations to improve performance. Moreover, the distribution of height values is long-tailed with the low-height pixels, e.g., the background, as the head, and thus trained networks are usually biased and tend to underestimate building heights. To solve the problems, instead of formalizing the problem as a regression task, we propose HTC-DC Net following the classification-regression paradigm, with the head-tail cut (HTC) and the distribution-based constraints (DCs) as the main contributions. HTC-DC Net is composed of the backbone network as the feature extractor, the HTC-AdaBins module, and the hybrid regression process. The HTC-AdaBins module serves as the classification phase to determine bins adaptive to each input image. It is equipped with a vision transformer encoder to incorporate local context with holistic information and involves an HTC to address the long-tailed problem in monocular height estimation for balancing the performances of foreground and background pixels. The hybrid regression process does the regression via the smoothing of bins from the classification phase, which is trained via DCs. The proposed network is tested on three datasets of different resolutions, namely ISPRS Vaihingen (0.09 m), DFC19 (1.3 m) and GBH (3 m). Experimental results show the superiority of the proposed network over existing methods by large margins. Extensive ablation studies demonstrate the effectiveness of each design component.

Autores: Sining Chen, Yilei Shi, Zhitong Xiong, Xiao Xiang Zhu

Última atualização: 2023-09-28 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.16486

Fonte PDF: https://arxiv.org/pdf/2309.16486

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes