Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Visão computacional e reconhecimento de padrões# Processamento de Imagem e Vídeo

Apresentando o Conjunto de Dados Refined BigEarthNet

Um novo conjunto de dados melhora a análise de imagens de satélite para pesquisas de sensoriamento remoto.

― 6 min ler


Dataset BigEarthNetDataset BigEarthNetRefinado Liberadosensoriamento remoto.capacidades e a precisão doNovo conjunto de dados melhora as
Índice

O uso crescente de satélites gerou uma quantidade enorme de imagens que precisam ser analisadas. Pra fazer isso de forma eficiente, é importante desenvolver métodos automáticos. Os pesquisadores estão cada vez mais interessados em usar técnicas de deep learning pra ajudar na análise dessas imagens. Pra apoiar esse trabalho, vários grandes conjuntos de dados foram criados pra sensoriamento remoto, que é o processo de obter informações sobre objetos ou áreas à distância.

Um dos conjuntos de dados mais conhecidos é o BigEarthNet. Ele é composto por imagens de dois tipos de satélites, Sentinel-1 e Sentinel-2, cobrindo dez países europeus. Esse conjunto ajudou os pesquisadores a desenvolver novos estudos em sensoriamento remoto. Contudo, existem desafios com o BigEarthNet que afetam sua utilidade.

Problemas com o BigEarthNet

  1. Ferramenta de Correção Atmosférica Antiga: As ferramentas usadas pra corrigir os efeitos atmosféricos nas imagens melhoraram desde que o BigEarthNet foi criado. Isso significa que imagens processadas com ferramentas mais novas podem não funcionar bem com modelos treinados em imagens mais antigas.

  2. Ruído nas Labels: Ao criar o conjunto de dados, as labels que descrevem o uso da terra e a cobertura do solo foram baseadas em um mapa antigo. Esse mapa original tinha vários erros, resultando em labels que podem não representar com precisão as condições reais no chão.

  3. Correlação entre os Divisões de Dados: A forma como o conjunto de dados foi dividido em conjuntos de treino, Validação e teste não foi ideal. Houve muito sobreposição, o que dificultou avaliar com precisão o sucesso dos modelos.

  4. Ferramentas Limitadas para Treinamento: Trabalhar com o conjunto de dados pode demorar um tempão, especialmente durante o treinamento do modelo. Isso atrasa o processo de pesquisa.

  5. Falta de Modelos Atualizados: Enquanto alguns modelos estavam disponíveis quando o BigEarthNet foi lançado, novos modelos surgiram desde então que poderiam ter um desempenho melhor, mas não estão incluídos.

Diante desses problemas, havia uma necessidade clara de melhorar o conjunto de dados para a análise de imagens de sensoriamento remoto.

Apresentando o Conjunto de Dados Melhorado

Pra resolver os problemas mencionados, um novo conjunto de dados chamado refined BigEarthNet (reBEN) foi criado. Esse conjunto tem como objetivo oferecer dados de melhor qualidade pra deep learning na análise de imagens de sensoriamento remoto.

Construção do Conjunto de Dados

O conjunto reBEN inclui quase 550.000 pares de imagens dos satélites Sentinel-1 e Sentinel-2. Pra criar esse conjunto, os pesquisadores começaram com os tiles originais do BigEarthNet e depois dividiram essas imagens em seções menores ou patches de 1200 metros por 1200 metros.

Pra melhorar a qualidade desses patches, uma versão recente de uma ferramenta de correção atmosférica foi aplicada. Isso resultou em imagens de qualidade superior às que estavam originalmente no BigEarthNet. Cada patch de dados está ligado a um mapa detalhado e um conjunto de labels que descrevem o que tem em cada imagem, adequado pra várias tarefas de aprendizado.

Labels Atualizadas

As labels no conjunto de dados reBEN foram tiradas do mapa mais recente de CORINE Land Cover. Essa atualização elimina muitas das imprecisões presentes no conjunto anterior. Com a rotulagem melhorada, os pesquisadores conseguem confiar em informações mais precisas pros seus modelos.

Atribuição de Divisão Geográfica

Uma das principais melhorias no conjunto reBEN é a forma como os dados são divididos em conjuntos de treino, validação e teste. Uma técnica de divisão baseada em geografia foi implementada pra garantir que esses conjuntos tenham menos correlação. Assim, a avaliação dos modelos pode ser mais confiável, porque os dados de treino e teste vêm de áreas diferentes, reduzindo o risco de sobreposição.

Ferramentas de Software para Eficiência

Pra facilitar um treinamento mais rápido dos modelos de deep learning, uma nova ferramenta de software chamada rico-hdl foi introduzida. Essa ferramenta converte o conjunto reBEN em um formato que acelera o processamento. Ao tornar os dados mais fáceis de acessar, os pesquisadores podem focar mais na análise dos resultados do que ficar esperando os dados carregarem.

Disponibilidade de Modelos Pré-Treinados

Junto com o novo conjunto de dados, pesos de modelos pré-treinados também estão disponíveis. Esses pesos foram obtidos usando modelos avançados de deep learning e podem ajudar os pesquisadores a dar um gás no trabalho sem começar do zero.

Aplicações Potenciais

O conjunto de dados reBEN deve ser útil em várias áreas do sensoriamento remoto. Os pesquisadores podem usá-lo pra tarefas como classificação do uso da terra, onde diferentes tipos de terra (como florestas, áreas urbanas e corpos d'água) podem ser identificados. Também pode ajudar a monitorar mudanças ambientais ao longo do tempo, oferecendo insights valiosos sobre como a cobertura do solo muda devido à atividade humana ou processos naturais.

Precisão Melhorada

Em experimentos realizados usando o conjunto de dados reBEN, vários modelos de deep learning foram testados. Os resultados mostraram que os modelos treinados nesse novo conjunto tiveram um desempenho melhor do que aqueles treinados no BigEarthNet. Por exemplo, usar imagens do Sentinel-1 e Sentinel-2 juntas proporcionou resultados de classificação aprimorados em comparação a usar apenas um tipo de imagem.

Classificações Aumentadas

O conjunto inclui classes diversas de uso da terra e cobertura do solo. Alguns exemplos incluem áreas agrícolas, ambientes urbanos, zonas úmidas e florestas. Com uma coleção rica de imagens e labels precisas, os pesquisadores podem desenvolver modelos que classificam essas áreas de forma mais confiável.

Conclusão

O conjunto de dados refined BigEarthNet representa um avanço importante na análise de imagens de sensoriamento remoto. Ao abordar os problemas encontrados no conjunto anterior, o reBEN oferece imagens de maior qualidade, labels mais precisas e metodologias aprimoradas para a divisão de dados. Esse conjunto melhorado ajudará os pesquisadores a produzir resultados confiáveis de forma eficiente em seus estudos relacionados à cobertura e uso da terra.

No geral, o desenvolvimento do conjunto de dados reBEN está preparado pra abrir caminho pra pesquisas e aplicações mais robustas no campo do sensoriamento remoto. À medida que a tecnologia e as metodologias continuam avançando, conjuntos de dados como o reBEN vão desempenhar um papel crucial em entender e monitorar nosso ambiente de forma mais eficaz.

Fonte original

Título: reBEN: Refined BigEarthNet Dataset for Remote Sensing Image Analysis

Resumo: This paper presents refined BigEarthNet (reBEN) that is a large-scale, multi-modal remote sensing dataset constructed to support deep learning (DL) studies for remote sensing image analysis. The reBEN dataset consists of 549,488 pairs of Sentinel-1 and Sentinel-2 image patches. To construct reBEN, we initially consider the Sentinel-1 and Sentinel-2 tiles used to construct the BigEarthNet dataset and then divide them into patches of size 1200 m x 1200 m. We apply atmospheric correction to the Sentinel-2 patches using the latest version of the sen2cor tool, resulting in higher-quality patches compared to those present in BigEarthNet. Each patch is then associated with a pixel-level reference map and scene-level multi-labels. This makes reBEN suitable for pixel- and scene-based learning tasks. The labels are derived from the most recent CORINE Land Cover (CLC) map of 2018 by utilizing the 19-class nomenclature as in BigEarthNet. The use of the most recent CLC map results in overcoming the label noise present in BigEarthNet. Furthermore, we introduce a new geographical-based split assignment algorithm that significantly reduces the spatial correlation among the train, validation, and test sets with respect to those present in BigEarthNet. This increases the reliability of the evaluation of DL models. To minimize the DL model training time, we introduce software tools that convert the reBEN dataset into a DL-optimized data format. In our experiments, we show the potential of reBEN for multi-modal multi-label image classification problems by considering several state-of-the-art DL models. The pre-trained model weights, associated code, and complete dataset are available at https://bigearth.net.

Autores: Kai Norman Clasen, Leonard Hackel, Tom Burgert, Gencer Sumbul, Begüm Demir, Volker Markl

Última atualização: 2024-07-29 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.03653

Fonte PDF: https://arxiv.org/pdf/2407.03653

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes