Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Aprendizagem de máquinas# Visão computacional e reconhecimento de padrões# Processamento de Imagem e Vídeo

Um Novo Conjunto de Dados para Análise de Imagens do Landsat

SSL4EO-L oferece 5 milhões de imagens para estudar a Terra usando satélites Landsat.

― 8 min ler


Lançamento do Conjunto deLançamento do Conjunto deImagens do Landsatsatélite.capacidades de análise de imagens deNovo conjunto de dados melhora as
Índice

O programa Landsat é um projeto antigo que tá tirando fotos da Terra por mais de 50 anos usando vários satélites. Esses satélites capturam imagens em diferentes cores e comprimentos de onda, que os cientistas usam pra estudar várias coisas relacionadas ao nosso planeta, tipo uso do solo, agricultura e mudanças ambientais. Apesar do crescimento de novas tecnologias como aprendizado profundo, muitos pesquisadores ainda dependem de métodos antigos pra analisar essas imagens. Isso acontece principalmente porque eles geralmente têm conjuntos pequenos de dados rotulados pra trabalhar e faltam modelos avançados específicos pra imagens do Landsat.

O Novo Conjunto de Dados: SSL4EO-L

Pra responder a esses desafios, foi criado um novo conjunto de dados chamado SSL4EO-L. Esse conjunto é feito pra Aprendizado Auto-Supervisionado, um método que permite que os modelos aprendam com dados sem precisar de exemplos rotulados. O conjunto SSL4EO-L é o primeiro desse tipo pra satélites Landsat e é a maior coleção de imagens Landsat já reunida, com 5 milhões de Pedaços de Imagem. Com esse conjunto, os pesquisadores podem analisar melhor as imagens do Landsat e avançar seus trabalhos científicos em Sensoriamento Remoto.

A Importância dos Satélites Landsat

Os satélites Landsat fornecem informações vitais sobre a superfície da Terra. O primeiro satélite, Landsat 1, foi lançado em 23 de julho de 1972, e desde então, várias gerações de satélites foram pro espaço. Cada satélite Landsat trouxe instrumentos diferentes que conseguem capturar múltiplos comprimentos de onda de luz. Esses instrumentos ajudam os pesquisadores a coletar dados tanto em luz visível quanto em infravermelho, que são cruciais pra monitorar a cobertura do solo e mudanças ambientais.

Com o passar dos anos, o programa Landsat viu diferentes tipos de sensores sendo usados. O Scanner Multiespectral, que tava nos cinco primeiros satélites Landsat, foi um instrumento chave pra análise científica. Depois, foi introduzido o Mapeador Temático, que ofereceu mais bandas espectrais e melhor resolução. O Mapeador Temático Aprimorado trouxe imagens com resolução ainda mais alta, e os últimos satélites, Landsat 8 e 9, têm sensores novos pra coletar dados melhores.

A Variedade de Produtos de Dados

O Serviço Geológico dos Estados Unidos (USGS) fornece vários produtos dos satélites Landsat que diferem nos níveis de processamento. Os dados de Nível-1, conhecidos como dados de Topo da Atmosfera (TOA), são imagens que foram alinhadas com pontos de controle no solo e ajustadas para a forma da Terra. Os dados de Nível-2, por outro lado, contêm informações de Reflectância da Superfície (SR) e passaram por correções por efeitos atmosféricos. Cada um desses produtos serve a diferentes aplicações de pesquisa, o que os torna valiosos pros cientistas.

Avanços em Aprendizado Auto-Supervisionado

Nos últimos anos, houve um aumento significativo no uso de aprendizado auto-supervisionado em sensoriamento remoto devido à disponibilidade de grandes quantidades de imagens de satélites não rotuladas. Métodos como Tile2Vec e Aprendizado Auto-Supervisionado Consciente da Geografia surgiram, focando em aprender com as relações entre pontos de dados geográficos. Outras técnicas inovadoras, como autoencoders mascarados, estão se tornando populares pra usar dados existentes de maneira mais eficiente.

O potencial do aprendizado auto-supervisionado em sensoriamento remoto é enorme, já que permite uma melhor representação das imagens sem precisar de extensa rotulagem manual. Isso é particularmente importante pra imagens do Landsat, onde conseguir conjuntos de dados rotulados é muitas vezes desafiador.

A Necessidade de Mais Dados

Apesar dos avanços em tecnologia de satélites e aprendizado de máquina, ainda há uma lacuna em conjuntos de dados focados especificamente em sensores Landsat de diferentes períodos. A maioria dos conjuntos de dados existentes é limitada em cobertura e só atende a certos sensores. O conjunto de dados SSL4EO-L tem o objetivo de preencher essa lacuna fornecendo uma coleção abrangente de imagens que permite aos pesquisadores analisar e comparar diferentes sensores e produtos de forma eficaz.

Criando o Conjunto de Dados SSL4EO-L

Pra criar o conjunto de dados SSL4EO-L, foi adotada uma abordagem sistemática pra garantir a diversidade e qualidade das imagens. O método envolveu selecionar algumas das cidades mais populosas do mundo e amostrar pedaços de imagem ao redor dessas áreas. O processo assegurou que os pedaços selecionados tivessem cobertura de nuvens mínima e que uma variedade de imagens sazonais fossem incluídas.

Os pesquisadores tiveram que equilibrar a coleta de dados adequados enquanto evitavam sobreposição entre os pedaços. Estratégias de amostragem cuidadosas foram utilizadas pra criar um conjunto de dados rico em tipos diversos de cobertura do solo, mantendo a integridade dos dados. A coleção final consiste em 1 milhão de pedaços de imagem por sensor e produto, totalizando cerca de 5 milhões de imagens pro conjunto inteiro.

Um Olhar Mais Próximo nas Fontes de Dados

As imagens coletadas pro conjunto de dados SSL4EO-L vêm do Google Earth Engine, que é uma plataforma poderosa pra acessar e processar imagens de satélite. Os pesquisadores focaram nos produtos de dados mais relevantes do Landsat, evitando sensores mais antigos com disponibilidade de dados limitada. Os conjuntos de dados resultantes são feitos pra imagens de alta resolução e foram estruturados pra facilitar o acesso e uso.

Avaliação e Teste de Modelos

Pra avaliar o quão bem os modelos pré-treinados aprenderam com o conjunto de dados SSL4EO-L, foram criados conjuntos de dados de referência pra testar seu desempenho. Essas referências incluíram vários conjuntos de dados de cobertura de nuvens e conjuntos de dados de classificação de cobertura do solo baseados em mapas de cobertura do solo existentes. Como não houve muitos conjuntos de dados de aprendizado profundo pra sensores mais antigos, os novos benchmarks criados representam um passo essencial pra pesquisas futuras.

O processo de teste envolveu o ajuste fino de modelos pra ver quão bem eles conseguiam classificar tipos de cobertura do solo e detectar cobertura de nuvens. Os pesquisadores descobriram que, enquanto alguns modelos mostraram bom desempenho, outros tiveram dificuldade devido à complexidade dos dados. Mesmo assim, esse teste ajudou a refinar ainda mais os modelos e entender suas forças e fraquezas.

Benefícios do Conjunto de Dados SSL4EO-L

O conjunto de dados SSL4EO-L representa um marco significativo pros pesquisadores que usam imagens do Landsat. Com seu tamanho grande e amostras diversas, ele fornece uma base robusta pra treinar e testar modelos. O conjunto também permite que os pesquisadores explorem uma ampla gama de aplicações, desde agricultura até monitoramento das mudanças climáticas. Ao melhorar a acessibilidade e usabilidade, o conjunto de dados SSL4EO-L pode facilitar avanços em pesquisas científicas e aplicações.

Direções Futuras e Desafios

Embora o conjunto de dados SSL4EO-L seja um grande avanço, ainda há desafios a serem enfrentados. Os pesquisadores reconhecem limitações, como a falta de cobertura pra regiões específicas e a necessidade de mais conjuntos de dados globais. Além disso, à medida que a pesquisa continua em torno das imagens do Landsat, existe o desejo de criar mais conjuntos de dados de referência que possam melhorar ainda mais o desempenho e as avaliações dos modelos.

O potencial de construir sobre conjuntos de dados existentes, incluindo imagens mais recentes e sensores mais antigos, é uma perspectiva empolgante pro futuro. No geral, o trabalho feito nessa área representa um compromisso contínuo em melhorar como usamos imagens de satélite e aprendizado de máquina pra investigação científica.

Conclusão

A introdução do conjunto de dados SSL4EO-L marca um importante desenvolvimento no uso de imagens do Landsat pra fins de pesquisa. Ao aproveitar as capacidades do aprendizado profundo e do aprendizado auto-supervisionado, os pesquisadores agora podem enfrentar questões complexas sobre a superfície da Terra com mais precisão. A importância desse conjunto de dados vai muito além das imagens do Landsat, prometendo influenciar estudos relacionados à agricultura, mudanças climáticas e outras questões ambientais. À medida que o campo continua a evoluir, os avanços na acessibilidade dos dados e nas capacidades dos modelos certamente levarão a mais descobertas científicas e aplicações que beneficiam a sociedade.

Fonte original

Título: SSL4EO-L: Datasets and Foundation Models for Landsat Imagery

Resumo: The Landsat program is the longest-running Earth observation program in history, with 50+ years of data acquisition by 8 satellites. The multispectral imagery captured by sensors onboard these satellites is critical for a wide range of scientific fields. Despite the increasing popularity of deep learning and remote sensing, the majority of researchers still use decision trees and random forests for Landsat image analysis due to the prevalence of small labeled datasets and lack of foundation models. In this paper, we introduce SSL4EO-L, the first ever dataset designed for Self-Supervised Learning for Earth Observation for the Landsat family of satellites (including 3 sensors and 2 product levels) and the largest Landsat dataset in history (5M image patches). Additionally, we modernize and re-release the L7 Irish and L8 Biome cloud detection datasets, and introduce the first ML benchmark datasets for Landsats 4-5 TM and Landsat 7 ETM+ SR. Finally, we pre-train the first foundation models for Landsat imagery using SSL4EO-L and evaluate their performance on multiple semantic segmentation tasks. All datasets and model weights are available via the TorchGeo (https://github.com/microsoft/torchgeo) library, making reproducibility and experimentation easy, and enabling scientific advancements in the burgeoning field of remote sensing for a multitude of downstream applications.

Autores: Adam J. Stewart, Nils Lehmann, Isaac A. Corley, Yi Wang, Yi-Chia Chang, Nassim Ait Ali Braham, Shradha Sehgal, Caleb Robinson, Arindam Banerjee

Última atualização: 2023-10-22 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.09424

Fonte PDF: https://arxiv.org/pdf/2306.09424

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes