Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Apprentissage automatique# Vision par ordinateur et reconnaissance des formes# Traitement de l'image et de la vidéo

Un nouveau jeu de données pour l'analyse des images Landsat

SSL4EO-L propose 5 millions d'images pour étudier la Terre avec les satellites Landsat.

― 8 min lire


Lancement du jeu deLancement du jeu dedonnées d'images Landsatsatellites.capacités d'analyse des imagesNouveau jeu de données améliore les
Table des matières

Le programme Landsat, c'est un projet qui dure depuis plus de 50 ans et qui prend des photos de la Terre grâce à différents satellites. Ces satellites capturent des images dans plein de couleurs et de longueurs d'onde, que les scientifiques utilisent pour étudier divers trucs liés à notre planète, comme l'utilisation des terres, l'agriculture et les changements environnementaux. Même si de nouvelles technologies comme l'apprentissage profond sont en plein boom, beaucoup de chercheurs continuent de se fier à des méthodes plus anciennes pour analyser ces images. C'est surtout parce qu'ils ont souvent des petits jeux de données étiquetés et qu'ils manquent de modèles avancés spécifiquement conçus pour les images Landsat.

Le Nouveau Dataset : SSL4EO-L

Pour répondre à ces défis, un nouveau dataset appelé SSL4EO-L a été créé. Ce dataset est fait pour l'Apprentissage auto-supervisé, une méthode qui permet aux modèles d'apprendre à partir des données sans avoir besoin d'exemples étiquetés. Le dataset SSL4EO-L est le premier du genre pour les satellites Landsat et c'est la plus grande collection d'images Landsat jamais assemblée, avec 5 millions de patchs d'images. Grâce à ce dataset, les chercheurs peuvent mieux analyser les images Landsat et faire avancer leur recherche en Télédétection.

L'Importance des Satellites Landsat

Les satellites Landsat fournissent des informations vitales sur la surface de la Terre. Le premier satellite, Landsat 1, a été lancé le 23 juillet 1972, et depuis, plusieurs générations de satellites ont été envoyées en orbite. Chaque satellite Landsat a transporté différents instruments capables de capturer plusieurs longueurs d'onde de lumière. Ces instruments aident les chercheurs à collecter des données à la fois en lumière visible et en infrarouge, ce qui est crucial pour surveiller l'occupation des terres et les changements environnementaux.

Au fil des ans, le programme Landsat a utilisé différents types de capteurs. Le Multispectral Scanner des cinq premiers satellites Landsat était un instrument clé pour l'analyse scientifique. Par la suite, le Thematic Mapper a été introduit, offrant plus de bandes spectrales et une meilleure résolution. L'Enhanced Thematic Mapper Plus a apporté des images encore plus haute résolution, et les derniers satellites, Landsat 8 et 9, incluent de nouveaux capteurs pour une meilleure collecte de données.

La Variété des Produits de Données

Le United States Geological Survey (USGS) propose divers produits des satellites Landsat qui diffèrent selon les niveaux de traitement. Les données de niveau 1, connues sous le nom de données Top of Atmosphere (TOA), sont des images qui ont été alignées avec des points de contrôle au sol et ajustées pour la forme de la Terre. Les données de niveau 2, en revanche, contiennent des informations de Surface Reflectance (SR) et ont subi des corrections pour les effets atmosphériques. Chacun de ces produits sert à différentes applications de recherche, ce qui les rend précieux pour les scientifiques.

Avancées dans l'Apprentissage Auto-Supervisé

Ces dernières années, on a vu une augmentation significative de l'utilisation de l'apprentissage auto-supervisé en télédétection grâce à la disponibilité de grandes quantités d'images satellites non étiquetées. Des méthodes comme Tile2Vec et l'Apprentissage Auto-Supervisé Sensible à la Géographie ont émergé, se concentrant sur l'apprentissage à partir des relations entre les points de données géographiques. D'autres techniques innovantes, comme les autoencodeurs masqués, deviennent populaires pour exploiter les données existantes plus efficacement.

Le potentiel de l'apprentissage auto-supervisé en télédétection est immense, car il permet de mieux représenter les images sans avoir besoin d'une étiquetage manuel intensif. C'est particulièrement important pour les images Landsat, où obtenir des jeux de données étiquetés est souvent compliqué.

Le Besoin de Plus de Données

Malgré les avancées dans la technologie des satellites et l'apprentissage automatique, il y a un vide dans les datasets spécifiquement axés sur les capteurs Landsat de différentes périodes. La plupart des datasets existants sont limités en couverture et ne s'adressent qu'à certains capteurs. Le dataset SSL4EO-L vise à combler ce vide en fournissant une collection complète d'images qui permettent aux chercheurs d'analyser et de comparer différents capteurs et produits efficacement.

Création du Dataset SSL4EO-L

Pour créer le dataset SSL4EO-L, une approche systématique a été adoptée pour garantir la diversité et la qualité des images. La méthode impliquait de sélectionner certaines des villes les plus peuplées au monde et de prélever des patchs d'images autour de ces zones. Le processus a veillé à ce que les patchs sélectionnés aient un minimum de couverture nuageuse et qu'une variété d'images saisonnières soit incluse.

Les chercheurs ont dû trouver un équilibre entre la collecte de données adéquates tout en évitant le chevauchement entre les patchs. Des stratégies d'échantillonnage minutieuses ont été utilisées pour créer un dataset riche en types de couverture terrestre divers tout en maintenant l'intégrité des données. La collection finale se compose de 1 million de patchs d'images par capteur et produit, totalisant environ 5 millions d'images pour l'ensemble du dataset.

Un Regard Plus Près sur les Sources de Données

Les images collectées pour le dataset SSL4EO-L proviennent de Google Earth Engine, qui sert de plateforme puissante pour accéder et traiter les images satellites. Les chercheurs se sont concentrés sur les produits de données les plus pertinents de Landsat, en évitant spécifiquement les capteurs plus anciens avec une disponibilité de données limitée. Les datasets résultants sont adaptés pour des images haute résolution et ont été structurés pour faciliter un accès et une utilisation aisés.

Évaluation et Test des Modèles

Pour évaluer comment les modèles pré-entraînés ont appris à partir du dataset SSL4EO-L, des datasets de référence ont été créés pour tester leurs performances. Ces benchmarks incluaient divers datasets de couverture nuageuse et des datasets de classification de couverture terrestre basés sur des cartes de couverture terrestre existantes. Comme il n'y a pas eu beaucoup de datasets d'apprentissage profond pour les capteurs plus anciens, les nouveaux benchmarks créés représentent une étape essentielle pour la recherche future.

Le processus de test a impliqué d'affiner les modèles pour voir à quel point ils pouvaient bien classifier les types de couverture terrestre et détecter la couverture nuageuse. Les chercheurs ont trouvé que, tandis que certains modèles montraient de bonnes performances, d'autres avaient du mal à cause de la complexité des données. Néanmoins, ce test a aidé à affiner davantage les modèles et à comprendre leurs forces et faiblesses.

Avantages du Dataset SSL4EO-L

Le dataset SSL4EO-L représente une avancée significative pour les chercheurs utilisant l'imagerie Landsat. Avec sa grande taille et ses échantillons divers, il fournit une base solide pour former et tester des modèles. Le dataset permet également aux chercheurs d'explorer un large éventail d'applications, de l'agriculture à la surveillance du changement climatique. En améliorant l'accessibilité et l'utilisabilité, le dataset SSL4EO-L peut faciliter des avancées dans la recherche scientifique et les applications.

Directions Futures et Défis

Bien que le dataset SSL4EO-L soit un grand pas en avant, il reste encore des défis à relever. Les chercheurs reconnaissent des limitations, comme le manque de couverture pour certaines régions et le besoin de datasets globaux supplémentaires. De plus, à mesure que la recherche continue autour des images Landsat, il y a un désir de créer plus de datasets de référence qui peuvent encore améliorer la performance et les évaluations des modèles.

Le potentiel de construire sur les datasets existants en incluant des images plus récentes, ainsi que des capteurs plus anciens, est une perspective excitante pour l'avenir. Dans l'ensemble, le travail en cours dans ce domaine représente un engagement continu à améliorer la manière dont nous utilisons l'imagerie satellite et l'apprentissage automatique pour l'enquête scientifique.

Conclusion

L'introduction du dataset SSL4EO-L marque un développement important dans l'utilisation des images Landsat à des fins de recherche. En exploitant les capacités de l'apprentissage profond et de l'apprentissage auto-supervisé, les chercheurs peuvent maintenant aborder des questions complexes sur la surface de la Terre avec plus de précision. La signification de ce dataset s'étend bien au-delà de l'imagerie Landsat, promettant d'influencer des études liées à l'agriculture, au changement climatique et à d'autres problèmes environnementaux. À mesure que le domaine continue d'évoluer, les avancées en matière d'accessibilité des données et de capacités des modèles mèneront sans aucun doute à d'autres percées scientifiques et applications qui bénéficient à la société.

Source originale

Titre: SSL4EO-L: Datasets and Foundation Models for Landsat Imagery

Résumé: The Landsat program is the longest-running Earth observation program in history, with 50+ years of data acquisition by 8 satellites. The multispectral imagery captured by sensors onboard these satellites is critical for a wide range of scientific fields. Despite the increasing popularity of deep learning and remote sensing, the majority of researchers still use decision trees and random forests for Landsat image analysis due to the prevalence of small labeled datasets and lack of foundation models. In this paper, we introduce SSL4EO-L, the first ever dataset designed for Self-Supervised Learning for Earth Observation for the Landsat family of satellites (including 3 sensors and 2 product levels) and the largest Landsat dataset in history (5M image patches). Additionally, we modernize and re-release the L7 Irish and L8 Biome cloud detection datasets, and introduce the first ML benchmark datasets for Landsats 4-5 TM and Landsat 7 ETM+ SR. Finally, we pre-train the first foundation models for Landsat imagery using SSL4EO-L and evaluate their performance on multiple semantic segmentation tasks. All datasets and model weights are available via the TorchGeo (https://github.com/microsoft/torchgeo) library, making reproducibility and experimentation easy, and enabling scientific advancements in the burgeoning field of remote sensing for a multitude of downstream applications.

Auteurs: Adam J. Stewart, Nils Lehmann, Isaac A. Corley, Yi Wang, Yi-Chia Chang, Nassim Ait Ali Braham, Shradha Sehgal, Caleb Robinson, Arindam Banerjee

Dernière mise à jour: 2023-10-22 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.09424

Source PDF: https://arxiv.org/pdf/2306.09424

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires