Ein neuer Datensatz für die Analyse von Landsat-Bildern
SSL4EO-L bietet 5 Millionen Bilder, um die Erde mit Landsat-Satelliten zu studieren.
― 7 min Lesedauer
Inhaltsverzeichnis
- Das Neue Dataset: SSL4EO-L
- Die Bedeutung von Landsat-Satelliten
- Die Vielfalt der Datenprodukte
- Fortschritte im selbstüberwachten Lernen
- Der Bedarf an mehr Daten
- Erstellung des SSL4EO-L Datasets
- Ein genauerer Blick auf die Datenquellen
- Benchmarking und Testen von Modellen
- Vorteile des SSL4EO-L Datasets
- Zukünftige Richtungen und Herausforderungen
- Fazit
- Originalquelle
- Referenz Links
Das Landsat-Programm ist ein langlaufendes Projekt, das seit über 50 Jahren Fotos von der Erde macht und dafür verschiedene Satelliten nutzt. Diese Satelliten nehmen Bilder in verschiedenen Farben und Wellenlängen auf, die Wissenschaftler nutzen, um verschiedene Dinge über unseren Planeten zu studieren, wie Landnutzung, Landwirtschaft und Umweltveränderungen. Trotz der Entwicklung neuer Technologien wie Deep Learning verlassen sich viele Forscher immer noch auf ältere Methoden, um diese Bilder zu analysieren. Das liegt hauptsächlich daran, dass sie oft nur kleine Mengen an beschrifteten Daten zur Verfügung haben und keine fortgeschrittenen Modelle, die speziell für Landsat-Bilder entwickelt wurden.
Das Neue Dataset: SSL4EO-L
Um diese Herausforderungen zu meistern, wurde ein neues Dataset namens SSL4EO-L erstellt. Dieses Dataset ist für Selbstüberwachtes Lernen konzipiert, eine Methode, die es Modellen ermöglicht, aus Daten zu lernen, ohne beschriftete Beispiele zu benötigen. Das SSL4EO-L Dataset ist das erste seiner Art für Landsat-Satelliten und die grösste Sammlung von Landsat-Bildern, die jemals zusammengestellt wurde, mit 5 Millionen Bildausschnitten. Mit diesem Dataset können Forscher jetzt Landsat-Bilder besser analysieren und ihre wissenschaftliche Arbeit im Bereich Fernerkundung vorantreiben.
Die Bedeutung von Landsat-Satelliten
Landsat-Satelliten liefern wichtige Informationen über die Erdoberfläche. Der erste Satellit, Landsat 1, wurde am 23. Juli 1972 gestartet, und seitdem wurden mehrere Generationen von Satelliten in den Orbit geschickt. Jeder Landsat-Satellit hat verschiedene Instrumente getragen, die in der Lage sind, mehrere Wellenlängen des Lichts einzufangen. Diese Instrumente helfen den Forschern, Daten sowohl im sichtbaren Licht als auch im Infrarot zu sammeln, die entscheidend sind, um die Landbedeckung und Umweltveränderungen zu überwachen.
Im Laufe der Jahre hat das Landsat-Programm verschiedene Sensortypen verwendet. Der Multispektralscanner an Bord der ersten fünf Landsat-Satelliten war ein wichtiges Instrument für wissenschaftliche Analysen. Später wurde der Thematic Mapper eingeführt, der mehr spektrale Bänder und eine verbesserte Auflösung bot. Der Enhanced Thematic Mapper Plus lieferte sogar hochauflösende Bilder, und die neuesten Satelliten, Landsat 8 und 9, haben neue Sensoren für eine bessere Datensammlung.
Die Vielfalt der Datenprodukte
Der United States Geological Survey (USGS) bietet verschiedene Produkte von den Landsat-Satelliten an, die sich in den Verarbeitungsstufen unterscheiden. Level-1-Daten, bekannt als Top of Atmosphere (TOA) Daten, sind Bilder, die mit Kontrollpunkten auf dem Boden ausgerichtet und für die Form der Erde angepasst wurden. Level-2-Daten enthalten hingegen Informationen zur Oberflächenreflexion (SR) und wurden für atmosphärische Effekte korrigiert. Jedes dieser Produkte dient unterschiedlichen Forschungsanwendungen und ist für Wissenschaftler wertvoll.
Fortschritte im selbstüberwachten Lernen
In den letzten Jahren hat die Nutzung von selbstüberwachtem Lernen in der Fernerkundung wegen der Verfügbarkeit grosser Mengen an unbeschrifteten Satellitenbildern deutlich zugenommen. Methoden wie Tile2Vec und Geography-Aware Self-Supervised Learning haben an Bedeutung gewonnen, indem sie sich auf das Lernen aus den Beziehungen zwischen geografischen Datenpunkten konzentrieren. Andere innovative Techniken, wie maskierte Autoencoder, werden immer beliebter, um vorhandene Daten effizienter zu nutzen.
Das Potenzial für selbstüberwachtes Lernen in der Fernerkundung ist enorm, da es eine bessere Repräsentation von Bildern ermöglicht, ohne umfangreiche manuelle Beschriftungen. Das ist besonders wichtig für Landsat-Bilder, wo das Beschaffen von beschrifteten Datensätzen oft eine Herausforderung darstellt.
Der Bedarf an mehr Daten
Trotz der Fortschritte in der Satellitentechnologie und im maschinellen Lernen gibt es eine Lücke in Datensätzen, die speziell auf Landsat-Sensoren aus verschiedenen Zeitperioden fokussiert sind. Die meisten bestehenden Datensätze sind in der Abdeckung eingeschränkt und bedienen nur bestimmte Sensoren. Das SSL4EO-L Dataset hat sich zum Ziel gesetzt, diese Lücke zu schliessen, indem es eine umfassende Sammlung von Bildern bietet, die es Forschern ermöglicht, verschiedene Sensoren und Produkte effektiv zu analysieren und zu vergleichen.
Erstellung des SSL4EO-L Datasets
Um das SSL4EO-L Dataset zu erstellen, wurde ein systematischer Ansatz gewählt, um die Vielfalt und Qualität der Bilder sicherzustellen. Die Methode bestand darin, einige der bevölkerungsreichsten Städte der Welt auszuwählen und Bildausschnitte aus diesen Gebieten zu nehmen. Der Prozess sorgte dafür, dass die ausgewählten Ausschnitte möglichst wenig Wolkenbedeckung aufwiesen und eine Vielzahl saisonaler Bilder enthalten waren.
Die Forscher mussten ein Gleichgewicht zwischen der Sammlung ausreichender Daten und der Vermeidung von Überlappungen zwischen den Ausschnitten finden. Sorgfältige Auswahlstrategien wurden angewendet, um ein Dataset zu erstellen, das reich an verschiedenen Landbedeckungstypen ist und gleichzeitig die Integrität der Daten bewahrt. Die endgültige Sammlung besteht aus 1 Million Bildausschnitten pro Sensor und Produkt, insgesamt etwa 5 Millionen Bilder für das gesamte Dataset.
Ein genauerer Blick auf die Datenquellen
Die Bilder, die für das SSL4EO-L Dataset gesammelt wurden, stammen von Google Earth Engine, die als leistungsstarke Plattform für den Zugriff auf und die Verarbeitung von Satellitenbildern dient. Die Forscher konzentrierten sich auf die relevantesten Datenprodukte von Landsat und vermieden dabei ältere Sensoren mit begrenzter Datenverfügbarkeit. Die resultierenden Datensätze sind für hochauflösende Bilder massgeschneidert und wurden so strukturiert, dass sie einen einfachen Zugang und eine einfache Nutzung ermöglichen.
Benchmarking und Testen von Modellen
Um zu bewerten, wie gut die vortrainierten Modelle aus dem SSL4EO-L Dataset gelernt haben, wurden Benchmark-Datensätze erstellt, um ihre Leistung zu testen. Diese Benchmarks beinhalteten verschiedene Wolkenbedeckungsdatensätze und Datensätze zur Landnutzungsklassifikation, die auf bestehenden Landnutzungskarten basieren. Da es bisher nicht viele Deep Learning-Datensätze für ältere Sensoren gab, stellen die neu geschaffenen Benchmarks einen wichtigen Schritt für zukünftige Forschungen dar.
Der Testprozess beinhaltete das Fine-Tuning von Modellen, um zu sehen, wie gut sie Landbedeckungstypen klassifizieren und Wolkenbedeckung erkennen konnten. Die Forscher fanden heraus, dass einige Modelle eine gute Leistung zeigten, während andere aufgrund der Komplexität der Daten Schwierigkeiten hatten. Dennoch half dieses Testen, die Modelle weiter zu verfeinern und ihre Stärken und Schwächen zu verstehen.
Vorteile des SSL4EO-L Datasets
Das SSL4EO-L Dataset stellt einen wichtigen Meilenstein für Forscher dar, die Landsat-Bilder nutzen. Mit seiner grossen Grösse und den vielfältigen Proben bietet es eine solide Grundlage für das Training und Testen von Modellen. Das Dataset ermöglicht es den Forschern auch, eine Vielzahl von Anwendungen zu erkunden, von Landwirtschaft bis zur Überwachung des Klimawandels. Durch die Verbesserung der Zugänglichkeit und Benutzerfreundlichkeit kann das SSL4EO-L Dataset Fortschritte in der wissenschaftlichen Forschung und Anwendung fördern.
Zukünftige Richtungen und Herausforderungen
Obwohl das SSL4EO-L Dataset einen grossen Fortschritt darstellt, gibt es noch Herausforderungen, die angegangen werden müssen. Die Forscher erkennen Einschränkungen an, wie das Fehlen von Abdeckung für spezifische Regionen und den Bedarf an weiteren globalen Datensätzen. Darüber hinaus gibt es den Wunsch, weitere Benchmark-Datensätze zu erstellen, die die Modellleistung und -bewertungen weiter verbessern können, während die Forschung zu Landsat-Bildern fortschreitet.
Das Potenzial, bestehende Datensätze durch die Einbeziehung neuerer Bilder sowie älterer Sensoren auszubauen, ist eine aufregende Perspektive für die Zukunft. Insgesamt repräsentiert die Arbeit in diesem Bereich ein fortwährendes Engagement für die Verbesserung der Nutzung von Satellitenbildern und maschinellem Lernen für wissenschaftliche Fragestellungen.
Fazit
Die Einführung des SSL4EO-L Datasets markiert eine wichtige Entwicklung in der Nutzung von Landsat-Bildern für Forschungszwecke. Durch die Nutzung der Möglichkeiten von Deep Learning und selbstüberwachtem Lernen können Forscher jetzt komplexe Fragen zur Erdoberfläche mit grösserer Präzision angehen. Die Bedeutung dieses Datasets geht weit über Landsat-Bilder hinaus und verspricht Auswirkungen auf Studien zu Landwirtschaft, Klimawandel und anderen Umweltfragen. Während sich das Feld weiterhin entwickelt, werden die Fortschritte in der Datenzugänglichkeit und den Modellfähigkeiten zweifellos zu weiteren wissenschaftlichen Durchbrüchen und Anwendungen führen, die der Gesellschaft zugutekommen.
Titel: SSL4EO-L: Datasets and Foundation Models for Landsat Imagery
Zusammenfassung: The Landsat program is the longest-running Earth observation program in history, with 50+ years of data acquisition by 8 satellites. The multispectral imagery captured by sensors onboard these satellites is critical for a wide range of scientific fields. Despite the increasing popularity of deep learning and remote sensing, the majority of researchers still use decision trees and random forests for Landsat image analysis due to the prevalence of small labeled datasets and lack of foundation models. In this paper, we introduce SSL4EO-L, the first ever dataset designed for Self-Supervised Learning for Earth Observation for the Landsat family of satellites (including 3 sensors and 2 product levels) and the largest Landsat dataset in history (5M image patches). Additionally, we modernize and re-release the L7 Irish and L8 Biome cloud detection datasets, and introduce the first ML benchmark datasets for Landsats 4-5 TM and Landsat 7 ETM+ SR. Finally, we pre-train the first foundation models for Landsat imagery using SSL4EO-L and evaluate their performance on multiple semantic segmentation tasks. All datasets and model weights are available via the TorchGeo (https://github.com/microsoft/torchgeo) library, making reproducibility and experimentation easy, and enabling scientific advancements in the burgeoning field of remote sensing for a multitude of downstream applications.
Autoren: Adam J. Stewart, Nils Lehmann, Isaac A. Corley, Yi Wang, Yi-Chia Chang, Nassim Ait Ali Braham, Shradha Sehgal, Caleb Robinson, Arindam Banerjee
Letzte Aktualisierung: 2023-10-22 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2306.09424
Quell-PDF: https://arxiv.org/pdf/2306.09424
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://neurips.cc/public/guides/PaperChecklist
- https://github.com/microsoft/torchgeo
- https://www.usgs.gov/faqs/how-do-i-use-scale-factor-landsat-level-2-science-products
- https://huggingface.co/torchgeo
- https://www.usgs.gov/landsat-missions/landsat-collection-2-surface-reflectance
- https://github.com/microsoft/torchgeo/tree/main/experiments/ssl4eo/landsat/README.md