Einführung des verfeinerten BigEarthNet-Datensatzes
Ein neuer Datensatz verbessert die Satellitenbildanalyse für die Fernerkundungsforschung.
― 5 min Lesedauer
Inhaltsverzeichnis
- Probleme mit BigEarthNet
- Einführung des verbesserten Datensatzes
- Konstruktion des Datensatzes
- Aktualisierte Labels
- Geografische Aufteilung
- Softwaretools für Effizienz
- Verfügbarkeit vortrainierter Modelle
- Mögliche Anwendungen
- Verbesserte Genauigkeit
- Verbesserte Klassifikationen
- Fazit
- Originalquelle
- Referenz Links
Die zunehmende Nutzung von Satelliten hat eine riesige Menge an Bildern erzeugt, die analysiert werden müssen. Um das effektiv zu machen, ist es wichtig, automatische Methoden zu entwickeln. Forscher sind immer mehr daran interessiert, Deep-Learning-Techniken zu verwenden, um diese Bilder zu analysieren. Um diese Arbeit zu unterstützen, wurden mehrere grosse Datensätze für die Fernerkundung erstellt, was bedeutet, Informationen über Objekte oder Gebiete aus der Ferne zu erhalten.
Einer der bekannten Datensätze ist BigEarthNet. Er besteht aus Bildern von zwei Satellitentypen, Sentinel-1 und Sentinel-2, die zehn europäische Länder abdecken. Dieser Datensatz hat Forschern dabei geholfen, neue Studien in der Fernerkundung zu entwickeln. Allerdings gibt es Herausforderungen mit BigEarthNet, die seine Nützlichkeit beeinträchtigen.
Probleme mit BigEarthNet
Älteres atmosphärisches Korrekturwerkzeug: Die Werkzeuge zur Korrektur atmosphärischer Effekte auf Bildern wurden seit der Erstellung von BigEarthNet verbessert. Das bedeutet, dass Bilder, die mit neueren Werkzeugen bearbeitet wurden, möglicherweise nicht gut mit Modellen funktionieren, die auf älteren Bildern trainiert wurden.
Label-Rauschen: Bei der Erstellung des Datensatzes basierten die Labels, die die Landnutzung und den Landbedeckungszustand beschreiben, auf einer älteren Karte. Diese ursprüngliche Karte wies mehrere Fehler auf, was zu Labels führte, die möglicherweise nicht die tatsächlichen Bedingungen vor Ort genau darstellen.
Korrelation zwischen Datensätzen: Die Art und Weise, wie der Datensatz in Trainings-, Validierungs- und Testsets unterteilt wurde, war nicht optimal. Es gab viel Überlappung, was es schwierig machte, den Erfolg der Modelle genau zu bewerten.
Eingeschränkte Werkzeuge für das Training: Die Arbeit mit dem Datensatz kann lange dauern, besonders während des Modelltrainings. Das bremst den Forschungsprozess.
Mangel an aktualisierten Modellen: Während einige Modelle zur Verfügung standen, als BigEarthNet gestartet wurde, sind seitdem neue Modelle entstanden, die besser abschneiden könnten, aber nicht enthalten sind.
Angesichts dieser Probleme war ein klarer Bedarf, den Datensatz für die Analyse von Fernerkundungsbildern zu verbessern.
Einführung des verbesserten Datensatzes
Um die genannten Probleme anzugehen, wurde ein neuer Datensatz namens refined BigEarthNet (reBEN) erstellt. Dieser Datensatz soll qualitativ bessere Daten für das Deep Learning in der Fernerkundungsbildanalyse bieten.
Konstruktion des Datensatzes
Der reBEN-Datensatz umfasst fast 550.000 Bildpaare von den Satelliten Sentinel-1 und Sentinel-2. Um diesen Datensatz zu erstellen, begannen die Forscher mit den ursprünglichen Kacheln von BigEarthNet und teilten diese Bilder dann in kleinere Abschnitte oder Patches von 1200 Metern mal 1200 Metern.
Um die Qualität dieser Patches zu verbessern, wurde eine aktuelle Version eines atmosphärischen Korrekturwerkzeugs angewendet. Dies führte zu qualitativ hochwertigeren Bildern als die ursprünglich im BigEarthNet vorhandenen. Jeder Patch von Daten ist mit einer detaillierten Karte und einem Satz von Labels verknüpft, die beschreiben, was in jedem Bild zu sehen ist, geeignet für verschiedene Lernaufgaben.
Aktualisierte Labels
Die Labels im reBEN-Datensatz stammen von der aktuellsten CORINE Land Cover-Karte. Dieses Update beseitigt viele der Ungenauigkeiten, die im vorherigen Datensatz vorhanden waren. Mit verbesserten Labels können Forscher auf genauere Informationen für ihre Modelle vertrauen.
Geografische Aufteilung
Eine der wichtigsten Verbesserungen im reBEN-Datensatz ist die Art und Weise, wie die Daten in Trainings-, Validierungs- und Testsets aufgeteilt werden. Eine geografisch basierte Aufteilungstechnik wurde implementiert, um sicherzustellen, dass diese Sets weniger korreliert sind. So kann die Bewertung der Modelle zuverlässiger sein, weil die Trainings- und Testdaten aus verschiedenen Gebieten stammen, was das Risiko von Überlappungen verringert.
Softwaretools für Effizienz
Um das schnellere Training von Deep-Learning-Modellen zu erleichtern, wurde ein neues Softwaretool namens rico-hdl eingeführt. Dieses Tool wandelt den reBEN-Datensatz in ein Format um, das die Verarbeitung beschleunigt. Indem die Daten leichter zugänglich gemacht werden, können sich Forscher mehr darauf konzentrieren, Ergebnisse zu analysieren, anstatt auf das Laden der Daten zu warten.
Verfügbarkeit vortrainierter Modelle
Neben dem neuen Datensatz sind auch vortrainierte Modellgewichte verfügbar. Diese Gewichte wurden mit fortgeschrittenen Deep-Learning-Modellen erzielt und können Forschern helfen, ihre Arbeit zu beginnen, ohne von Grund auf neu anfangen zu müssen.
Mögliche Anwendungen
Der reBEN-Datensatz wird in mehreren Bereichen der Fernerkundung nützlich sein. Forscher können ihn für Aufgaben wie die Klassifikation der Landnutzung verwenden, bei der verschiedene Arten von Land (wie Wälder, städtische Gebiete und Gewässer) identifiziert werden können. Er kann auch dabei helfen, Umweltveränderungen im Laufe der Zeit zu überwachen und wertvolle Einblicke darüber zu geben, wie sich die Landnutzung durch menschliche Aktivitäten oder natürliche Prozesse verändert.
Verbesserte Genauigkeit
In Experimenten, die mit dem reBEN-Datensatz durchgeführt wurden, wurden verschiedene Deep-Learning-Modelle getestet. Die Ergebnisse zeigten, dass Modelle, die auf diesem neuen Datensatz trainiert wurden, besser abschnitten als diejenigen, die auf BigEarthNet trainiert wurden. Zum Beispiel führte die gleichzeitige Verwendung von Bildern sowohl von Sentinel-1 als auch von Sentinel-2 zu besseren Klassifikationsergebnissen im Vergleich zur Verwendung nur eines Bildtyps.
Verbesserte Klassifikationen
Der Datensatz umfasst verschiedene Klassen der Landnutzung und Landbedeckung. Einige Beispiele sind landwirtschaftliche Flächen, städtische Umgebungen, Feuchtgebiete und Wälder. Mit einer reichhaltigen Sammlung von Bildern und genauen Labels können Forscher Modelle entwickeln, die diese Bereiche zuverlässiger klassifizieren.
Fazit
Der refined BigEarthNet-Datensatz stellt einen bedeutenden Fortschritt in der Analyse von Fernerkundungsbildern dar. Durch die Behebung der Probleme im vorherigen Datensatz bietet reBEN qualitativ hochwertige Bilder, genauere Labels und verbesserte Methoden für die Datenaufteilung. Dieser verbesserte Datensatz wird den Forschern helfen, effektiv zuverlässige Ergebnisse in ihren Studien zu Landbedeckung und -nutzung zu produzieren.
Insgesamt wird die Entwicklung des reBEN-Datensatzes den Weg für robustere Forschung und Anwendungen im Bereich der Fernerkundung ebnen. Während sich Technologie und Methoden weiterhin weiterentwickeln, werden Datensätze wie reBEN eine entscheidende Rolle dabei spielen, unsere Umwelt effektiver zu verstehen und zu überwachen.
Titel: reBEN: Refined BigEarthNet Dataset for Remote Sensing Image Analysis
Zusammenfassung: This paper presents refined BigEarthNet (reBEN) that is a large-scale, multi-modal remote sensing dataset constructed to support deep learning (DL) studies for remote sensing image analysis. The reBEN dataset consists of 549,488 pairs of Sentinel-1 and Sentinel-2 image patches. To construct reBEN, we initially consider the Sentinel-1 and Sentinel-2 tiles used to construct the BigEarthNet dataset and then divide them into patches of size 1200 m x 1200 m. We apply atmospheric correction to the Sentinel-2 patches using the latest version of the sen2cor tool, resulting in higher-quality patches compared to those present in BigEarthNet. Each patch is then associated with a pixel-level reference map and scene-level multi-labels. This makes reBEN suitable for pixel- and scene-based learning tasks. The labels are derived from the most recent CORINE Land Cover (CLC) map of 2018 by utilizing the 19-class nomenclature as in BigEarthNet. The use of the most recent CLC map results in overcoming the label noise present in BigEarthNet. Furthermore, we introduce a new geographical-based split assignment algorithm that significantly reduces the spatial correlation among the train, validation, and test sets with respect to those present in BigEarthNet. This increases the reliability of the evaluation of DL models. To minimize the DL model training time, we introduce software tools that convert the reBEN dataset into a DL-optimized data format. In our experiments, we show the potential of reBEN for multi-modal multi-label image classification problems by considering several state-of-the-art DL models. The pre-trained model weights, associated code, and complete dataset are available at https://bigearth.net.
Autoren: Kai Norman Clasen, Leonard Hackel, Tom Burgert, Gencer Sumbul, Begüm Demir, Volker Markl
Letzte Aktualisierung: 2024-07-29 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.03653
Quell-PDF: https://arxiv.org/pdf/2407.03653
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://texdoc.org/serve/caption/0
- https://ctan.org/pkg/amssymb
- https://ctan.org/pkg/pifont
- https://tex.stackexchange.com/questions/51079/add-retrieved-last-accessed-or-similar-information-to-authoryear-in-biblate
- https://arxiv.org/abs/#1
- https://tex.stackexchange.com/questions/560975/alternative-to-the-soul-package
- https://doi.org/10.5281/zenodo.10891137
- https://bigearth.net
- https://github.com/rsim-tu-berlin/bigearthnet-pipeline
- https://tubcloud.tu-berlin.de/s/XiWyYNq4arfzfCe
- https://github.com/rsim-tu-berlin/rico-hdl
- https://git.tu-berlin.de/rsim/reben-training-scripts
- https://huggingface.co/BIFOLD-BigEarthNetv2-0
- https://markov.htwsaar.de/tex-archive/macros/latex/contrib/siunitx/siunitx.pdf