Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Visione artificiale e riconoscimento di modelli# Elaborazione di immagini e video

Presentiamo il dataset BigEarthNet raffinato

Un nuovo dataset migliora l'analisi delle immagini satellitari per la ricerca nel telerilevamento.

― 5 leggere min


Pubblicato il DatasetPubblicato il DatasetBigEarthNet Affinatol'accuratezza del telerilevamento.Nuovo dataset migliora le capacità e
Indice

L'uso crescente dei satelliti ha creato un'enorme quantità di immagini da analizzare. Per farlo in modo efficace, è importante trovare metodi automatici. I ricercatori sono sempre più interessati a usare tecniche di deep learning per aiutare ad analizzare queste immagini. Per supportare questo lavoro, sono stati creati diversi grandi dataset per il remote sensing, che è il processo di ottenere informazioni su oggetti o aree da lontano.

Uno dei dataset più noti è BigEarthNet. Consiste in immagini di due tipi di satelliti, Sentinel-1 e Sentinel-2, che coprono dieci paesi europei. Questo dataset ha aiutato i ricercatori a sviluppare nuovi studi nel remote sensing. Tuttavia, ci sono delle sfide con BigEarthNet che ne influenzano l'utilità.

Problemi con BigEarthNet

  1. Strumento di correzione atmosferica obsoleto: Gli strumenti usati per correggere gli effetti atmosferici sulle immagini sono stati migliorati da quando è stato creato BigEarthNet. Questo significa che le immagini elaborate con strumenti più recenti potrebbero non funzionare bene con i modelli addestrati su immagini più vecchie.

  2. Rumore nelle Etichette: Quando è stato creato il dataset, le etichette che descrivono l'uso e la copertura del suolo si basavano su una mappa precedente. Questa mappa originale conteneva diversi errori, risultando in etichette che potrebbero non rappresentare accuratamente le condizioni reali sul campo.

  3. Correlazione tra le suddivisioni dei dati: Il modo in cui il dataset è stato suddiviso in set di addestramento, Validazione e test non era ottimale. C'era molta sovrapposizione, il che rendeva difficile valutare con precisione il successo dei modelli.

  4. Strumenti limitati per l'addestramento: Lavorare con il dataset può richiedere molto tempo, soprattutto durante l'addestramento del modello. Questo rallenta il processo di ricerca.

  5. Mancanza di modelli aggiornati: Anche se alcuni modelli sono stati resi disponibili al lancio di BigEarthNet, da allora sono emersi nuovi modelli che potrebbero funzionare meglio ma non sono inclusi.

Date queste problematiche, c'era un chiaro bisogno di migliorare il dataset per l'analisi delle immagini di remote sensing.

Introduzione del Dataset Migliorato

Per affrontare i problemi menzionati, è stato creato un nuovo dataset chiamato refined BigEarthNet (reBEN). Questo dataset mira a offrire dati di qualità superiore per il deep learning nell'analisi delle immagini di remote sensing.

Costruzione del Dataset

Il dataset reBEN include quasi 550.000 coppie di immagini dai satelliti Sentinel-1 e Sentinel-2. Per creare questo dataset, i ricercatori hanno iniziato con le tessere originali di BigEarthNet e poi hanno diviso queste immagini in sezioni più piccole o patch di 1200 metri per 1200 metri.

Per migliorare la qualità di queste patch, è stata applicata una versione recente di uno strumento di correzione atmosferica. Questo ha portato a immagini di qualità superiore rispetto a quelle originalmente presenti in BigEarthNet. Ogni patch di dati è collegata a una mappa dettagliata e a un insieme di etichette che descrivono cosa c'è in ogni immagine, adatte per vari compiti di apprendimento.

Etichette Aggiornate

Le etichette nel dataset reBEN sono state prese dalla mappa più recente CORINE Land Cover. Questo aggiornamento elimina molte delle imprecisioni presenti nel dataset precedente. Con un'etichettatura migliorata, i ricercatori possono contare su informazioni più accurate per i loro modelli.

Assegnazione della Suddivisione Geografica

Uno dei miglioramenti chiave nel dataset reBEN è il modo in cui i dati sono stati suddivisi in set di addestramento, validazione e test. È stata implementata una tecnica di suddivisione basata sulla geografia per garantire che questi set siano meno correlati. In questo modo, la valutazione dei modelli può essere più affidabile perché i dati di addestramento e test provengono da aree diverse, riducendo il rischio di sovrapposizione.

Strumenti Software per Efficienza

Per facilitare un addestramento più rapido dei modelli di deep learning, è stato introdotto un nuovo strumento software chiamato rico-hdl. Questo strumento converte il dataset reBEN in un formato che accelera l'elaborazione. Rendendo i dati più facili da accedere, i ricercatori possono concentrarsi di più sull'analisi dei risultati piuttosto che aspettare che i dati vengano caricati.

Disponibilità di Modelli Pre-Addestrati

Insieme al nuovo dataset, sono anche disponibili i pesi dei modelli pre-addestrati. Questi pesi sono stati ottenuti utilizzando modelli di deep learning avanzati e possono aiutare i ricercatori a dare il via al loro lavoro senza dover partire da zero.

Applicazioni Potenziali

Si prevede che il dataset reBEN sia utile in diverse aree del remote sensing. I ricercatori possono usarlo per compiti come la classificazione dell'uso del suolo, dove possono essere identificati diversi tipi di terre (come foreste, aree urbane e corpi idrici). Può anche assistere nel monitoraggio dei cambiamenti ambientali nel tempo, offrendo preziose informazioni su come la copertura del suolo cambia a causa dell'attività umana o di processi naturali.

Maggiore Accuratezza

Negli esperimenti condotti utilizzando il dataset reBEN, sono stati testati vari modelli di deep learning. I risultati hanno mostrato che i modelli addestrati su questo nuovo dataset hanno performato meglio rispetto a quelli addestrati su BigEarthNet. Ad esempio, utilizzare insieme le immagini di Sentinel-1 e Sentinel-2 ha fornito risultati di classificazione migliori rispetto all'uso di un solo tipo di immagine.

Classificazioni Migliorate

Il dataset include classi diverse di uso e copertura del suolo. Alcuni esempi includono aree agricole, ambienti urbani, zone umide e foreste. Con una ricca collezione di immagini e etichette accurate, i ricercatori possono sviluppare modelli che classificano queste aree in modo più affidabile.

Conclusione

Il dataset refined BigEarthNet rappresenta un passo avanti significativo nell'analisi delle immagini di remote sensing. Affrontando i problemi riscontrati nel dataset precedente, il reBEN fornisce immagini di qualità superiore, etichette più accurate e metodologie migliorate per la suddivisione dei dati. Questo dataset migliorato aiuterà i ricercatori a produrre risultati affidabili nelle loro ricerche relative alla copertura e all'uso del suolo.

In generale, lo sviluppo del dataset reBEN è destinato a spianare la strada per ricerche e applicazioni più robuste nel campo del remote sensing. Man mano che la tecnologia e le metodologie continuano a progredire, dataset come reBEN giocheranno un ruolo cruciale nell'intendere e monitorare il nostro ambiente in modo più efficace.

Fonte originale

Titolo: reBEN: Refined BigEarthNet Dataset for Remote Sensing Image Analysis

Estratto: This paper presents refined BigEarthNet (reBEN) that is a large-scale, multi-modal remote sensing dataset constructed to support deep learning (DL) studies for remote sensing image analysis. The reBEN dataset consists of 549,488 pairs of Sentinel-1 and Sentinel-2 image patches. To construct reBEN, we initially consider the Sentinel-1 and Sentinel-2 tiles used to construct the BigEarthNet dataset and then divide them into patches of size 1200 m x 1200 m. We apply atmospheric correction to the Sentinel-2 patches using the latest version of the sen2cor tool, resulting in higher-quality patches compared to those present in BigEarthNet. Each patch is then associated with a pixel-level reference map and scene-level multi-labels. This makes reBEN suitable for pixel- and scene-based learning tasks. The labels are derived from the most recent CORINE Land Cover (CLC) map of 2018 by utilizing the 19-class nomenclature as in BigEarthNet. The use of the most recent CLC map results in overcoming the label noise present in BigEarthNet. Furthermore, we introduce a new geographical-based split assignment algorithm that significantly reduces the spatial correlation among the train, validation, and test sets with respect to those present in BigEarthNet. This increases the reliability of the evaluation of DL models. To minimize the DL model training time, we introduce software tools that convert the reBEN dataset into a DL-optimized data format. In our experiments, we show the potential of reBEN for multi-modal multi-label image classification problems by considering several state-of-the-art DL models. The pre-trained model weights, associated code, and complete dataset are available at https://bigearth.net.

Autori: Kai Norman Clasen, Leonard Hackel, Tom Burgert, Gencer Sumbul, Begüm Demir, Volker Markl

Ultimo aggiornamento: 2024-07-29 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.03653

Fonte PDF: https://arxiv.org/pdf/2407.03653

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili