Presentiamo PureForest: un nuovo dataset per la classificazione delle specie di alberi
PureForest fornisce dati essenziali per una migliore gestione delle foreste e identificazione delle specie arboree.
― 7 leggere min
Indice
- Che cos'è PureForest?
- L'importanza dell'identificazione delle specie di alberi
- Sfide nella mappatura delle specie di alberi
- Il dataset PureForest
- Fonti di dati
- Il processo di annotazione
- Struttura del dataset
- Potenziali usi di PureForest
- Benchmarking e valutazione del modello
- Risultati dal modello di dati Lidar
- Confronti con i modelli di immagini aeree
- Conclusione
- Fonte originale
- Link di riferimento
Sapere quali tipi di alberi ci siano in una foresta è super importante per prendersi cura dell’ambiente. Nuovi metodi che usano il Deep Learning possono aiutare a identificare diverse specie di alberi, rendendo più facile gestire le foreste. Però, i ricercatori hanno bisogno di grandi set di dati buoni con etichette appropriate per essere efficaci. Questo articolo presenta il dataset PureForest, creato per classificare le specie di alberi usando tecnologie avanzate.
Che cos'è PureForest?
PureForest è un grande set di dati che contiene informazioni raccolte da foreste usando due tecniche principali: Aerial Lidar Scanning (ALS) e immagini aeree ad alta risoluzione (VHR). Molti set di dati pubblici disponibili non coprono un ampio territorio e spesso hanno limitati tipi di alberi registrati. Al contrario, PureForest ha dati su 18 diverse specie di alberi raggruppate in 13 categorie e copre un'area di 339 km² su 449 foreste uniche con una sola specie. Questo lo rende uno dei set di dati più grandi e completi per identificare le specie di alberi usando questi metodi.
L'importanza dell'identificazione delle specie di alberi
Monitorare i tipi di alberi nelle foreste è cruciale, soprattutto ora che il cambiamento climatico le colpisce. Gli alberi affrontano molte sfide, come incendi, nuovi parassiti e stress che possono portare a più morti e crescita più lenta. Essere in grado di identificare le specie di alberi a livello nazionale è necessario per una gestione forestale efficace e per sostenere politiche che promuovono specie resilienti.
Tradizionalmente, l'identificazione delle specie di alberi si basa sull'esperienza umana, che può richiedere molto tempo e impegno. Ad esempio, ci sono voluti oltre dieci anni a un’agenzia di mappatura nazionale in Francia per mappare le foreste. Questo dimostra la necessità di metodi più veloci e automatizzati per mappare e monitorare le foreste.
Sfide nella mappatura delle specie di alberi
Identificare le specie di alberi non è facile. Molti fattori influenzano l'aspetto degli alberi, come la loro età, il modo in cui vengono gestiti e le condizioni ambientali come suolo e luce. Le immagini aeree, spesso usate in questo processo, possono essere influenzate da variabili diverse come il tempo, gli angoli della fotocamera e il modo in cui le immagini vengono elaborate.
Questa complessità significa che mappare le foreste richiede competenze specializzate e può essere molto laborioso. Studi recenti hanno esplorato l'uso del machine learning e del deep learning con immagini satellitari, ma queste tecniche spesso trascurano il potenziale delle immagini aeree VHR e delle caratteristiche che possono essere estratte dai dati ALS.
Il dataset PureForest
Il dataset PureForest consiste in dati 2D e 3D raccolti da ALS e immagini aeree VHR. Il dataset è stato creato usando dati ALS ad alta densità, che permettono di identificare caratteristiche importanti degli alberi, come l'altezza e la forma della chioma. Queste caratteristiche possono essere molto utili per distinguere tra diverse specie.
Il dataset è stato generato usando un processo semi-automatico per creare poligoni che rappresentano aree con una sola specie di albero. Questi poligoni sono stati convalidati da esperti formati usando immagini aeree recenti per garantire l'accuratezza dei dati. Il dataset finale include etichettatura coerente su aree di 50 m x 50 m.
Fonti di dati
Il dataset PureForest è composto da due fonti principali di dati:
- Lidar HD: Questo programma raccoglie dati 3D su tutto il territorio francese. L’obiettivo è ottenere descrizioni dettagliate e accurate dell’area entro il 2025.
- ORTHO HR: Questo database consiste in immagini catturate durante indagini aeree nazionali. Queste immagini vengono elaborate per garantire che siano accurate e coerenti in tutto il dataset.
L'integrazione di queste due fonti consente di avere una visione completa delle aree forestali studiate.
Il processo di annotazione
Per creare il dataset, sono stati raccolti poligoni che rappresentano aree forestali pure e poi convalidati. I dati provengono da due banche dati forestali in Francia. Il processo garantisce che ogni poligono sia accurato e rifletta le specie presenti. Questo metodo ha tenuto conto delle immagini aeree più recenti per allinearsi ai dati ALS.
L'attenzione si è concentrata sull'identificazione di pannelli di alberi con una sola specie. Questo semplifica il compito e rende più facile analizzare i dati per classificazioni specifiche degli alberi.
Struttura del dataset
Il dataset PureForest è organizzato in directory chiare per facilitare l'accesso. La struttura include cartelle per immagini e dati Lidar, permettendo agli utenti di trovare facilmente le informazioni di cui hanno bisogno. Inoltre, ci sono file di metadati che dettagliano tutti i lotti, le loro etichette e altri dettagli essenziali.
Le principali categorie di specie di alberi nel dataset permettono un approccio semplice alla Classificazione. Il dataset copre un ampio range di classi, garantendo che sia rappresentativo e utile per vari scopi di ricerca.
Potenziali usi di PureForest
Il dataset PureForest può essere una risorsa preziosa per i ricercatori che vogliono studiare le foreste e sviluppare nuovi metodi di analisi. La scala del dataset e le annotazioni dettagliate lo rendono adatto per creare modelli di deep learning mirati alla classificazione delle specie di alberi.
Un'applicazione potenziale è usare il dataset per investigare quanto bene i modelli esistenti possono identificare singoli alberi. Usando metodi di segmentazione all'avanguardia, i ricercatori possono valutare come diversi modelli performano su varie specie.
Inoltre, l'alto volume di dati disponibili apre possibilità per approcci di apprendimento semi-supervisionato. Questi metodi possono usare sia dati etichettati che non etichettati per migliorare le prestazioni del modello.
Benchmarking e valutazione del modello
Per capire quanto bene i modelli performano con il dataset PureForest, i ricercatori stabiliscono risultati di base. I modelli di base servono come benchmark per misurare l'efficacia di diversi metodi nella classificazione delle specie di alberi.
La valutazione considera varie metriche di performance, inclusa l'accuratezza complessiva e l'intersezione su unione (IoU). Queste metriche aiutano a identificare quanto bene un modello può differenziare tra le classi di alberi.
Risultati dal modello di dati Lidar
Negli esperimenti che usano solo i dati Lidar, il modello di base ha mostrato risultati promettenti, raggiungendo un'accuratezza generale (OA) dell'80%. Il modello ha performato bene nella maggior parte delle categorie, con un IoU medio del 55%. I risultati hanno evidenziato che le classi con più dati disponibili tendono a performare meglio nei compiti di classificazione.
Il modello ha avuto difficoltà con le specie rare, e questo si è riflesso nei numeri di performance per classi come Abete e Douglas, che hanno mostrato bassa accuratezza. Questo suggerisce che servono più dati per quelle specie per migliorare le prestazioni del modello.
Confronti con i modelli di immagini aeree
Quando si confrontano le prestazioni del modello Lidar con quelle delle immagini aeree VHR, i risultati indicano che, mentre entrambi i metodi sono efficaci, i dati Lidar possono fornire un vantaggio. Il modello VHR ha performato leggermente peggio rispetto a quello Lidar.
Tuttavia, è importante notare che il modello VHR non ha subito un’ampia ottimizzazione degli iperparametri, quindi ulteriori esplorazioni potrebbero dare risultati diversi.
Conclusione
Il dataset PureForest rappresenta un notevole avanzamento nella capacità di classificare le specie di alberi nelle foreste usando la tecnologia moderna. Offre una risorsa preziosa per ricercatori e professionisti del settore.
Data la dimensione, la diversità e le annotazioni dettagliate del dataset, può essere utilizzato per sviluppare nuovi metodi nel deep learning e migliorare la nostra comprensione delle dinamiche forestali. I ricercatori possono costruire su questo dataset per superare i confini di ciò che è possibile nella classificazione delle specie di alberi e nella gestione delle foreste.
In definitiva, la creazione di PureForest mira a beneficiare chiunque sia interessato al monitoraggio e all'analisi delle foreste, garantendo un futuro migliore per i nostri boschi attraverso migliori informazioni e tecnologie.
Titolo: PureForest: A Large-Scale Aerial Lidar and Aerial Imagery Dataset for Tree Species Classification in Monospecific Forests
Estratto: Knowledge of tree species distribution is fundamental to managing forests. New deep learning approaches promise significant accuracy gains for forest mapping, and are becoming a critical tool for mapping multiple tree species at scale. To advance the field, deep learning researchers need large benchmark datasets with high-quality annotations. To this end, we present the PureForest dataset: a large-scale, open, multimodal dataset designed for tree species classification from both Aerial Lidar Scanning (ALS) point clouds and Very High Resolution (VHR) aerial images. Most current public Lidar datasets for tree species classification have low diversity as they only span a small area of a few dozen annotated hectares at most. In contrast, PureForest has 18 tree species grouped into 13 semantic classes, and spans 339 km$^2$ across 449 distinct monospecific forests, and is to date the largest and most comprehensive Lidar dataset for the identification of tree species. By making PureForest publicly available, we hope to provide a challenging benchmark dataset to support the development of deep learning approaches for tree species identification from Lidar and/or aerial imagery. In this data paper, we describe the annotation workflow, the dataset, the recommended evaluation methodology, and establish a baseline performance from both 3D and 2D modalities.
Autori: Charles Gaydon, Floryne Roche
Ultimo aggiornamento: 2024-05-14 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2404.12064
Fonte PDF: https://arxiv.org/pdf/2404.12064
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.