Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Vision par ordinateur et reconnaissance des formes# Apprentissage automatique# Traitement de l'image et de la vidéo

Nouveau jeu de données pour l'estimation de la biomasse mondiale

Un ensemble de données complet pour améliorer l'estimation de la biomasse et soutenir la recherche climatique.

― 13 min lire


Lancement du jeu deLancement du jeu dedonnées mondial sur labiomasseétudes climatiques.estimations de la biomasse pour lesNouveau jeu de données améliore les
Table des matières

Mesurer la Biomasse Aérienne (AGB) est super important pour s'attaquer à deux gros problèmes : le changement climatique et la perte de biodiversité. L'AGB fait référence à la masse totale des plantes vivantes au-dessus du sol, et savoir combien de biomasse il y a peut nous aider à comprendre combien de carbone est stocké dans les forêts et autres écosystèmes. C'est crucial pour les plans visant à réduire les émissions de carbone et à protéger les habitats naturels.

Actuellement, les ensembles de données disponibles pour estimer l'AGB à l'aide d'images satellites ont leurs limites. Certains ensembles de données se concentrent sur des zones locales spécifiques avec beaucoup de détails, tandis que d'autres couvrent de plus grandes zones mais avec moins de détails. Il faut un nouvel ensemble de données qui soit à la fois globalement représentatif et de haute résolution, ce qui le rendrait utile pour l'apprentissage automatique et d'autres recherches.

Notre recherche montre qu'il y a beaucoup de variation dans les estimations de biomasse selon le type de végétation. Ça met en lumière le besoin d'un ensemble de données qui reflète la diversité mondiale. Pour combler cette lacune, nous avons créé un nouvel ensemble de données qui couvre divers types de végétation provenant de différentes parties du monde et sur plusieurs années.

Aperçu de l'Ensemble de Données

Notre nouvel ensemble de données combine des données provenant de différentes sources pour créer un package complet. Il inclut des données de référence sur l'AGB de la mission GEDI de la NASA, ainsi que des images des satellites Sentinel-2 et PALSAR-2. De plus, l'ensemble de données dispose d'informations prétraitées de niveau élevé comme des cartes de hauteur de canopée, des cartes d'élévation et des cartes de classification de l'occupation du sol.

Nous avons également développé une carte de prédictions de l'AGB à haute résolution pour toute la zone couverte par l'ensemble de données. L'ensemble de données a été rigoureusement testé et est disponible publiquement, ce qui le rend facile d'accès pour les chercheurs.

Importance des Estimations de l'AGB

Des estimations précises de l'AGB sont cruciales pour évaluer les stocks de carbone, qui jouent un grand rôle dans l'atténuation des émissions de carbone. L'AGB est lié à divers indicateurs de biodiversité, offrant des aperçus sur les conditions des hotspots de biodiversité. Les méthodes traditionnelles de mesure de l'AGB impliquent souvent du travail sur le terrain, qui peut être destructeur, ou utilisent des techniques non destructrices comme la mesure de la hauteur des arbres et du diamètre des troncs.

Ces dernières années, la technologie LiDAR a commencé à remplacer les mesures manuelles par la télédétection, offrant des données plus précises. Cependant, les coûts et le temps nécessaires pour le LiDAR rendent son utilisation difficile à l'échelle mondiale. Cela a conduit à une concentration sur les zones locales pour l'estimation de la biomasse.

La mission GEDI de la NASA, lancée en 2019, utilise un altimètre laser sur la Station Spatiale Internationale pour collecter des données sur l'AGB. Cette mission a produit des estimations d'AGB dispersées à travers le monde, mais elle reste le plus grand ensemble de données de référence existant de ce type. Combiner les données GEDI avec l'apprentissage automatique et les données de télédétection peut améliorer les estimations mondiales de l'AGB.

Combler les Lacunes

Pour créer un ensemble de données qui répond à la demande d'estimation globale de la biomasse, nous avons dérivé un sous-ensemble de régions qui imitent la distribution mondiale de la végétation. Ce processus de sélection a été guidé par les relations complexes entre l'AGB et les différents types de végétation.

Notre ensemble de données sert plusieurs objectifs :

  1. Test de Haute Résolution : Il fournit un terrain d'essai à haute résolution représentatif à l'échelle mondiale pour estimer l'AGB. Les ensembles de données existants sont soit trop localisés, soit de très basse résolution. Notre collection couvre tous les biomes, permettant un meilleur entraînement des modèles d'estimation de l'AGB.

  2. Amélioration de la Performance Régionale : Des études précédentes ont montré que combiner les données GEDI avec des données de référence locales peut donner de meilleurs résultats que d'utiliser des données locales uniquement. Notre ensemble de données permet aux chercheurs de commencer avec une référence mondiale, puis de peaufiner leurs modèles avec des données locales pour une précision améliorée.

Pour rendre l'ensemble de données encore plus accessible, nous avons préparé une version entièrement traitée qui fonctionne avec les principaux frameworks d'apprentissage automatique, comme TensorFlow et PyTorch. Les chercheurs peuvent facilement le télécharger et l'utiliser dans leur travail.

Contributions de l'Ensemble de Données

Les principales contributions de notre ensemble de données sont :

  • Une collection prête pour l'apprentissage automatique et facilement accessible d'estimations AGB coïncidentes avec des données de télédétection.
  • Une analyse approfondie de l'ensemble de données, validée avec plusieurs modèles standards pour confirmer son exactitude et sa fiabilité.
  • Une carte dense et à haute résolution des prédictions de l'AGB sur la zone couverte par l'ensemble de données.
  • Accès public à tous les modèles de référence et poids pré-entraînés.

Tendances dans les Recherches Précédentes

Ces dernières années, la télédétection et l'apprentissage automatique ont amélioré diverses tâches de cartographie. L'estimation de la biomasse a reçu une attention significative, avec certaines revues couvrant les ensembles de données et cartes AGB existants. Les ensembles de données AGB mondiaux actuels tendent à avoir une faible résolution spatiale, tandis que les ensembles de données à haute résolution sont souvent limités à des emplacements géographiques spécifiques. Cela crée un dilemme pour les chercheurs entre généralisation et résolution.

Notamment, atteindre une précision cohérente dans les cartes d'AGB est difficile en raison du manque d'un ensemble de données de référence globale complet. Il y a un besoin significatif pour un ensemble de données qui présente des références de biomasse distribuées mondialement afin d'améliorer les études régionales. De plus, plaider pour la publication de données plus accessibles pour l'apprentissage profond est essentiel.

Notre ensemble de données comble ces lacunes. Il offre une résolution nominale de 10 mètres, est représentatif de la couverture terrestre mondiale, et combine diverses sources de données qui n'ont pas été explorées systématiquement pour cette tâche auparavant.

Collecte et Traitement des Données

Les régions choisies pour cet ensemble de données incluent la Californie (USA), Cuba, l'Autriche, la Grèce, le Népal, le Shaanxi (Chine), la Guyane Française, le Paraguay, le Ghana, la Tanzanie et la Nouvelle-Zélande. Ces zones ont été sélectionnées pour leur diversité géographique et écologique.

Classification de l'Occupation du Sol

Pour représenter précisément les types de végétation du monde, nous avons utilisé la carte de couverture dynamique du sol du service mondial Copernicus. Cette carte catégorise la couverture du sol en un système discret avec diverses classes, incluant différents types de forêts, de broussailles, de terres agricoles, et plus encore.

Pour notre analyse, nous nous sommes concentrés sur les types de végétation trouvés dans la couverture GEDI, car c'est là que nous avons les données de référence AGB.

Sources de Données

Nous avons collecté des données à partir de plusieurs sources clés :

  • GEDI : A fourni des observations laser à haute résolution de l'AGB, nous permettant de nous concentrer sur des mesures fiables.
  • Sentinel-2 : A offert des images à haute résolution avec une grande fréquence de revisite.
  • PALSAR-2 : A fourni des données radar à ouverture synthétique qui peuvent capturer des images indépendamment des conditions météorologiques.
  • Modèle Numérique d'Élévation (DEM) : A offert des données d'élévation pour aider à comprendre le terrain.
  • Données de Couverture du Sol : Ont fourni un contexte pour les types de végétation et leurs distributions.
  • Données de Hauteur de Canopée : Ont estimé la hauteur de la canopée pour analyser davantage la structure de la végétation.

Étapes de Traitement des Données

Pour créer un ensemble de données utilisable, nous avons suivi plusieurs étapes :

  1. Rehaussement des Données : Toutes les sources de données ont été ajustées à une résolution uniforme de 10 mètres.
  2. Création de Patches : Nous avons extrait des patches de données centrés autour des empreintes GEDI, assurant cohérence et utilisabilité.
  3. Division en Ensembles d'Entraînement, de Validation et de Test : Nous avons divisé l'ensemble de données pour permettre un entraînement efficace des modèles et une évaluation sans chevauchement.

Développement de Modèle

Nous avons exploré différentes méthodes d'apprentissage automatique pour l'estimation de la biomasse, en commençant par des modèles de régression linéaire simples, et en passant à des modèles plus complexes qui capturent la relation complexe entre les caractéristiques d'entrée et l'AGB.

Arbres de Décision Boostés par Gradient (GBDT)

Nous avons mis en œuvre une version du GBDT qui se concentre sur le pixel central dans chaque patch. Elle vise à minimiser l'erreur de prédiction en apprenant à partir des données disponibles.

Modèles d'Apprentissage Profond

Nous avons également développé des modèles d'apprentissage profond, qui sont particulièrement efficaces pour les tâches impliquant des motifs complexes dans les données. Nous avons entraîné plusieurs architectures, y compris :

  • Réseaux Convolutifs Complets (FCN) : Ces modèles consistent en des couches convolutives qui capturent efficacement les détails spatiaux.
  • UNet : Une architecture populaire qui inclut des connexions de saut, permettant une meilleure préservation des détails spatiaux.
  • Réseaux Résiduels : Ces modèles sont conçus pour améliorer les architectures précédentes en utilisant des blocs résiduels pour renforcer l'efficacité et la précision de l'entraînement.

Chaque modèle a été entraîné plusieurs fois avec différentes graines aléatoires pour tenir compte de la variabilité des résultats.

Résultats et Conclusions

Nos résultats ont indiqué que l'inclusion de plus de caractéristiques d'entrée conduit généralement à de meilleures prédictions de l'AGB. L'utilisation de modèles d'apprentissage profond nous a permis d'atteindre des taux d'erreur plus bas par rapport aux méthodes précédentes.

Évaluation des Performances

Nous avons réalisé une évaluation des performances à travers différents modèles, mesurant leur capacité à prédire les valeurs d'AGB. Le modèle le mieux performant a constamment montré des taux d'erreur plus bas, confirmant l'efficacité de notre approche.

Analyse des Caractéristiques d'Entrée

Nous avons également examiné l'impact des caractéristiques d'entrée spécifiques sur la performance des modèles. Nos résultats ont montré que les modèles entraînés avec des informations supplémentaires, comme la hauteur de la canopée et les données de couverture du sol, ont mieux performé que ceux utilisant moins de caractéristiques.

Analyse des Résidus

Nous avons analysé la distribution des erreurs de prédiction à travers différentes valeurs d'AGB. Les résultats ont suggéré que les valeurs de biomasse plus élevées étaient souvent sous-estimées, ce qui est un problème courant dans l'estimation de la biomasse.

Limitations

Bien que notre ensemble de données ait de nombreux atouts, il y a quelques limitations à considérer. Malgré l'objectif d'une résolution nominale de 10 mètres, la résolution effective à laquelle la biomasse est détectée est inférieure en raison de la façon dont les données sont collectées et traitées. De plus, la distribution des empreintes GEDI n'est pas uniforme, ce qui peut affecter les résultats.

Conclusion

Nous avons développé un ensemble de données prêt pour l'apprentissage automatique et accessible pour l'estimation de la biomasse à haute résolution basé sur des données de télédétection. Cet ensemble de données couvre des régions diverses avec des types de végétation variés, fournissant une base solide pour de futures recherches et applications dans les efforts liés à la biodiversité et au changement climatique.

En rendant cet ensemble de données publiquement disponible, nous espérons soutenir de meilleurs modèles de biomasse et contribuer à un suivi efficace des écosystèmes de notre planète. Les données complètes, accompagnées de modèles de référence et de poids préentraînés, peuvent aider à mieux comprendre la biomasse à travers différents paysages, bénéficiant finalement à la recherche environnementale dans le monde entier.

Directions Futures

À l'avenir, l'ensemble de données sera maintenu et mis à jour pour garantir sa pertinence. Les chercheurs sont encouragés à utiliser et à développer cet ensemble de données, ouvrant la voie à des solutions innovantes aux défis environnementaux pressants.

En favorisant la collaboration et le partage de connaissances, nous pouvons progresser dans notre compréhension et notre gestion des ressources naturelles, aidant à garantir un avenir durable pour les générations à venir.

Remerciements

Nous tenons à exprimer notre gratitude aux diverses organisations qui fournissent les données brutes, sans lesquelles cette recherche n'aurait pas été possible. Leur engagement en faveur du partage des données ouvertes joue un rôle crucial dans le soutien de la recherche scientifique et dans la promotion de l'innovation.

Licence et Accès

L'ensemble de données est disponible sous une licence Creative Commons, permettant la redistribution et l'adaptation tout en assurant un crédit approprié. Il sera hébergé sur des plateformes accessibles pour s'assurer que les chercheurs peuvent facilement obtenir et utiliser les informations fournies.

Les utilisateurs peuvent explorer l'ensemble de données et trouver tous les matériaux pertinents sur les sites Web désignés, promouvant la transparence et les pratiques de science ouverte au sein de la communauté.

Cette initiative souligne l'importance des ressources partagées dans le milieu académique et le potentiel des efforts collectifs pour s'attaquer aux problèmes mondiaux, comme le changement climatique et la perte de biodiversité, grâce à de meilleures données et une prise de décision éclairée.

Source originale

Titre: AGBD: A Global-scale Biomass Dataset

Résumé: Accurate estimates of Above Ground Biomass (AGB) are essential in addressing two of humanity's biggest challenges, climate change and biodiversity loss. Existing datasets for AGB estimation from satellite imagery are limited. Either they focus on specific, local regions at high resolution, or they offer global coverage at low resolution. There is a need for a machine learning-ready, globally representative, high-resolution benchmark. Our findings indicate significant variability in biomass estimates across different vegetation types, emphasizing the necessity for a dataset that accurately captures global diversity. To address these gaps, we introduce a comprehensive new dataset that is globally distributed, covers a range of vegetation types, and spans several years. This dataset combines AGB reference data from the GEDI mission with data from Sentinel-2 and PALSAR-2 imagery. Additionally, it includes pre-processed high-level features such as a dense canopy height map, an elevation map, and a land-cover classification map. We also produce a dense, high-resolution (10m) map of AGB predictions for the entire area covered by the dataset. Rigorously tested, our dataset is accompanied by several benchmark models and is publicly available. It can be easily accessed using a single line of code, offering a solid basis for efforts towards global AGB estimation. The GitHub repository github.com/ghjuliasialelli/AGBD serves as a one-stop shop for all code and data.

Auteurs: Ghjulia Sialelli, Torben Peters, Jan D. Wegner, Konrad Schindler

Dernière mise à jour: 2024-12-09 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.04928

Source PDF: https://arxiv.org/pdf/2406.04928

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires