Faire avancer la modélisation du flux de carbone avec l'IA
Présentation d'un nouveau jeu de données et d'un modèle pour améliorer les prévisions des flux de carbone.
― 15 min lire
Table des matières
Le Flux de carbone, c'est le mouvement du carbone qui entre et sort des écosystèmes. C'est super important pour comprendre la santé de notre environnement naturel et sa capacité à absorber les émissions de dioxyde de carbone créées par l'homme. Ça a suscité de l'intérêt pour un nouveau domaine qui utilise des données et des ordinateurs pour prédire les flux de carbone, connu sous le nom de modélisation des flux de carbone guidée par les données (DDCFM).
Malgré son importance, les chercheurs dans ce domaine rencontrent des défis. Il n'existe pas de jeu de données standard pour comparer différents modèles, ce qui rend difficile de savoir quels modèles fonctionnent le mieux. Pour aider à résoudre ce problème, nous avons créé un nouveau jeu de données appelé CarbonSense, qui est conçu pour être prêt pour l'apprentissage machine. CarbonSense inclut des données sur les flux de carbone, les conditions météorologiques, et des images satellites de 385 endroits à travers le monde. Ce jeu de données vise à améliorer la formation des modèles prédictifs et à favoriser la comparaison entre différentes approches. On présente aussi un modèle de base qui utilise les dernières méthodes en DDCFM, montrant que l'utilisation de nouvelles techniques d'apprentissage profond peut donner de meilleurs résultats.
La santé de nos écosystèmes est cruciale pour contrôler le climat de la Terre. Depuis le milieu des années 1900, les écosystèmes terrestres ont absorbé une part importante des émissions de carbone causées par l'homme. Cependant, avec le changement climatique, on fait face à des incertitudes concernant la stabilité et la fonctionnalité futures de ces écosystèmes. En étudiant comment le mouvement du carbone change en raison de l'impact climatique et d'autres activités humaines, on gagne des insights sur la santé future des écosystèmes et leur capacité à stocker du carbone.
L'Importance des Flux de Carbone
Les flux de carbone aident à décrire comment le carbone se déplace à travers les écosystèmes grâce à des processus comme la photosynthèse et la respiration. Comprendre ces mouvements est crucial pour évaluer la santé des écosystèmes, mais les mesurer peut être difficile. Ça nécessite souvent un usage à long terme de capteurs sur le terrain, couvrant des zones de 100 à 1000 mètres. Ça crée un goulot d'étranglement qui a conduit à l'essor de la modélisation des flux de carbone guidée par les données. Dans cette approche, les scientifiques utilisent des données disponibles, comme les modèles météorologiques et les informations géographiques, pour construire des modèles qui prédisent les mouvements de carbone. En utilisant des données de différents écosystèmes, ces modèles peuvent faire des prédictions à l'échelle locale ou même globale.
Bien que le DDCFM ait un grand potentiel avec des techniques avancées, il n'a pas été largement exploré dans la communauté de l'apprentissage profond. Actuellement, la plupart des modèles reposent sur des méthodes traditionnelles comme les forêts aléatoires et le boosting par gradient, qui donnent des résultats corrects mais ne tirent pas le meilleur parti des données diversifiées disponibles. Les avancées récentes en apprentissage profond pourraient offrir un meilleur cadre pour incorporer divers types de données, ce qui pourrait grandement améliorer la qualité des informations disponibles pour éclairer les décisions liées au climat.
Combler les Lacunes de Données
Pour promouvoir la croissance de la recherche en DDCFM, on cherche à abaisser les barrières à l'entrée dans ce domaine. Actuellement, la préparation des données est faite de manière incohérente par différentes équipes de recherche, ce qui entraîne des variations et un manque de standardisation. L'absence de jeux de données standard et de références rend difficile la reproduction des résultats et la comparaison des découvertes. On vise à combler ces lacunes à travers plusieurs contributions.
D'abord, on présente un aperçu du DDCFM pour les chercheurs intéressés par l'apprentissage profond. Ensuite, on introduit un jeu de données prêt pour l'apprentissage machine qui inclut divers types de données pertinents pour le DDCFM. En troisième lieu, on propose un modèle de base basé sur les meilleures pratiques actuelles. Enfin, on partagera des insights issus de nos expériences et fournirons des directives pour rapporter les résultats dans ce domaine.
Comprendre le DDCFM
Au fond, le DDCFM est un moyen de prédire des valeurs numériques, spécifiquement le flux de carbone. Le flux de carbone dépend de nombreux facteurs, y compris le type d'écosystème, les conditions météorologiques, les caractéristiques du paysage local, et des perturbations comme les incendies ou les activités animales. Bien qu'obtenir des données météorologiques soit relativement simple, mesurer d'autres facteurs peut être beaucoup plus compliqué, surtout à l'échelle mondiale. Les chercheurs s'appuient souvent sur des données de télédétection et d'autres mesures indirectes pour combler ces lacunes.
Mesurer les Flux de Carbone
Une méthode courante pour mesurer le flux de carbone au niveau de l'écosystème s'appelle la covariance d'eddy. Cette technique consiste à placer une tour avec des capteurs haut au-dessus des plantes pour mesurer la concentration des gaz dans l'atmosphère. Ces capteurs suivent le flux de gaz comme le dioxyde de carbone et la vapeur d'eau dans de petits tourbillons appelés eddies. Notre recherche se concentre principalement sur le dioxyde de carbone parce qu'il y a une plus grande collection de données standardisées disponibles pour ça.
Les mesures de flux de carbone sont généralement exprimées en masse par surface sur une période. La productivité primaire brute (PPB) désigne la quantité totale de carbone absorbée par les plantes via la photosynthèse. La respiration des écosystèmes (RECO) fait référence au total de carbone émis à nouveau dans l'atmosphère par la respiration des plantes et des microbes. L'échange net d'écosystème (NEE) représente l'équilibre entre la PPB et la RECO, indiquant si un écosystème est un puits ou une source de carbone. Un puits de carbone absorbe plus de carbone qu'il n'en libère, ce qui donne un NEE négatif. Le NEE est la mesure principale collectée par les stations de covariance d'eddy et le principal objectif de notre étude.
Facteurs Influant sur les Flux de Carbone
Les données météorologiques utilisées dans le DDCFM sont collectées à partir des stations de covariance d'eddy. En plus des flux de carbone, ces stations mesurent les conditions environnementales et atmosphériques locales, y compris des facteurs comme la radiation, la température de l'air, l'humidité, les précipitations et l'humidité du sol. Les variables spécifiques dépendent de l'emplacement, mais des réseaux régionaux maintiennent un ensemble minimum que les chercheurs doivent utiliser s'ils souhaitent partager leurs données.
Pour obtenir des prévisions globales, des produits de réanalyse météorologique disponibles au public, comme ERA5, peuvent fournir une mine d'informations. Des images satellites des zones entourant les stations de covariance d'eddy peuvent aussi aider les chercheurs à comprendre la couverture terrestre et les types d'écosystèmes présents. Les produits courants incluent ceux du MODIS (Moderate Resolution Imaging Spectroradiometer), capturant de nouvelles images tous les 1 à 2 jours. Ces produits aident à prendre en compte la couverture nuageuse et à produire des images standard représentant la zone vue d'en haut.
Certains modèles utilisent une catégorie de données appelée données sémantiques, qui peut inclure des classifications de couverture terrestre, comme différents types de forêts ou de terres agricoles. Ces classifications sont généralement effectuées par des experts mais peuvent aussi être approximées en utilisant des produits MODIS à l'échelle mondiale.
Présentation du Dataset CarbonSense
On présente CarbonSense, le premier jeu de données prêt pour l'apprentissage machine axé sur le DDCFM. Le jeu de données se compose de données provenant des stations de covariance d'eddy et des données géospatiales correspondantes du MODIS pour 385 emplacements à travers le monde, totalisant plus de 27 millions de mesures horaires. Cette section donne un aperçu de la façon dont le jeu de données est structuré, comment il a été traité, et comment il peut être utilisé. Plus de détails sont fournis dans les matériaux supplémentaires.
Processus de Collecte des Données
Toutes les données météorologiques ont été collectées à partir de grands réseaux de stations de covariance d'eddy, comme FLUXNET 2015 et Ameriflux 2023. Les jeux de données ont été sélectionnés en fonction de leur utilisation du pipeline de traitement ONEFlux, qui assure la cohérence dans le codage et les unités. La répartition géographique des sites est quelque peu inégale, avec plus de données disponibles d'Amérique du Nord et d'Europe.
Les données géospatiales pour CarbonSense proviennent des produits MODIS. On utilise spécifiquement plusieurs bandes spectrales du MODIS et on extrait des images dans une zone de 4 km par 4 km centrée sur chaque station de covariance d'eddy. Chaque image capture des informations à travers plusieurs canaux.
Pipeline de Traitement des Données
La première étape de notre pipeline de traitement consiste à fusionner des données provenant de différentes sources pour chaque station de covariance d'eddy. Certaines stations ont des jeux de données qui se chevauchent, ce qu'on gère en sélectionnant les valeurs les plus récentes. On supprime également les données mesurées à des intervalles de demi-heure pour créer un jeu de données horaire standard.
Ensuite, on intègre les données MODIS pertinentes pour chaque site en fonction de sa localisation géographique. On nettoie aussi les données météorologiques pour exclure des variables indésirables qui pourraient ne pas être disponibles ou ne pas fournir d'informations fiables. Enfin, on normalise les données pour assurer la cohérence entre les différentes entrées.
Notre jeu de données est disponible comme un produit fini, mais on fournit aussi les données brutes ainsi que le code utilisé pour les traiter. Les chercheurs peuvent modifier ce pipeline pour inclure des variables supplémentaires ou ajuster la qualité des données.
Utiliser le Dataset CarbonSense
Étant donné les défis de diversité des données et de répartition géographique dans le DDCFM, CarbonSense maintient une structure où chaque localisation a son propre répertoire. Ça permet aux chercheurs de choisir des sites pour l'entraînement et le test en fonction de leurs objectifs de recherche spécifiques.
On fournit aussi un dataloader PyTorch conçu pour fonctionner avec le jeu de données CarbonSense. Les utilisateurs doivent spécifier quel flux de carbone prédire et peuvent sélectionner quels sites inclure pour l'entraînement.
Le jeu de données CarbonSense est partagé sous une licence permissive, permettant aux chercheurs d'utiliser, transformer et partager les données tout en fournissant une attribution appropriée. Cet accès ouvert est crucial pour favoriser l'intérêt scientifique dans le DDCFM.
Explorer le Modèle EcoPerceiver
On présente EcoPerceiver, une architecture multimodale conçue spécialement pour le DDCFM. Traditionnellement, le DDCFM s'est concentré sur des méthodes tabulaires, mais on pense qu'il est essentiel d'inclure des concepts d'apprentissage profond pour relever les défis uniques de ce domaine.
EcoPerceiver utilise un design spécifique qui lui permet de gérer une variété de types d'entrées et de données manquantes efficacement. L'objectif est d'améliorer la précision des prévisions en simulant mieux les processus biologiques qui influencent le flux de carbone.
Approche d'Entrée des Données
Le modèle est sensible à de légers changements dans les variables. Pour atteindre cette sensibilité, on utilise une méthode d'encodage de Fourier, qui mappe les valeurs d'entrée continues dans un espace de dimension supérieure.
Les données géospatiales passent par un processus similaire mais sont configurées différemment selon les besoins du modèle. Chaque image est transformée pour créer une matrice d'entrées que le modèle traite simultanément.
Pour gérer les instances où des données pourraient manquer, EcoPerceiver utilise un masque de modalité qui indique quelles entrées ignorer pendant le traitement. Ça aide non seulement à maintenir les niveaux de performance mais aussi à réduire la dépendance à un petit ensemble de variables.
Mécanisme de Cross Attention Fenêtré
Inspiré par des architectures précédentes, EcoPerceiver implémente un mécanisme appelé attention croisée fenêtrée. Cette technique permet de traiter différents types de données ensemble, résultant en une représentation compacte des données qui capture l'information pertinente.
Ensuite, un processus d'auto-attention assure que le modèle base ses prévisions sur des observations passées et présentes. Ce design s'aligne avec les processus biologiques impliqués, où la dynamique du carbone dépend des conditions sur des périodes de temps variées.
Réaliser des Expériences
On a effectué plusieurs expériences avec EcoPerceiver et comparé ses performances à celles du modèle XGBoost traditionnel. Notre objectif était de mettre en lumière les avantages de l'utilisation des techniques d'apprentissage profond dans le DDCFM tout en établissant une base pour les recherches futures.
Échantillonnage et Division des Données
Pour nos expériences, on a divisé les stations de covariance d'eddy en ensembles d'entraînement et de test basés sur les types d'écosystèmes représentés. Ça nous a permis de maintenir une représentation équilibrée des différents types d'écosystèmes dans nos tests.
Entraînement du Modèle
À l'aide de plusieurs GPUs, on a entraîné à la fois les modèles EcoPerceiver et XGBoost tout en maintenant la cohérence dans la division des données. On a optimisé le modèle d'apprentissage profond en utilisant l'optimiseur AdamW et suivi un programme de taux d'apprentissage stratégique pour améliorer la convergence.
XGBoost a été exécuté sur des nœuds CPU standard avec une configuration similaire, permettant ainsi une comparaison directe entre les deux approches.
Évaluation des Performances
On a utilisé deux métriques principales pour évaluer la performance des modèles : l'efficacité de modélisation de Nash-Sutcliffe (NSE) et l'erreur quadratique moyenne (MSE). Ces métriques fournissent des insights sur l'exactitude et la fiabilité des prévisions faites par chaque modèle.
Les résultats de performance indiquent qu'EcoPerceiver a systématiquement surpassé XGBoost à travers plusieurs types d'écosystèmes. Bien que XGBoost ait montré certains avantages dans des catégories spécifiques, EcoPerceiver a excellé dans des tests zéro-shot et un-shot.
Analyser les Résultats et Discussions
Un aspect critique de l'évaluation de la performance du modèle est d'examiner les résultats à travers les différents types d'écosystèmes. EcoPerceiver a dépassé XGBoost dans diverses catégories, avec des différences notables dans des tests spécifiques.
Cependant, les résultats ont également mis en lumière des zones où XGBoost avait encore certains avantages. Par exemple, dans des écosystèmes comme les zones humides permanentes, l'écart de performance était plus étroit. De telles découvertes montrent l'importance de considérer les caractéristiques spécifiques de chaque écosystème lorsqu'on évalue l'efficacité du modèle.
Insights Qualitatifs
En plus des métriques d'erreur, on encourage les chercheurs à analyser qualitativement les prévisions faites par les modèles. Comparer les valeurs prédites aux données observées peut fournir un contexte précieux.
Par exemple, on a observé qu'une forêt toujours verte avec des flux de carbone stables était modélisée plus précisément qu'une forêt de pins affectée par des perturbations. Cela souligne l'importance de comprendre le contexte écologique derrière les points de données.
Directions Futures
Le travail présenté dans cette étude sert de fondation pour de futurs développements dans le DDCFM. Il y a beaucoup d'opportunités pour élargir à la fois le jeu de données et les modèles utilisés. À mesure que davantage de données deviennent disponibles, cela améliorera encore les capacités prédictives des modèles.
Les chercheurs devraient également envisager d'enrichir le jeu de données avec des données géospatiales de meilleure qualité ou d'inclure des facteurs supplémentaires pertinents pour le flux de carbone. Aborder les limitations liées à la diversité des données et à la représentation géographique sera essentiel pour faire avancer le domaine.
Conclusion
En résumé, notre travail fournit des ressources et des insights précieux pour la communauté de l'apprentissage profond intéressée par le DDCFM. En introduisant le jeu de données CarbonSense et le modèle EcoPerceiver, on vise à faciliter la recherche et à aider à relever des défis environnementaux pressants. Alors qu'on continue d'explorer des manières d'appliquer des techniques d'apprentissage machine avancées à la modélisation des flux de carbone, on invite davantage de chercheurs à contribuer à ce domaine d'étude crucial.
Titre: CarbonSense: A Multimodal Dataset and Baseline for Carbon Flux Modelling
Résumé: Terrestrial carbon fluxes provide vital information about our biosphere's health and its capacity to absorb anthropogenic CO$_2$ emissions. The importance of predicting carbon fluxes has led to the emerging field of data-driven carbon flux modelling (DDCFM), which uses statistical techniques to predict carbon fluxes from biophysical data. However, the field lacks a standardized dataset to promote comparisons between models. To address this gap, we present CarbonSense, the first machine learning-ready dataset for DDCFM. CarbonSense integrates measured carbon fluxes, meteorological predictors, and satellite imagery from 385 locations across the globe, offering comprehensive coverage and facilitating robust model training. Additionally, we provide a baseline model using a current state-of-the-art DDCFM approach and a novel transformer based model. Our experiments illustrate the potential gains that multimodal deep learning techniques can bring to this domain. By providing these resources, we aim to lower the barrier to entry for other deep learning researchers to develop new models and drive new advances in carbon flux modelling.
Auteurs: Matthew Fortier, Mats L. Richter, Oliver Sonnentag, Chris Pal
Dernière mise à jour: 2024-06-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.04940
Source PDF: https://arxiv.org/pdf/2406.04940
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.