GEO-Bench : Un nouveau benchmark pour le suivi de la Terre
GEO-Bench vise à faire avancer les modèles de base dans les tâches de surveillance de la Terre.
― 20 min lire
Table des matières
Les récents progrès en auto-supervision montrent que former de grands réseaux neuronaux sur d'énormes quantités de données inexploitées peut vraiment améliorer les performances sur diverses tâches. Ces modèles, appelés modèles de base, ont beaucoup changé notre approche du traitement du langage naturel. Bien que des modèles similaires aient été suggérés pour les données d'images, leur utilité dans les tâches de télédétection reste encore limitée.
Pour lancer la croissance des modèles de base pour suivre les changements de la Terre, on propose GEO-Bench, une plateforme faite de six Tâches de classification et six tâches de segmentation. Ces tâches ont été soigneusement choisies pour être pertinentes et utiles pour évaluer la performance des modèles. On fournit aussi une méthode solide pour évaluer les modèles et partager les résultats afin d'aider à suivre les progrès. On présente des résultats de 20 modèles de référence pour comprendre comment les modèles actuels s'en sortent.
On pense que ce système de référence va encourager des avancées dans de nombreuses tâches de surveillance de la Terre. Les méthodes d'apprentissage machine pour surveiller la Terre deviennent de plus en plus cruciales pour lutter contre le changement climatique et la science climatique. Les applications dans ce domaine incluent la détection des sources de méthane, la mesure du carbone des forêts, la prévision des événements climatiques extrêmes et la surveillance des cultures.
Dans beaucoup de ces applications, les modèles pré-entraînés, comme ResNet formé sur ImageNet, se sont montrés utiles pour améliorer la performance globale. Les améliorations apportées à ces modèles pré-entraînés peuvent diminuer le besoin d'énormes ensembles de données étiquetées et améliorer les performances au-delà des données d'entraînement. Des études récentes suggèrent qu'étendre la taille d'un ensemble de données non supervisées ou faiblement supervisées, tout en ajustant correctement le modèle, peut donner des résultats encore meilleurs selon divers critères.
En général, l'entraînement de ces grands modèles se fait au sein de groupes de recherche industriels avec des systèmes informatiques puissants. Cependant, la sortie de modèles pré-entraînés ouvre de nombreuses opportunités pour les communautés de recherche et de technologie, y compris les experts de domaines en dehors de l'apprentissage machine. La sortie de grands modèles pré-entraînés comme BERT et GPT-3 a provoqué un changement significatif dans le traitement du langage naturel, ce qui a maintenant inspiré des changements similaires dans la vision par ordinateur avec des modèles comme CLIP et DINO.
Bien que CLIP performe bien sur de nombreuses tâches visuelles, il reste à la traîne sur les tâches de surveillance de la Terre. Ce n'est pas surprenant, car il est principalement formé sur des images RGB prises au sol à un moment donné. Il y a beaucoup de similitudes entre les ensembles de données d'observation de la Terre et les ensembles de données d'images typiques utilisés en apprentissage machine, mais plusieurs différences clés doivent être prises en compte lors de la création de modèles efficaces.
Les images d'observation de la Terre proviennent d'en haut, souvent prises à distance fixe déterminée par l'orbite d'un satellite. Les satellites revisitent des zones à intervalles irréguliers ou réguliers, parfois confrontés à des problèmes comme la couverture nuageuse qui peut obscurcir les images. Ces images sont capturées à l'aide de capteurs ayant plusieurs bandes spectrales. Par exemple, Sentinel-2 utilise 13 bandes. En plus, des capteurs comme le radar à synthèse d'ouverture (SAR) peuvent voir à travers les nuages.
Chaque acquisition d'image est étiquetée avec des coordonnées GPS et une date/heure, permettant de combiner des données provenant de différentes sources, comme les données météorologiques et les cartes d'élévation. Cela forme un signal multimodal riche, même si certaines informations sont manquantes. Actuellement, il existe d'énormes quantités de données satellitaires disponibles, avec des images de la Terre provenant de divers moments dans le temps, remontant aux années 1960.
Transformer cette richesse d'informations en modèles pré-entraînés de différentes tailles facilite le partage des connaissances et améliore les performances sur de nombreuses tâches. L'objectif principal de ces grands modèles pré-entraînés est d'améliorer les performances sur les tâches en aval. Pour aider la communauté de l'apprentissage machine à créer de meilleurs modèles pré-entraînés, il est essentiel de fournir un standard avec une variété de tâches en aval, couvrant différents types de données et formats que les chercheurs sont susceptibles de rencontrer.
Actuellement, de nombreuses études sur le pré-entraînement de modèles utilisant des observations de la Terre évaluent différentes tâches en aval, rendant les comparaisons difficiles. De plus, les tâches choisies sont souvent limitées en diversité, et les méthodes utilisées ne rendent pas suffisamment compte des incertitudes dans les évaluations. Ce travail vise à combler ces lacunes en offrant une large gamme de tâches provenant de divers pays et en utilisant différents capteurs.
De plus, les ensembles de données modifiés dans GEO-Bench sont plus petits que leurs versions originales, et les résultats peuvent être reproduits sur des GPU standard. Cela facilite la participation des groupes de recherche plus petits avec des ressources limitées et réduit l'utilisation d'énergie. GEO-Bench comprend six tâches de classification d'images et six tâches de segmentation sémantique, soigneusement sélectionnées par des experts pour garantir diversité et pertinence pour le développement durable.
Les bénéfices anticipés de ce système de référence incluent l'encouragement de la croissance des modèles de base pour la surveillance de la Terre, l'établissement d'une méthode cohérente pour évaluer la qualité des modèles, fournir des informations sur les meilleurs modèles pré-entraînés, et peut-être réduire les inconvénients des modèles de base grâce à un système d'évaluation ouvert.
Collecte de Données pour la Surveillance de la Terre
Lors de la construction de modèles de base pour la surveillance de la Terre, il est essentiel de discuter des sources de données potentielles utilisées pour le pré-entraînement. Le développement de modèles de base ne dépend généralement pas d'un ensemble de données spécifique pour le pré-entraînement. Le choix des données fait partie des décisions de conception, comme l'utilisation de grands ensembles de données textuelles provenant d'internet ou de paires de textes et d'images provenant de sources en ligne.
Ainsi, bien que GEO-Bench ne fournisse pas de données pour l'entraînement, on décrit plusieurs sources possibles de données d'observation de la Terre adaptées au pré-entraînement. Les sources de données satellitaires comme Sentinel-2 et Landsat 8 offrent des images multispectrales avec des temps de revisite réguliers. Cela donne un tableau de données à quatre dimensions structuré par longitude, latitude, longueur d'onde et temps, qui peut soutenir diverses techniques d'auto-supervision, comme prédire des images adjacentes ou comparer les changements saisonniers pour le même emplacement.
En plus des données optiques traditionnelles, d'autres types de capteurs, comme le SAR et les données d'élévation du terrain, peuvent être associés par géolocalisation et peuvent aider le modèle à apprendre des significations de haut niveau. Des données textuelles, comme des articles de Wikipédia, peuvent être liées à des images satellites via la géoréférencement. Combiner ces informations avec des données non-images provenant de sources comme OpenStreetMap peut améliorer la capacité du modèle à créer des représentations utiles.
GEO-Bench en Détail
GEO-Bench est structuré avec six tâches de classification et six tâches de segmentation sémantique. Chaque ensemble de données est collecté et réutilisé pour assurer qu'il reste accessible et facile à utiliser, tout en mesurant efficacement la performance des modèles. Un des objectifs principaux était de créer un standard simple et compact qui pourrait être facilement utilisé, offrant une manière cohérente de charger les données et de les gérer.
Pour rendre GEO-Bench pertinent par rapport à des cas d'utilisation réels, on a réuni une équipe de six experts venant de domaines comme la foresterie et la science climatique. Un comité de pilotage composé de scientifiques réputés supervise les décisions importantes liées au standard pour garantir son impact et sa pertinence. L'objectif du standard est d'examiner la performance des modèles à travers une variété de capteurs géospatiaux, y compris multispectraux, SAR, hyperspectraux, d'élévation, et de probabilité de nuages, avec des résolutions spatiales allant de 0,1 à 30 mètres par pixel.
GEO-Bench va au-delà de la classification ; il inclut aussi des tâches de détection d'objets et de segmentation sémantique. Les tâches de détection et de comptage ont été adaptées en segmentation sémantique pour simplifier l'utilisation. Cela donne deux ensembles de tâches : six tâches de classification d'images et six tâches de segmentation sémantique.
On conserve autant que possible les séparations d'entraînement, de validation, et de test originales. Si elles ne sont pas disponibles, on crée des ensembles de validation et de test à partir de l'ensemble d'entraînement tout en s'assurant qu'il n'y a pas de chevauchement spatial. La plupart des ensembles de données dans GEO-Bench ont été modifiés pour répondre aux exigences d'accessibilité et incluent uniquement ceux avec des licences permissives.
Modification des Ensembles de Données pour GEO-Bench
Pour créer un standard qui corresponde à nos objectifs, on a apporté des transformations spécifiques à chaque ensemble de données. Le processus de téléchargement et de modification des ensembles de données est entièrement documenté et accessible via le dépôt GitHub de GEO-Bench. Les ensembles de données plus grands, lorsqu'ils dépassent une certaine taille d'échantillon, ont été sous-échantillonnés de manière aléatoire pour représenter des conditions typiques, où les données ne sont pas toujours abondantes.
Cela réduit le nombre de tâches extrêmement grandes et offre d'autres avantages. Par exemple, des ensembles d'entraînement plus grands peuvent rendre plus difficile la distinction entre des modèles ayant des performances similaires. Un benchmark plus petit est plus rapide à télécharger, génère des résultats plus rapidement et nécessite moins d'énergie pour être calculé. Il permet aussi une plus grande variété d'expériences.
Pour éviter le déséquilibre des classes, on a sous-échantillonné aléatoirement les grandes classes pour maintenir des tailles de classes uniformes à travers les ensembles de données. De cette manière, les utilisateurs du benchmark ne peuvent pas gonfler leurs scores par des astuces avec le déséquilibre des classes mais doivent se concentrer sur l'amélioration de leurs modèles pré-entraînés à la place.
Utilisation de GEO-Bench
Le fine-tuning est une étape importante dans le processus d'apprentissage auto-supervisé. Les utilisateurs peuvent prendre un modèle pré-entraîné et l'utiliser pour créer une représentation fixe de chaque image dans l'ensemble de données. Bien que ce processus fonctionne raisonnablement bien, son succès dépend de la tâche de pré-entraînement originale, et il se peut qu'il ne capture pas ce qui est crucial pour la tâche suivante. En pratique, le fine-tuning du modèle pré-entraîné mène généralement à de meilleures performances globales par rapport à un modèle commençant à zéro.
On encourage les utilisateurs du benchmark à rapporter les résultats obtenus à partir de modèles fine-tunés, bien qu'on accueille aussi les rapports utilisant des backbones fixes (poids pré-entraînés) puisque cela peut offrir des aperçus précieux sur la performance du modèle. Quelle que soit le choix, on demande aux utilisateurs de fournir suffisamment de détails sur leurs méthodes de fine-tuning pour garantir que les résultats puissent être reproduits.
Ajuster les hyperparamètres est essentiel dans l'apprentissage profond, surtout quand on fait du fine-tuning sur un plus petit ensemble de données. Par conséquent, on recommande d'ajuster ces réglages dans un budget maximum de 16 essais par tâche. L'arrêt précoce basé sur des métriques de validation est aussi suggéré.
L'augmentation des données est un autre aspect clé de la formation de modèles d'apprentissage profond, surtout avec des ensembles de données d'entraînement limités. On suggère de limiter les augmentations aux transformations de base comme les rotations et les flips. Les utilisateurs sont également encouragés à explorer les augmentations de données les plus efficaces pour la télédétection, car cela pourrait donner des résultats précieux pour les praticiens.
Pour faciliter l'utilisation du benchmark, on propose une gamme d'outils destinés à différentes étapes du processus expérimental. Ces outils offrent des options pour charger des ensembles de données, visualiser des résultats, et entraîner des modèles, tous inclus dans la base de code open-source.
Rapport des Résultats de GEO-Bench
Pour générer des résultats fiables et comparables à travers diverses publications, on suggère aux utilisateurs de suivre des procédures spécifiques lors de la communication des résultats. Cela garantit que les résultats sont disponibles pour les tâches individuelles et agrégés à travers toutes les tâches, complets avec des intervalles de confiance fiables.
Utiliser des graines aléatoires est crucial pour établir des intervalles de confiance fiables. Comme indiqué dans nos processus, faire des expériences avec seulement quelques graines n'est pas suffisant. Étant donné que le pré-entraînement et la recherche d'hyperparamètres tendent à être les parties les plus consommatrices en ressources, on recommande de re-entraîner les configurations sélectionnées avec au moins 10 graines différentes.
On suggère d'employer la Moyenne Interquartile (IQM) comme métrique. Cette méthode coupe les extrêmes en supprimant les 25% de valeurs les plus hautes et les plus basses, puis trouve la moyenne des résultats restants pour produire une mesure moins biaisée et plus stable.
Lors de l'agrégation des métriques de performance à travers plusieurs tâches, il est essentiel de normaliser les valeurs en premier. Une méthode courante consiste à appliquer une transformation linéaire basée sur des points de référence. On propose d'utiliser les valeurs métriques de référence trouvées dans de bons modèles comme points de référence. Cette approche permet de redimensionner les résultats de sorte que le score le plus élevé égale 1 et le plus bas = 0. Si un modèle futur dépasse un score de 1, cela indique un avancement.
Grâce au bootstrapping, on peut évaluer l'incertitude sur les IQM observés. Ce processus implique de tirer des échantillons avec remplacement des résultats produits en utilisant différentes graines et de calculer l'IQM. Répéter cela permet d'extraire une distribution pour développer des intervalles de confiance.
Les résultats de suivi présentés dans GEO-Bench visent à agréger l'IQM à travers tous les ensembles de données pour des modèles spécifiques. Pour les intervalles de confiance, on recommande le bootstrapping stratifié, où les graines sont échantillonnées avec remplacement pour chaque ensemble de données tout en calculant l'IQM à travers tous les ensembles de données disponibles.
Travaux Connexes
On vise à distinguer GEO-Bench des autres benchmarks. SustainBench se compose de 15 ensembles de données publics axés sur sept objectifs de développement durable, y compris des tâches de télédétection bidimensionnelles. Bien qu'il propose un tableau de classement public, il suit la performance des modèles sans viser des cadres de solution ou un suivi agrégé.
TorchGeo est une bibliothèque Python visant à intégrer des ensembles de données de télédétection dans l'écosystème PyTorch, avec des chargeurs de données pour 52 ensembles de données publiquement disponibles pour diverses tâches. Notre benchmark s'interface directement avec TorchGeo et utilise ses chargeurs pour certains ensembles de données.
EarthNets, une plateforme récemment développée, évalue les méthodes d'apprentissage profond sur des ensembles de données de télédétection en analysant les métadonnées de 400 ensembles de données publiquement disponibles. Leur analyse met en lumière les corrélations entre ensembles de données et suggère des clusters. Cependant, on propose une collection plus large de 12 ensembles de données, complète avec une méthodologie exhaustive pour l'agrégation des résultats et le rapport des incertitudes d'évaluation.
AiTLAS a introduit un benchmark avec 22 ensembles de données de classification, dont trois se chevauchent avec le nôtre. Ils ont standardisé les séparations d'entraînement, de validation et de test pour les ensembles de données existants, fournissant des métriques de test plus précises. Toutefois, notre standard se concentre sur une plus grande variété d'ensembles de données et propose une méthodologie robuste pour le rapport et la combinaison des résultats.
Évaluation de la Performance des Modèles
On fournit un ensemble de références pour les benchmarks de classification et de segmentation pour servir de points de référence pour les évaluations futures. On cherche à répondre à des questions clés concernant la performance des modèles, notamment quel nouvel architecture fonctionne le mieux pour les données de télédétection, comment la taille de l'ensemble d'entraînement impacte les performances des modèles, si les canaux multispectraux améliorent les résultats, et si des ensembles de données plus petits produisent de meilleures performances discriminatoires entre les modèles.
Pour chaque modèle, on remplace la couche finale par une couche initialisée aléatoirement adaptée à la tâche. Différents taux d'apprentissage sont appliqués à la dernière couche et au backbone en fonction des poids pré-entraînés. Les meilleurs taux d'apprentissage sont déterminés en testant différentes valeurs sur 16 essais.
Lors de la comparaison des performances de référence, on observe comment les modèles se comportent en fonction de la taille de l'ensemble d'entraînement. Cela reflète l'importance de choisir des tailles d'ensemble de données appropriées pour un entraînement efficace des modèles et permet d'avoir un aperçu de la performance de différents modèles.
On mène des expériences supplémentaires pour explorer comment l'incorporation de données multispectrales affecte les résultats des modèles pendant le pré-entraînement et le fine-tuning. Nos découvertes suggèrent que l'utilisation d'un modèle pré-entraîné uniquement sur des données RGB, associée à des augmentations, peut ne pas mener à des améliorations de performance cohérentes. Cependant, tirer parti de ResNet50 pré-entraîné avec des techniques spécifiques à l'ensemble de données montre des augmentations de performance modestes.
Utilisation des Ressources
Dans le cadre des évaluations de GEO-Bench, on rapporte l'utilisation des ressources pour divers algorithmes, y compris la mémoire et le temps nécessaires au traitement. L'utilisation de mémoire peut augmenter en fonction de la taille du modèle ; cependant, les vitesses de passage avant devraient rester efficaces pour les applications pratiques.
L'Impact des Modèles de Base
La télédétection et la surveillance de la Terre ont évolué de manière significative, impactant de nombreux secteurs, y compris l'agriculture, la science climatique, et plus encore. Beaucoup de ces transformations ne dépendent pas uniquement des modèles d'apprentissage profond, mais leur introduction peut affecter positivement divers processus.
Un des principaux points d'intérêt est la lutte contre le changement climatique. Les applications de l'apprentissage machine en télédétection offrent des solutions à de nombreux défis liés au climat. Beaucoup de solutions existantes nécessitent des ressources considérables pour être développées, résultant souvent en approches qui ne s'appliquent qu'à des zones spécifiques. Cette limitation pose des défis pour les régions moins développées économiquement, qui subissent également les effets du changement climatique.
Les modèles de base peuvent aider à combler ces lacunes, permettant un développement plus rapide de nouvelles solutions de télédétection pour les défis climatiques. Ils peuvent aussi aider à réduire le besoin de créer de grands ensembles de données étiquetées pour chaque tâche spécifique, facilitant l'accès à ces modèles pour les petites organisations et chercheurs.
Cependant, la montée des modèles de base engendre des utilisations inattendues qui pourraient avoir des impacts négatifs. De plus, les recherches indiquent que les grands modèles pré-entraînés peuvent avoir des émissions substantielles pendant leurs processus d'entraînement. Trouver l'équilibre entre leurs avantages potentiels, comme aider les efforts de lutte contre le changement climatique, et leurs coûts environnementaux est crucial.
En sélectionnant soigneusement des centres de données avec des sources d'énergie plus vertes et en concevant des pipelines efficaces, les émissions peuvent être considérablement réduites. Chaque effort entrepris pour mieux gérer les émissions de ces modèles contribue à aborder le changement climatique.
Équité et Biais dans les Modèles
Les grands modèles montrent souvent des biais, et bien que cela représente des risques dans les modèles de langage, les biais dans les modèles de télédétection sont susceptibles d'avoir des impacts moins significatifs. Toutefois, des biais potentiels existent toujours.
En ce qui concerne la couverture des données, certains systèmes satellitaires offrent des résolutions standard à travers le monde, assurant un large accès. D'autres, comme ceux proposés par Maxar, ont des limitations basées sur le coût et des taux de revisite plus bas. Avec les avancées dans les technologies satellitaires, certaines régions bénéficient d'une meilleure disponibilité des données, ce qui peut soulever des problèmes d'équité.
Dans l'ensemble, bien que GEO-Bench vise à promouvoir le progrès dans la surveillance de la Terre avec des modèles de base, garantir un accès équitable et aborder les implications de ces modèles est vital. À mesure qu'ils se développent, il est essentiel de continuer à évaluer les impacts sociétaux pour éviter des conséquences inattendues.
En conclusion, GEO-Bench est prêt à impulser des améliorations dans les modèles de base pour la surveillance de la Terre. En fournissant un benchmark diversifié, en évaluant différents ensembles de données, et en encourageant les améliorations des modèles, on anticipe un avenir où la surveillance de la planète devient plus efficace, accessible et durable.
Titre: GEO-Bench: Toward Foundation Models for Earth Monitoring
Résumé: Recent progress in self-supervision has shown that pre-training large neural networks on vast amounts of unsupervised data can lead to substantial increases in generalization to downstream tasks. Such models, recently coined foundation models, have been transformational to the field of natural language processing. Variants have also been proposed for image data, but their applicability to remote sensing tasks is limited. To stimulate the development of foundation models for Earth monitoring, we propose a benchmark comprised of six classification and six segmentation tasks, which were carefully curated and adapted to be both relevant to the field and well-suited for model evaluation. We accompany this benchmark with a robust methodology for evaluating models and reporting aggregated results to enable a reliable assessment of progress. Finally, we report results for 20 baselines to gain information about the performance of existing models. We believe that this benchmark will be a driver of progress across a variety of Earth monitoring tasks.
Auteurs: Alexandre Lacoste, Nils Lehmann, Pau Rodriguez, Evan David Sherwin, Hannah Kerner, Björn Lütjens, Jeremy Andrew Irvin, David Dao, Hamed Alemohammad, Alexandre Drouin, Mehmet Gunturkun, Gabriel Huang, David Vazquez, Dava Newman, Yoshua Bengio, Stefano Ermon, Xiao Xiang Zhu
Dernière mise à jour: 2023-12-23 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.03831
Source PDF: https://arxiv.org/pdf/2306.03831
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.neurips.cc/Conferences/2023/CallForDatasetsBenchmarks
- https://mirrors.ctan.org/macros/latex/contrib/natbib/natnotes.pdf
- https://www.ctan.org/pkg/booktabs
- https://www.emfield.org/icuwb2010/downloads/IEEE-PDF-SpecV32.pdf
- https://mirrors.ctan.org/macros/latex/required/graphics/grfguide.pdf
- https://neurips.cc/Conferences/2023/PaperInformation/FundingDisclosure
- https://zenodo.org/communities/geo-bench
- https://mlhub.earth/data/ref_fusion_competition_south_africa
- https://github.com/ServiceNow/geo-bench
- https://data.linz.govt.nz/