GEO-Bench: Un Nuevo Referente para el Monitoreo de la Tierra
GEO-Bench busca mejorar los modelos base en tareas de monitoreo terrestre.
― 17 minilectura
Tabla de contenidos
Los avances recientes en auto-supervisión muestran que entrenar grandes redes neuronales con cantidades masivas de datos no aprovechados puede mejorar significativamente el rendimiento en varias tareas. Estos modelos, conocidos como modelos fundacionales, han cambiado mucho la forma en que manejamos el procesamiento de lenguaje natural. Aunque se han sugerido modelos similares para datos de imagen, su utilidad en tareas de teledetección sigue siendo limitada.
Para impulsar el crecimiento de modelos fundacionales para rastrear los cambios en la Tierra, proponemos GEO-Bench, un conjunto de referencia compuesto por seis Tareas de Clasificación y seis tareas de segmentación. Estas tareas se eligen cuidadosamente para ser relevantes y útiles para evaluar el rendimiento del modelo. También proporcionamos un método sólido para evaluar los modelos y compartir resultados para ayudar a rastrear el progreso. Presentamos resultados de 20 modelos base para entender qué tan bien rinden los modelos actuales.
Creemos que este conjunto de referencia fomentará avances en muchas tareas de monitoreo de la Tierra. Los métodos de aprendizaje automático para monitorear la Tierra son cada vez más vitales para abordar el cambio climático y la ciencia climática. Las aplicaciones en este área incluyen detectar fuentes de metano, medir carbono en bosques, predecir fenómenos meteorológicos extremos y monitorear cultivos.
En muchas de estas aplicaciones, los modelos preentrenados, como ResNet entrenado en ImageNet, han demostrado ser útiles para mejorar el rendimiento general. Las mejoras en estos modelos preentrenados pueden reducir la necesidad de grandes conjuntos de datos etiquetados y mejorar el rendimiento más allá de los datos de entrenamiento. Estudios recientes sugieren que expandir el tamaño de un conjunto de datos no supervisado o débilmente supervisado, junto con ajustar correctamente el modelo, puede dar lugar a mejores resultados según diversas medidas.
Normalmente, el entrenamiento de estos grandes modelos ocurre en grupos de investigación industriales con sistemas informáticos potentes. Sin embargo, lanzar modelos preentrenados abre muchas oportunidades para las comunidades de investigación y tecnología, incluidos expertos en dominios fuera del aprendizaje automático. El lanzamiento de grandes modelos preentrenados como BERT y GPT-3 trajo un cambio significativo al procesamiento de lenguaje natural, lo que ahora ha inspirado cambios similares en visión por computadora con modelos como CLIP y DINO.
Aunque CLIP rinde bien en muchas tareas de visión, aún se queda atrás en tareas de monitoreo de la Tierra. Esto no es sorprendente, ya que se entrena principalmente en imágenes RGB tomadas desde el suelo en un momento específico. Hay muchas similitudes entre los conjuntos de datos de observación de la Tierra y los conjuntos de datos de imágenes típicos utilizados en aprendizaje automático, pero hay varias diferencias clave que deben tenerse en cuenta al crear modelos efectivos.
Las imágenes de observación de la Tierra provienen de arriba en lugar de desde el suelo, generalmente tomadas desde una distancia fija determinada por la órbita de un satélite. Los satélites revisitan áreas en intervalos irregulares o regulares, a veces enfrentando problemas como la cobertura de nubes que pueden oscurecer las imágenes. Estas imágenes se capturan utilizando sensores que tienen múltiples bandas espectrales. Por ejemplo, Sentinel-2 utiliza 13 bandas. Además, sensores como el radar de apertura sintética (SAR) pueden ver a través de las nubes.
Cada adquisición de imagen está etiquetada con coordenadas GPS y una marca de tiempo, lo que permite combinar datos de diferentes fuentes, como datos meteorológicos y mapas de elevación. Esto forma una rica señal multimodal, incluso si falta alguna información. Actualmente, hay enormes cantidades de datos satelitales disponibles, con imágenes de la Tierra de varios puntos en el tiempo, que datan desde la década de 1960.
Transformar esta riqueza de información en modelos preentrenados de diferentes tamaños facilita compartir el conocimiento y mejorar el rendimiento en muchas tareas. El objetivo principal de estos grandes modelos preentrenados es mejorar el rendimiento en tareas posteriores. Para ayudar a la comunidad de aprendizaje automático a crear mejores modelos preentrenados, es esencial proporcionar un conjunto de referencia con una variedad de tareas posteriores, cubriendo diferentes tipos de datos y formatos que los investigadores probablemente encontrarán.
Actualmente, muchos estudios sobre modelos de preentrenamiento utilizando observaciones de la Tierra evalúan diferentes tareas posteriores, lo que dificulta las comparaciones. Además, las tareas elegidas a menudo son limitadas en diversidad, y los métodos utilizados no informan adecuadamente sobre las incertidumbres en las evaluaciones. Este trabajo tiene como objetivo abordar esas brechas ofreciendo una amplia gama de tareas de varios países y utilizando diferentes sensores.
Además, los conjuntos de datos modificados en GEO-Bench son más pequeños que sus versiones originales, y los resultados se pueden replicar en GPUs estándar. Esto facilita la participación de grupos de investigación más pequeños con recursos limitados y reduce el uso de energía. GEO-Bench incluye seis tareas de clasificación de imágenes y seis tareas de segmentación semántica, cuidadosamente seleccionadas por expertos para garantizar diversidad y relevancia para el desarrollo sostenible.
Los beneficios anticipados de este conjunto de referencia incluyen fomentar el crecimiento de modelos fundacionales para el monitoreo de la Tierra, establecer un método consistente para evaluar la calidad del modelo, proporcionar información sobre los mejores modelos preentrenados y posiblemente reducir los inconvenientes de los modelos fundacionales a través de un sistema de evaluación abierto.
Recopilación de Datos para el Monitoreo de la Tierra
Al construir modelos fundacionales para el monitoreo de la Tierra, es esencial discutir las posibles fuentes de datos utilizadas para el preentrenamiento. El desarrollo de modelos fundacionales típicamente no depende de ningún conjunto de datos específico para el preentrenamiento. La elección de datos es parte de las decisiones de diseño, como usar grandes conjuntos de datos de texto de internet o pares de texto e imágenes de fuentes en línea.
Por lo tanto, aunque GEO-Bench no proporciona datos para entrenamiento, esbozamos varias posibles fuentes de datos de observación de la Tierra adecuadas para el preentrenamiento. Las fuentes de datos satelitales como Sentinel-2 y Landsat 8 ofrecen imágenes multispectrales con tiempos de revisita regulares. Esto resulta en un arreglo de datos de cuatro dimensiones estructurado por longitud, latitud, longitud de onda y tiempo, que puede soportar varias técnicas de auto-supervisión, como predecir imágenes adyacentes o comparar cambios estacionales para la misma ubicación.
Además de los datos ópticos tradicionales, otros tipos de sensores, como SAR y datos de elevación del terreno, pueden combinarse a través de geolocalización y pueden ayudar al modelo a aprender significados de mayor nivel. Los datos basados en texto, como artículos de Wikipedia, pueden vincularse a imágenes satelitales a través de georreferenciación. Combinar esta información con datos no de imagen de fuentes como OpenStreetMap puede mejorar la capacidad del modelo para crear representaciones útiles.
GEO-Bench en Detalle
GEO-Bench está estructurado con seis tareas de clasificación y seis tareas de segmentación semántica. Cada conjunto de datos se recopila y reutiliza para garantizar que se mantenga accesible y fácil de usar, al mismo tiempo que mide de manera efectiva el rendimiento del modelo. Un objetivo principal fue crear un conjunto de referencia simple y compacto que pudiera ser fácilmente utilizado, ofreciendo una forma consistente de cargar y gestionar datos.
Para que GEO-Bench sea relevante para casos de uso reales, reunimos un equipo de seis expertos de campos como la silvicultura y la ciencia climática. Un comité directivo de científicos de renombre supervisa decisiones importantes del conjunto de referencia para garantizar impacto y relevancia. El conjunto de referencia tiene como objetivo examinar el rendimiento del modelo a través de una variedad de sensores geoespaciales, incluidos multispectrales, SAR, hiperespectrales, de elevación y probabilidades de nubes, con resoluciones espaciales que varían de 0.1 a 30 metros por píxel.
GEO-Bench se expande más allá de la clasificación; también incluye tareas de detección de objetos y segmentación semántica. Las tareas de detección y conteo se han adaptado a la segmentación semántica para simplificar su uso. Esto resulta en dos conjuntos de tareas: seis tareas de clasificación de imágenes y seis tareas de segmentación semántica.
Retenemos las divisiones originales de entrenamiento, validación y prueba siempre que sea posible. Si no están disponibles, creamos conjuntos de validación y prueba a partir del conjunto de entrenamiento, asegurando que no haya superposición espacial. La mayoría de los conjuntos de datos en GEO-Bench se modificaron para cumplir con los requisitos de accesibilidad e incluir solo aquellos con licencias permisivas.
Modificando Conjuntos de Datos para GEO-Bench
Para crear un conjunto de referencia que coincida con nuestros objetivos, hicimos transformaciones específicas a cada conjunto de datos. El proceso de descarga y modificación de conjuntos de datos está completamente documentado y disponible a través del repositorio de GitHub de GEO-Bench. Los conjuntos de datos más grandes, cuando superan un cierto tamaño de muestra, se muestrearon aleatoriamente para representar condiciones típicas, donde los datos no siempre son abundantes.
Esto reduce la cantidad de tareas extremadamente grandes y ofrece otros beneficios. Por ejemplo, conjuntos de datos de entrenamiento más grandes pueden dificultar distinguir modelos que rinden de manera similar. Un conjunto de referencia más pequeño se descarga más rápido, genera resultados más rápidamente y requiere menos energía para computar. También permite una mayor variedad de experimentos.
Para prevenir el desequilibrio de clases, muestreamos aleatoriamente clases grandes para mantener tamaños de clase uniformes en los conjuntos de datos. De esta manera, los usuarios del conjunto de referencia no pueden inflar sus puntuaciones mediante trucos con desequilibrio de clases, sino que necesitan centrarse en mejorar sus modelos preentrenados.
Usando GEO-Bench
El ajuste fino es un paso importante en el proceso de aprendizaje auto-supervisado. Los usuarios pueden tomar un modelo preentrenado y usarlo para crear una representación fija de cada imagen en el conjunto de datos. Aunque este proceso funciona razonablemente bien, su éxito depende de la tarea de preentrenamiento original, y puede que no capture lo que es crucial para la siguiente tarea. En la práctica, ajustar el modelo preentrenado típicamente lleva a un mejor rendimiento general en comparación con un modelo que comienza desde cero.
Animamos a los usuarios del conjunto de referencia a reportar resultados obtenidos de modelos ajustados, aunque también damos la bienvenida a informes utilizando estructuras fijas (pesos preentrenados) ya que pueden ofrecer información valiosa sobre el rendimiento del modelo. Independientemente de la elección, pedimos a los usuarios que proporcionen suficientes detalles sobre sus métodos de ajuste fino para asegurar que los resultados puedan ser reproducidos.
Ajustar los hiperparámetros es esencial en el aprendizaje profundo, especialmente al ajustar una arquitectura en un conjunto de datos más pequeño. Por lo tanto, recomendamos ajustar estas configuraciones dentro de un presupuesto máximo de 16 pruebas por tarea. También se sugiere el uso de un paro temprano basado en métricas de validación.
La augmentación de datos es otro aspecto clave del entrenamiento de modelos de aprendizaje profundo, especialmente con conjuntos de datos de entrenamiento limitados. Sugerimos limitar las augmentaciones a transformaciones básicas como rotaciones y giros. También se anima a los usuarios a explorar las augmentaciones de datos más efectivas para la teledetección, ya que estas podrían generar hallazgos valiosos relevantes para los practicantes.
Para facilitar el uso del conjunto de referencia, ofrecemos una gama de herramientas dirigidas a diferentes etapas del proceso experimental. Estas herramientas proporcionan opciones para cargar conjuntos de datos, visualizar resultados y entrenar modelos, todo incluido en la base de código de código abierto.
Reportando Resultados de GEO-Bench
Para generar resultados confiables y comparables a través de varias publicaciones, sugerimos que los usuarios sigan procedimientos específicos al reportar resultados. Esto asegura que los resultados estén disponibles para tareas individuales y agregados a través de todas las tareas, completos con intervalos de confianza confiables.
El uso de semillas aleatorias es crucial para establecer intervalos de confianza confiables. Como se indica en nuestros procesos, ejecutar experimentos con solo unas pocas semillas no es suficiente. Dado que el preentrenamiento y la búsqueda de hiperparámetros tienden a ser las partes más intensivas en recursos, recomendamos volver a entrenar configuraciones seleccionadas en al menos 10 semillas diferentes.
Sugerimos emplear la Media Intercuartílica (IQM) como una métrica. Este método recorta los extremos eliminando el 25% superior e inferior de los valores y luego encuentra el promedio de los resultados restantes para producir una medida menos sesgada y más estable.
Al agregar métricas de rendimiento a través de varias tareas, es esencial normalizar los valores primero. Un método común implica aplicar una transformación lineal basada en puntos de referencia. Proponemos usar valores de métricas de referencia encontrados en modelos fuertes como puntos de referencia. Este enfoque nos permite escalar resultados para que la puntuación más alta sea igual a 1 y la más baja igual a 0. Si un modelo futuro supera una puntuación de 1, indica un avance.
A través de bootstrapping, podemos evaluar la incertidumbre sobre IQMs observados. Este proceso implica extraer muestras con reemplazo de resultados producidos usando diferentes semillas y calcular IQM. Repetir esto permite la extracción de distribución para desarrollar intervalos de confianza.
Los resultados de seguimiento presentados en GEO-Bench tienen como objetivo agregar IQM a través de todos los conjuntos de datos para modelos específicos. Para intervalos de confianza, recomendamos el bootstrapping estratificado, donde las semillas se muestrean con reemplazo para cada conjunto de datos mientras se calcula IQM en todos los conjuntos de datos disponibles.
Trabajo Relacionado
Aspiramos a distinguir GEO-Bench de otros conjuntos de referencia. SustainBench consiste en 15 conjuntos de datos públicos centrados en siete objetivos de desarrollo sostenible, incluidas tareas de teledetección bidimensional. Si bien ofrece una tabla de clasificación pública, rastrea el rendimiento del modelo sin buscar marcos de solución o monitoreo agregado.
TorchGeo es una biblioteca de Python dirigida a llevar conjuntos de datos de teledetección al ecosistema de PyTorch, que presenta cargadores de datos para 52 conjuntos de datos disponibles públicamente para varias tareas. Nuestro conjunto de referencia se integra directamente con TorchGeo y utiliza sus cargadores para algunos conjuntos de datos.
EarthNets, una plataforma recientemente desarrollada, evalúa métodos de aprendizaje profundo en conjuntos de datos de teledetección analizando los metadatos de 400 conjuntos de datos disponibles públicamente. Su análisis destaca las correlaciones de conjuntos de datos y sugiere clusters. Sin embargo, nosotros ofrecemos una colección más amplia de 12 conjuntos de datos, completa con una metodología integral para agregar resultados y reportar incertidumbres en evaluaciones.
AiTLAS introdujo un conjunto de referencia con 22 conjuntos de datos de clasificación, tres de los cuales se superponen con el nuestro. Estandarizaron las divisiones de entrenamiento, validación y prueba para conjuntos de datos existentes, proporcionando métricas de prueba más precisas. Sin embargo, nuestro conjunto de referencia se enfoca en una mayor variedad de conjuntos de datos y propone una metodología robusta para reportar y combinar resultados.
Evaluación del Rendimiento de Modelos
Proporcionamos un conjunto de bases para los puntos de referencia de clasificación y segmentación para servir como puntos de referencia para futuras evaluaciones. Buscamos responder preguntas clave sobre el rendimiento del modelo, incluyendo cuál nueva arquitectura funciona mejor para datos de teledetección, cómo el tamaño del conjunto de entrenamiento impacta el rendimiento del modelo, si los canales multispectrales mejoran los resultados y si conjuntos de datos más pequeños rinden mejor entre modelos.
Para cada modelo, reemplazamos la última capa con una capa inicializada aleatoriamente adecuada para la tarea. Se aplican diferentes tasas de aprendizaje a la última capa y al respaldo basado en pesos preentrenados. Las mejores tasas de aprendizaje se determinan probando diferentes valores a través de 16 pruebas.
Al comparar el rendimiento base, observamos cómo se comportan los modelos según el tamaño del conjunto de entrenamiento. Esto refleja la importancia de elegir tamaños de conjunto de datos apropiados para un entrenamiento efectivo del modelo y permite vislumbrar cómo rinden los diferentes modelos.
Realizamos experimentos adicionales para explorar cómo la incorporación de datos multispectrales afecta los resultados del modelo durante el preentrenamiento y el ajuste fino. Nuestros hallazgos sugieren que usar un modelo preentrenado solo en datos RGB junto con aumentarlo puede no llevar a mejoras de rendimiento consistentes. Sin embargo, aprovechar ResNet50 preentrenado usando técnicas específicas de conjunto de datos muestra modestos aumentos de rendimiento.
Uso de Recursos
Como parte de las evaluaciones de GEO-Bench, reportamos sobre el uso de recursos para varios algoritmos, incluyendo la memoria y el tiempo requeridos para el procesamiento. El uso de memoria puede aumentar según el tamaño del modelo; sin embargo, las velocidades de paso hacia adelante deberían mantenerse eficientes para aplicaciones prácticas.
El Impacto de los Modelos Fundacionales
La teledetección y el monitoreo de la Tierra han evolucionado significativamente, impactando muchos sectores, incluyendo agricultura, ciencia climática, y más. Muchas de estas transformaciones no dependen exclusivamente de modelos de aprendizaje profundo, pero su introducción puede afectar positivamente varios procesos.
Un enfoque clave es el cambio climático. Las aplicaciones de aprendizaje automático en teledetección proporcionan soluciones para numerosos desafíos relacionados con el clima. Muchas soluciones existentes requieren recursos significativos para desarrollarse, resultando a menudo en enfoques que solo aplican a áreas específicas. Esta limitación plantea desafíos para regiones menos desarrolladas económicamente, que también experimentan los efectos del cambio climático.
Los modelos fundacionales pueden ayudar a cerrar estas brechas, permitiendo un desarrollo más rápido de nuevas soluciones de teledetección para desafíos climáticos. También pueden ayudar a reducir la necesidad de curar grandes conjuntos de datos etiquetados para cada tarea específica, facilitando que organizaciones más pequeñas e investigadores accedan a estos modelos.
Sin embargo, el auge de los modelos fundacionales invita a algunos usos inesperados que podrían tener impactos negativos. Además, investigaciones indican que grandes modelos preentrenados pueden tener emisiones sustanciales durante sus procesos de entrenamiento. Encontrar el equilibrio entre sus beneficios potenciales, como ayudar en los esfuerzos contra el cambio climático, y sus costos ambientales es crucial.
Al seleccionar cuidadosamente centros de datos con fuentes de energía más limpias y diseñar pipelines eficientes, se pueden reducir significativamente las emisiones. Cada esfuerzo realizado para gestionar mejor las emisiones de estos modelos contribuye a abordar el cambio climático.
Equidad y Sesgos en los Modelos
Los grandes modelos a menudo muestran sesgos, y aunque esto plantea riesgos en los modelos de lenguaje, los sesgos en los modelos de teledetección probablemente tendrán impactos menos significativos. Sin embargo, todavía existen sesgos potenciales.
En cuanto a la cobertura de datos, algunos sistemas satelitales ofrecen resoluciones estándar en todo el mundo, asegurando un acceso amplio. Otros, como los ofrecidos por Maxar, tienen limitaciones basadas en costos y tasas de revisita más bajas. Con los avances en tecnologías satelitales, algunas regiones disfrutan de mejor disponibilidad de datos, lo que puede generar problemas de equidad.
En general, aunque GEO-Bench busca promover el progreso en el monitoreo de la Tierra con modelos fundacionales, asegurar un acceso equitativo y abordar las implicaciones de estos modelos es vital. A medida que se desarrollen, es esencial seguir evaluando los impactos sociales para evitar consecuencias no deseadas.
En conclusión, GEO-Bench está destinado a impulsar mejoras en modelos fundacionales para el monitoreo de la Tierra. Al proporcionar un conjunto de referencia diverso, evaluar diferentes conjuntos de datos y fomentar mejoras en los modelos, anticipamos un futuro donde el monitoreo del planeta se vuelva más efectivo, accesible y sostenible.
Título: GEO-Bench: Toward Foundation Models for Earth Monitoring
Resumen: Recent progress in self-supervision has shown that pre-training large neural networks on vast amounts of unsupervised data can lead to substantial increases in generalization to downstream tasks. Such models, recently coined foundation models, have been transformational to the field of natural language processing. Variants have also been proposed for image data, but their applicability to remote sensing tasks is limited. To stimulate the development of foundation models for Earth monitoring, we propose a benchmark comprised of six classification and six segmentation tasks, which were carefully curated and adapted to be both relevant to the field and well-suited for model evaluation. We accompany this benchmark with a robust methodology for evaluating models and reporting aggregated results to enable a reliable assessment of progress. Finally, we report results for 20 baselines to gain information about the performance of existing models. We believe that this benchmark will be a driver of progress across a variety of Earth monitoring tasks.
Autores: Alexandre Lacoste, Nils Lehmann, Pau Rodriguez, Evan David Sherwin, Hannah Kerner, Björn Lütjens, Jeremy Andrew Irvin, David Dao, Hamed Alemohammad, Alexandre Drouin, Mehmet Gunturkun, Gabriel Huang, David Vazquez, Dava Newman, Yoshua Bengio, Stefano Ermon, Xiao Xiang Zhu
Última actualización: 2023-12-23 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2306.03831
Fuente PDF: https://arxiv.org/pdf/2306.03831
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.neurips.cc/Conferences/2023/CallForDatasetsBenchmarks
- https://mirrors.ctan.org/macros/latex/contrib/natbib/natnotes.pdf
- https://www.ctan.org/pkg/booktabs
- https://www.emfield.org/icuwb2010/downloads/IEEE-PDF-SpecV32.pdf
- https://mirrors.ctan.org/macros/latex/required/graphics/grfguide.pdf
- https://neurips.cc/Conferences/2023/PaperInformation/FundingDisclosure
- https://zenodo.org/communities/geo-bench
- https://mlhub.earth/data/ref_fusion_competition_south_africa
- https://github.com/ServiceNow/geo-bench
- https://data.linz.govt.nz/