Presentamos el Conjunto de Datos Refinado BigEarthNet
Un nuevo conjunto de datos mejora el análisis de imágenes satelitales para la investigación en teledetección.
― 6 minilectura
Tabla de contenidos
El uso creciente de satélites ha creado una cantidad enorme de imágenes que necesitan ser analizadas. Para hacerlo de manera efectiva, es importante encontrar métodos automáticos. Los investigadores están cada vez más interesados en usar técnicas de aprendizaje profundo para ayudar a analizar estas imágenes. Para apoyar este trabajo, se han creado varios grandes conjuntos de datos para la teledetección, que es el proceso de obtener información sobre objetos o áreas desde la distancia.
Uno de los conjuntos de datos más conocidos es BigEarthNet. Consiste en imágenes de dos tipos de satélites, Sentinel-1 y Sentinel-2, cubriendo diez países europeos. Este conjunto de datos ayudó a los investigadores a desarrollar nuevos estudios en teledetección. Sin embargo, hay desafíos con BigEarthNet que afectan su utilidad.
Problemas con BigEarthNet
Herramienta de Corrección Atmosférica Anticuada: Las herramientas que se usan para corregir efectos atmosféricos en las imágenes han mejorado desde que se creó BigEarthNet. Esto significa que las imágenes procesadas con herramientas más nuevas pueden no funcionar bien con modelos entrenados en imágenes más viejas.
Ruido en las Etiquetas: Al crear el conjunto de datos, las etiquetas que describen el uso del suelo y la cobertura terrestre se basaron en un mapa anterior. Este mapa original tenía varios errores, resultando en etiquetas que podrían no representar con precisión las condiciones reales en el terreno.
Correlación Entre Divisiones de Datos: La forma en que se dividió el conjunto de datos en conjuntos de Entrenamiento, Validación y prueba no fue óptima. Hubo mucha superposición, lo que dificultó evaluar con precisión el éxito de los modelos.
Herramientas Limitadas para el Entrenamiento: Trabajar con el conjunto de datos puede llevar mucho tiempo, especialmente durante el entrenamiento del modelo. Esto ralentiza el proceso de investigación.
Falta de Modelos Actualizados: Aunque algunos modelos se hicieron disponibles cuando se lanzó BigEarthNet, han surgido nuevos modelos desde entonces que podrían funcionar mejor pero no están incluidos.
Dadas estas cuestiones, había una necesidad clara de mejorar el conjunto de datos para el análisis de imágenes de teledetección.
Presentando el Conjunto de Datos Mejorado
Para abordar los problemas mencionados, se ha creado un nuevo conjunto de datos llamado BigEarthNet refinado (reBEN). Este conjunto de datos tiene como objetivo ofrecer datos de mejor calidad para el aprendizaje profundo en el análisis de imágenes de teledetección.
Construcción del Conjunto de Datos
El conjunto de datos reBEN incluye casi 550,000 pares de imágenes de los satélites Sentinel-1 y Sentinel-2. Para crear este conjunto de datos, los investigadores comenzaron con los tiles originales de BigEarthNet y luego dividieron estas imágenes en secciones más pequeñas o parches de 1200 metros por 1200 metros.
Para mejorar la calidad de estos parches, se aplicó una versión reciente de una herramienta de corrección atmosférica. Esto resultó en imágenes de mayor calidad que las que estaban originalmente en BigEarthNet. Cada parche de datos está vinculado con un mapa detallado y un conjunto de etiquetas que describen qué hay en cada imagen, adecuado para varias tareas de aprendizaje.
Etiquetas Actualizadas
Las etiquetas en el conjunto de datos reBEN se han tomado del mapa de CORINE Land Cover más reciente. Esta actualización elimina muchas de las inexactitudes presentes en el conjunto de datos anterior. Con un etiquetado mejorado, los investigadores pueden confiar en información más precisa para sus modelos.
Asignación de División Geográfica
Una de las mejoras clave en el conjunto de datos reBEN es la forma en que se dividen los datos en conjuntos de entrenamiento, validación y prueba. Se ha implementado una técnica de división basada en la geografía para asegurarse de que estos conjuntos estén menos correlacionados. De esta manera, la evaluación de los modelos puede ser más confiable porque los datos de entrenamiento y prueba son de diferentes áreas, reduciendo el riesgo de superposición.
Herramientas de Software para Eficiencia
Para facilitar un entrenamiento más rápido de modelos de aprendizaje profundo, se ha introducido una nueva herramienta de software llamada rico-hdl. Esta herramienta convierte el conjunto de datos reBEN en un formato que acelera el procesamiento. Al hacer que los datos sean más fáciles de acceder, los investigadores pueden centrarse más en analizar resultados en lugar de esperar a que se carguen los datos.
Disponibilidad de Modelos Preentrenados
Junto con el nuevo conjunto de datos, también están disponibles pesos de modelos preentrenados. Estos pesos se obtuvieron usando modelos avanzados de aprendizaje profundo y pueden ayudar a los investigadores a comenzar su trabajo sin tener que empezar desde cero.
Aplicaciones Potenciales
Se espera que el conjunto de datos reBEN sea útil en múltiples áreas de teledetección. Los investigadores pueden usarlo para tareas como la clasificación del uso del suelo, donde se pueden identificar diferentes tipos de tierra (como bosques, áreas urbanas y cuerpos de agua). También puede ayudar a monitorear los cambios ambientales a lo largo del tiempo, ofreciendo información valiosa sobre cómo cambia la cobertura del suelo debido a la actividad humana o procesos naturales.
Mejora de la Precisión
En experimentos realizados utilizando el conjunto de datos reBEN, se probaron varios modelos de aprendizaje profundo. Los resultados mostraron que los modelos entrenados en este nuevo conjunto de datos funcionaron mejor que aquellos entrenados en BigEarthNet. Por ejemplo, usar imágenes de Sentinel-1 y Sentinel-2 juntas proporcionó mejores resultados de clasificación en comparación con usar solo un tipo de imagen.
Clasificaciones Mejoradas
El conjunto de datos incluye diversas clases de uso del suelo y cobertura terrestre. Algunos ejemplos incluyen áreas agrícolas, entornos urbanos, humedales y bosques. Con una rica colección de imágenes y etiquetas precisas, los investigadores pueden desarrollar modelos que clasifiquen estas áreas de manera más confiable.
Conclusión
El conjunto de datos BigEarthNet refinado representa un avance significativo en el análisis de imágenes de teledetección. Al abordar los problemas encontrados en el conjunto de datos anterior, el reBEN proporciona imágenes de mayor calidad, etiquetas más precisas y metodologías mejoradas para la división de datos. Este conjunto de datos mejorado ayudará a los investigadores a producir resultados confiables de manera eficiente en sus estudios relacionados con la cobertura y uso del suelo.
En general, el desarrollo del conjunto de datos reBEN está destinado a allanar el camino para una investigación y aplicaciones más robustas en el campo de la teledetección. A medida que la tecnología y las metodologías continúan avanzando, conjuntos de datos como el reBEN jugarán un papel crucial en la comprensión y monitoreo de nuestro entorno de manera más efectiva.
Título: reBEN: Refined BigEarthNet Dataset for Remote Sensing Image Analysis
Resumen: This paper presents refined BigEarthNet (reBEN) that is a large-scale, multi-modal remote sensing dataset constructed to support deep learning (DL) studies for remote sensing image analysis. The reBEN dataset consists of 549,488 pairs of Sentinel-1 and Sentinel-2 image patches. To construct reBEN, we initially consider the Sentinel-1 and Sentinel-2 tiles used to construct the BigEarthNet dataset and then divide them into patches of size 1200 m x 1200 m. We apply atmospheric correction to the Sentinel-2 patches using the latest version of the sen2cor tool, resulting in higher-quality patches compared to those present in BigEarthNet. Each patch is then associated with a pixel-level reference map and scene-level multi-labels. This makes reBEN suitable for pixel- and scene-based learning tasks. The labels are derived from the most recent CORINE Land Cover (CLC) map of 2018 by utilizing the 19-class nomenclature as in BigEarthNet. The use of the most recent CLC map results in overcoming the label noise present in BigEarthNet. Furthermore, we introduce a new geographical-based split assignment algorithm that significantly reduces the spatial correlation among the train, validation, and test sets with respect to those present in BigEarthNet. This increases the reliability of the evaluation of DL models. To minimize the DL model training time, we introduce software tools that convert the reBEN dataset into a DL-optimized data format. In our experiments, we show the potential of reBEN for multi-modal multi-label image classification problems by considering several state-of-the-art DL models. The pre-trained model weights, associated code, and complete dataset are available at https://bigearth.net.
Autores: Kai Norman Clasen, Leonard Hackel, Tom Burgert, Gencer Sumbul, Begüm Demir, Volker Markl
Última actualización: 2024-07-29 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.03653
Fuente PDF: https://arxiv.org/pdf/2407.03653
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://texdoc.org/serve/caption/0
- https://ctan.org/pkg/amssymb
- https://ctan.org/pkg/pifont
- https://tex.stackexchange.com/questions/51079/add-retrieved-last-accessed-or-similar-information-to-authoryear-in-biblate
- https://arxiv.org/abs/#1
- https://tex.stackexchange.com/questions/560975/alternative-to-the-soul-package
- https://doi.org/10.5281/zenodo.10891137
- https://bigearth.net
- https://github.com/rsim-tu-berlin/bigearthnet-pipeline
- https://tubcloud.tu-berlin.de/s/XiWyYNq4arfzfCe
- https://github.com/rsim-tu-berlin/rico-hdl
- https://git.tu-berlin.de/rsim/reben-training-scripts
- https://huggingface.co/BIFOLD-BigEarthNetv2-0
- https://markov.htwsaar.de/tex-archive/macros/latex/contrib/siunitx/siunitx.pdf