Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Visión por Computador y Reconocimiento de Patrones# Aprendizaje automático# Procesado de imagen y vídeo

Nuevo conjunto de datos para la estimación de biomasa global

Un conjunto de datos completo para mejorar la estimación de biomasa y apoyar la investigación climática.

― 12 minilectura


Base de Datos Global deBase de Datos Global deBiomasa Lanzadaclimáticos.estimaciones de biomasa para estudiosNuevo conjunto de datos mejora las
Tabla de contenidos

Medir la Biomasa Sobre el Suelo (AGB) es clave para enfrentar dos grandes problemas: el cambio climático y la pérdida de biodiversidad. AGB se refiere a la masa total de plantas vivas sobre el suelo, y saber cuánta biomasa hay puede ayudarnos a entender cuánto carbono se almacena en bosques y otros ecosistemas. Esto es fundamental para los planes de reducir las emisiones de carbono y proteger hábitats naturales.

Actualmente, los conjuntos de datos disponibles para estimar AGB usando imágenes satelitales tienen sus limitaciones. Algunos conjuntos de datos se enfocan en áreas locales específicas con mucho detalle, mientras que otros cubren áreas más grandes pero con menos detalle. Hay una necesidad de un nuevo conjunto de datos que sea representativo a nivel global y que tenga alta resolución, lo que lo haría útil para el aprendizaje automático y otras investigaciones.

Nuestra investigación muestra que hay mucha variación en las estimaciones de biomasa dependiendo del tipo de vegetación. Esto resalta la necesidad de un conjunto de datos que refleje la diversidad global. Para llenar este vacío, hemos creado un nuevo conjunto de datos que cubre varios tipos de vegetación de diferentes partes del mundo y a través de varios años.

Resumen del Conjunto de Datos

Nuestro nuevo conjunto de datos combina información de diferentes fuentes para crear un paquete completo. Incluye datos de referencia de AGB de la misión GEDI de NASA, junto con imágenes de los satélites Sentinel-2 y PALSAR-2. Además, el conjunto de datos presenta información de alto nivel preprocesada, como mapas de altura del dosel, mapas de elevación y mapas de clasificación de uso del suelo.

También hemos desarrollado un mapa de alta resolución de predicciones de AGB para toda el área que cubre el conjunto de datos. El conjunto de datos ha pasado por pruebas rigurosas y está disponible públicamente, lo que facilita a los investigadores acceder a él.

Importancia de las Estimaciones de AGB

Las estimaciones precisas de AGB son cruciales para evaluar los stocks de carbono, que juegan un papel importante en la compensación de las emisiones de carbono. AGB está relacionado con varias métricas de biodiversidad, ofreciendo información sobre las condiciones de los hotspots de biodiversidad. Los métodos tradicionales de medir AGB a menudo implican trabajo de campo, lo que puede ser destructivo o usar técnicas no destructivas como medir la altura de los árboles y el diámetro del tronco.

En los últimos años, la tecnología LiDAR ha comenzado a reemplazar las mediciones manuales con teledetección, ofreciendo datos más precisos. Sin embargo, los costos y el tiempo requeridos para LiDAR hacen que sea un desafío usarlo a escala global. Esto ha llevado a un enfoque en áreas locales para la estimación de biomasa.

La misión GEDI de NASA, lanzada en 2019, utiliza un altímetro láser en la Estación Espacial Internacional para recopilar datos sobre AGB. Esta misión ha producido estimaciones de AGB dispersas en todo el mundo, pero sigue siendo el mayor conjunto de datos de referencia existente de su tipo. Combinar los datos de GEDI con aprendizaje automático y datos de teledetección puede mejorar las estimaciones globales de AGB.

Abordando las Brechas

Para crear un conjunto de datos que satisfaga la demanda de estimación de biomasa global, derivamos un subconjunto de regiones que imitan la distribución de la vegetación global. Este proceso de selección fue impulsado por las complejas relaciones entre AGB y los diferentes tipos de vegetación.

Nuestro conjunto de datos cumple múltiples propósitos:

  1. Banco de Pruebas de Alta Resolución: Proporciona un banco de pruebas de alta resolución representativo a nivel global para estimar AGB. Los conjuntos de datos existentes son demasiado localizados o de muy baja resolución. Nuestra colección abarca todos los biomas, permitiendo un mejor entrenamiento de los modelos de estimación de AGB.

  2. Mejora del Rendimiento Regional: Estudios previos han demostrado que combinar datos de GEDI con datos de referencia locales puede llevar a mejores resultados en comparación con el uso de datos locales únicamente. Nuestro conjunto de datos permite a los investigadores comenzar con un punto de referencia global y luego refinar sus modelos con datos locales para una mayor precisión.

Para hacer que el conjunto de datos sea aún más accesible, hemos preparado una versión completamente procesada que funciona con los principales marcos de aprendizaje automático, como TensorFlow y PyTorch. Los investigadores pueden descargarlo fácilmente y usarlo en su trabajo.

Contribuciones del Conjunto de Datos

Las principales contribuciones de nuestro conjunto de datos son:

  • Una colección lista para aprendizaje automático de estimaciones de AGB coincidentes junto con datos de teledetección.
  • Un análisis exhaustivo del conjunto de datos, validado con varios modelos estándar para confirmar su precisión y fiabilidad.
  • Un mapa denso y de alta resolución de predicciones de AGB a lo largo del área de cobertura del conjunto de datos.
  • Acceso público a todos los modelos de referencia y pesos preentrenados.

Tendencias en Investigaciones Previas

En los últimos años, la teledetección y el aprendizaje automático han mejorado varias tareas de mapeo. La estimación de biomasa ha recibido una atención significativa, con algunas revisiones que cubren conjuntos de datos y mapas de AGB existentes. Los conjuntos de datos globales actuales de AGB tienden a tener baja resolución espacial, mientras que los conjuntos de datos de alta resolución a menudo están restringidos a ubicaciones geográficas específicas. Esto crea un dilema para los investigadores entre generalización y resolución.

Cabe destacar que lograr una precisión consistente en los mapas de AGB es un desafío debido a la falta de un conjunto de datos de referencia global completo. Hay una necesidad significativa de un conjunto de datos que presente referencias de biomasa distribuidas globalmente para mejorar los estudios regionales. También es fundamental abogar por la liberación de datos más accesibles para el aprendizaje profundo.

Nuestro conjunto de datos cubre estas brechas. Ofrece una resolución nominal de 10 metros, es representativo de la cobertura terrestre global y combina varias fuentes de datos que no se han explorado sistemáticamente para esta tarea antes.

Recolección y Procesamiento de Datos

Las regiones elegidas para este conjunto de datos incluyen California (EE. UU.), Cuba, Austria, Grecia, Nepal, Shaanxi (China), Guayana Francesa, Paraguay, Ghana, Tanzania y Nueva Zelanda. Estas áreas fueron seleccionadas por su diversidad geográfica y ecológica.

Clasificación del Uso del Suelo

Para representar correctamente los tipos de vegetación del mundo, utilizamos el mapa de Cobertura Dinámica del Suelo Global de Copernicus. Este mapa categoriza la cobertura terrestre en un sistema discreto con varias clases, incluidos diferentes tipos de bosques, matorrales, tierras agrícolas, y más.

Para nuestro análisis, nos enfocamos en los tipos de vegetación que se encuentran dentro de la cobertura de GEDI, ya que aquí es donde tenemos datos de referencia de AGB.

Fuentes de Datos

Recopilamos datos de varias fuentes clave:

  • GEDI: Proporcionó observaciones láser de alta resolución de AGB, permitiéndonos enfocarnos en mediciones fiables.
  • Sentinel-2: Ofreció imágenes de alta resolución con una alta frecuencia de revisita.
  • PALSAR-2: Proporcionó datos de Radar de Apertura Sintética que pueden capturar imágenes sin importar las condiciones climáticas.
  • Modelo Digital de Elevación (DEM): Ofreció datos de elevación para ayudar a entender el terreno.
  • Datos de Cobertura del Suelo: Proporcionaron contexto para los tipos de vegetación y sus distribuciones.
  • Datos de Altura del Dosel: Estimaron la altura del dosel para un análisis más profundo de la estructura de la vegetación.

Pasos de Procesamiento de Datos

Para crear un conjunto de datos usable, seguimos una serie de pasos:

  1. Aumento de Resolución de Datos: Todas las fuentes de datos se ajustaron a una resolución uniforme de 10 metros.
  2. Creación de Parche: Extrajimos parches de datos centrados alrededor de las huellas de GEDI, asegurando consistencia y usabilidad.
  3. División en Conjuntos de Entrenamiento, Validación y Prueba: Dividimos el conjunto de datos para permitir un entrenamiento y evaluación efectiva del modelo sin solapamientos.

Desarrollo del Modelo

Exploramos diferentes métodos de aprendizaje automático para la estimación de biomasa, comenzando con modelos de regresión lineal simples y avanzando hacia modelos más complejos que capturan la relación intrincada entre las características de entrada y AGB.

Árboles de Decisión Aumentados por Gradiente (GBDT)

Implementamos una versión de GBDT que se centra en el píxel central dentro de cada parche. Su objetivo es minimizar el error de predicción aprendiendo de los datos disponibles.

Modelos de Aprendizaje Profundo

También desarrollamos modelos de aprendizaje profundo, que son particularmente efectivos para tareas que involucran patrones complejos en los datos. Entrenamos varias arquitecturas, incluyendo:

  • Redes Convolucionales Completas (FCN): Estos modelos consisten en capas convolucionales que capturan detalles espaciales de manera efectiva.
  • UNet: Una arquitectura popular que incluye conexiones de salto, permitiendo una mejor preservación de detalles espaciales.
  • Redes Residuales: Estos modelos están diseñados para mejorar las arquitecturas anteriores utilizando bloques residuales para mejorar la eficiencia y precisión del entrenamiento.

Cada modelo fue entrenado varias veces con diferentes semillas aleatorias para tener en cuenta la variabilidad en los resultados.

Resultados y Hallazgos

Nuestros resultados indicaron que incluir más características de entrada generalmente conduce a mejores predicciones de AGB. El uso de modelos de aprendizaje profundo nos permitió lograr tasas de error más bajas en comparación con métodos anteriores.

Evaluación del Rendimiento

Realizamos una evaluación del rendimiento en diferentes modelos, midiendo su capacidad para predecir valores de AGB. El modelo con mejor rendimiento mostró constantemente tasas de error más bajas, confirmando la efectividad de nuestro enfoque.

Análisis de Características de Entrada

También examinamos el impacto de características de entrada específicas en el rendimiento del modelo. Nuestros hallazgos mostraron que los modelos entrenados con información adicional, como la altura del dosel y datos de cobertura del suelo, tuvieron un mejor rendimiento que aquellos que usaron menos características.

Análisis de Residuos

Analizamos la distribución de errores de predicción en diferentes valores de AGB. Los resultados sugirieron que los valores de biomasa más altos a menudo eran subestimados, lo cual es un problema común en la estimación de biomasa.

Limitaciones

Si bien nuestro conjunto de datos tiene muchas fortalezas, hay algunas limitaciones a considerar. A pesar de que aspiramos a una resolución nominal de 10 metros, la resolución efectiva a la que se detecta la biomasa es más baja debido a la forma en que se recopilan y procesan los datos. Además, la distribución de las huellas de GEDI no es uniforme, lo que puede afectar los resultados.

Conclusión

Hemos desarrollado un conjunto de datos accesible y listo para aprendizaje automático para la estimación de biomasa de alta resolución basado en datos de teledetección. Este conjunto de datos cubre regiones diversas con diferentes tipos de vegetación, proporcionando una base sólida para futuras investigaciones y aplicaciones en esfuerzos de biodiversidad y cambio climático.

Al hacer este conjunto de datos disponible públicamente, esperamos apoyar mejores modelos de biomasa y contribuir a un monitoreo efectivo de los ecosistemas de nuestro planeta. Los datos completos, junto con modelos de referencia y pesos preentrenados, pueden ayudar a enmarcar una comprensión más clara de la biomasa en diferentes paisajes, beneficiando en última instancia la investigación ambiental en todo el mundo.

Direcciones Futuras

De cara al futuro, el conjunto de datos se mantendrá y actualizará para garantizar su relevancia. Se anima a los investigadores a utilizar y construir sobre este conjunto de datos, allanando el camino para soluciones innovadoras a desafíos ambientales apremiantes.

Al fomentar la colaboración y compartir conocimientos, podemos avanzar en nuestra comprensión y gestión de los recursos naturales, ayudando a asegurar un futuro sostenible para las generaciones venideras.

Agradecimientos

Extendemos nuestra gratitud a las diversas organizaciones que proporcionan los datos en bruto, sin los cuales esta investigación no habría sido posible. Su compromiso con la compartición de datos abiertos juega un papel crucial en el apoyo a la investigación científica y el fomento de la innovación.

Licenciamiento y Acceso

El conjunto de datos está disponible bajo una licencia de Creative Commons, permitiendo la redistribución y adaptación mientras se asegura que se dé el crédito apropiado. Se alojará en plataformas accesibles para garantizar que los investigadores puedan obtener y utilizar fácilmente la información proporcionada.

Los usuarios pueden explorar el conjunto de datos y encontrar todos los materiales relevantes en los sitios web designados, promoviendo la transparencia y las prácticas de ciencia abierta dentro de la comunidad.

Esta iniciativa destaca la importancia de los recursos compartidos en la academia y el potencial de esfuerzos colectivos para abordar problemas globales, como el cambio climático y la pérdida de biodiversidad, a través de mejores datos y toma de decisiones informadas.

Fuente original

Título: AGBD: A Global-scale Biomass Dataset

Resumen: Accurate estimates of Above Ground Biomass (AGB) are essential in addressing two of humanity's biggest challenges, climate change and biodiversity loss. Existing datasets for AGB estimation from satellite imagery are limited. Either they focus on specific, local regions at high resolution, or they offer global coverage at low resolution. There is a need for a machine learning-ready, globally representative, high-resolution benchmark. Our findings indicate significant variability in biomass estimates across different vegetation types, emphasizing the necessity for a dataset that accurately captures global diversity. To address these gaps, we introduce a comprehensive new dataset that is globally distributed, covers a range of vegetation types, and spans several years. This dataset combines AGB reference data from the GEDI mission with data from Sentinel-2 and PALSAR-2 imagery. Additionally, it includes pre-processed high-level features such as a dense canopy height map, an elevation map, and a land-cover classification map. We also produce a dense, high-resolution (10m) map of AGB predictions for the entire area covered by the dataset. Rigorously tested, our dataset is accompanied by several benchmark models and is publicly available. It can be easily accessed using a single line of code, offering a solid basis for efforts towards global AGB estimation. The GitHub repository github.com/ghjuliasialelli/AGBD serves as a one-stop shop for all code and data.

Autores: Ghjulia Sialelli, Torben Peters, Jan D. Wegner, Konrad Schindler

Última actualización: 2024-12-09 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2406.04928

Fuente PDF: https://arxiv.org/pdf/2406.04928

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares