Inconsistencias en los datos de asentamiento en África
Este estudio examina las diferencias importantes en los mapas de asentamientos a través de tres conjuntos de datos principales en África.
― 7 minilectura
Tabla de contenidos
Los mapas de alta calidad que muestran dónde vive la gente son súper importantes por muchas razones, como responder a emergencias y distribuir recursos. Recientemente, imágenes de satélite avanzadas y técnicas de aprendizaje automático han permitido a las organizaciones crear un montón de nuevos Conjuntos de datos sobre asentamientos. Pero, no está claro cuánto coinciden entre ellos.
Este estudio analiza las diferencias entre mapas de asentamientos humanos de 42 países africanos de tres fuentes: Open Buildings de Google, mapas de Población de alta resolución de Meta y GRID3 con datos georreferenciados de infraestructura y demografía para el desarrollo. Encontramos desacuerdos significativos en la cantidad de área que se muestra como asentada en estos conjuntos de datos.
Importancia de los Mapas de Asentamientos
Los mapas detallados son cruciales para varias aplicaciones, como planear desastres, asignar ayuda y hacer seguimiento al progreso hacia los objetivos de desarrollo internacional. Los mapas tradicionales dependen de censos y encuestas a hogares, que pueden ser costosos y llevar mucho tiempo. Por ejemplo, el censo de EE. UU. de 2020 costó más de 14 mil millones de dólares. En algunas situaciones, los conflictos o desastres pueden impedir las encuestas, dejando huecos en la información.
Estos problemas han llevado a las organizaciones a buscar nuevos métodos para estimar las densidades de población, como el uso de imágenes satelitales. La tecnología de imágenes mejorada ha proporcionado imágenes de alta resolución, lo que permite un mejor mapeo de dónde vive la gente. Algunos conjuntos de datos incluso incluyen información sobre poblaciones específicas, como el número de niños o ancianos.
Dos Enfoques para Crear Estimaciones de Asentamientos
Hay dos métodos principales para crear estimaciones de población de alta resolución: el enfoque de arriba hacia abajo y el de abajo hacia arriba. El método de arriba hacia abajo utiliza una mezcla de datos sobre luces nocturnas y uso del suelo para distribuir datos a nivel de censo. En cambio, el método de abajo hacia arriba combina datos de censo a pequeña escala con otra información para estimar la población en áreas no encuestadas.
Ambos métodos han llevado a muchos conjuntos de datos de población de alta resolución disponibles para investigadores. Por ejemplo, los Mapas de Densidad Poblacional de Alta Resolución de Meta utilizan un enfoque de arriba hacia abajo, mientras que WorldPop emplea un enfoque de abajo hacia arriba.
Un aspecto clave de estos conjuntos de datos es la capa de asentamientos humanos, que muestra dónde vive la gente. Si esta capa es inexacta, puede llevar a errores en las estimaciones de población.
Evaluación de los Conjuntos de Datos de Asentamientos
A pesar de los esfuerzos por entender cómo se comparan los diferentes conjuntos de datos, pocos estudios se han centrado en cuán bien se superponen varios conjuntos de datos de asentamientos. Este estudio busca llenar ese vacío al evaluar la consistencia de tres conjuntos de datos populares.
Nos enfocamos en GRID3, la Capa de Asentamientos de Alta Resolución (HRSL) de Meta y el conjunto de datos Open Buildings de Google. Analizamos cómo se alinean estos conjuntos de datos en diferentes escalas, desde países individuales hasta áreas más pequeñas.
Para hacer esto, tuvimos que estandarizar los conjuntos de datos ya que representan información de asentamientos en diferentes formatos y resoluciones. Al transformar los datos de población en rásteres binarios, nos centramos únicamente en si un área específica está asentada o no.
Superposición y Desacuerdo
Hallazgos deNuestro análisis reveló diferencias notables en la cantidad de áreas asentadas que cada conjunto de datos identificó. En general, GRID3 reportó el mayor número de áreas asentadas, en gran parte debido a su definición más amplia de asentamiento.
Al comparar cuántas áreas asentadas encontró cada conjunto de datos, las discrepancias se hicieron evidentes. En algunos casos, un conjunto de datos tenía diez veces más celdas asentadas que otros, resaltando inconsistencias significativas. Esta variación tendrá grandes implicaciones para las estimaciones de población basadas en estos conjuntos de datos.
Tras investigar más a fondo, utilizamos un método para cuantificar la superposición entre los conjuntos de datos de asentamientos, encontrando que la superposición general era sorprendentemente baja. Algunos países tenían superposiciones tan bajas como 0.1, mientras que otros tenían un Acuerdo mucho más alto.
Incluso cuando consideramos las diferencias en el tamaño de los conjuntos de datos, observamos que los desacuerdos persistían. En ciertos casos, ajustar el tamaño de la celda aumentó significativamente la superposición, lo que sugiere que algunos desajustes provenían de discrepancias a pequeña escala que las celdas más grandes podrían suavizar.
Análisis a Nivel Subnacional
Para entender estas diferencias más a fondo, analizamos los datos a nivel regional. Dividiendo la información de asentamientos en regiones administrativas, vimos que la superposición variaba ampliamente incluso dentro del mismo país. Por ejemplo, la región capital de Mozambique tenía una alta superposición, mientras que una región más pobre mostraba mucho menos acuerdo.
Esta variabilidad en la superposición sugiere que características específicas como las condiciones económicas y los tipos de asentamientos locales juegan un papel crucial en si los conjuntos de datos se alinean.
Factores que Influyen en el Desajuste
También exploramos qué factores podrían estar contribuyendo al desacuerdo entre conjuntos de datos. Un elemento clave que investigamos fue el Índice de Desarrollo Humano (IDH), que mide el desarrollo de una región en términos de salud, educación y nivel de vida.
Descubrimos que las áreas con un IDH más alto tendían a tener más acuerdo entre los conjuntos de datos. Sin embargo, el IDH es una medida general y no proporciona la información detallada necesaria para localidades específicas.
Desarrollo de un Modelo Predictivo
Para obtener una comprensión más profunda de las razones detrás de los desajustes, construimos un modelo de aprendizaje automático destinado a predecir la superposición en función de varias características. Usamos datos de alta resolución de varias fuentes, incluidos indicadores de riqueza e intensidad de luces nocturnas capturadas por satélites.
Con un gran conjunto de datos que incluía millones de celdas geográficas, tratamos el problema como un asunto de clasificación binaria, etiquetando las celdas donde los conjuntos de datos coincidían como una clase y aquellas donde no coincidían como otra. Nuestros resultados mostraron que las áreas más ricas y desarrolladas tenían tasas más altas de acuerdo entre conjuntos de datos.
Curiosamente, también analizamos cómo la densidad de población impactaba en la superposición. Las áreas con alta densidad poblacional mostraron coincidencia entre conjuntos de datos más frecuentemente que aquellas con baja densidad poblacional. Esta tendencia indica que las áreas rurales son más propensas a tener discrepancias entre los conjuntos de datos.
Limitaciones en los Datos y Recomendaciones
En conclusión, este estudio resalta inconsistencias significativas en los conjuntos de datos de asentamientos derivados de aprendizaje automático. Estas discrepancias pueden afectar las estimaciones de población, lo que puede tener implicaciones reales para la formulación de políticas y los esfuerzos humanitarios.
De cara al futuro, es vital que las organizaciones entiendan las limitaciones de estos conjuntos de datos. A medida que varios grupos experimentan con la incorporación de estos mapas en su trabajo, saber qué conjuntos de datos son confiables se volverá cada vez más importante.
La investigación futura debería centrarse en mejorar la precisión de los modelos para regiones menos desarrolladas y estandarizar la forma en que se informan los datos de asentamientos. Además, desarrollar métodos de conjunto que combinen múltiples conjuntos de datos podría proporcionar una mejor comprensión de las distribuciones de población y ayudar a mitigar errores.
Al abordar estos desafíos, podemos mejorar la fiabilidad de la información sobre asentamientos y asegurar que los recursos vitales se asignen de manera efectiva y equitativa donde más se necesitan.
Título: Uncovering large inconsistencies between machine learning derived gridded settlement datasets
Resumen: High-resolution human settlement maps provide detailed delineations of where people live and are vital for scientific and practical purposes, such as rapid disaster response, allocation of humanitarian resources, and international development. The increased availability of high-resolution satellite imagery, combined with powerful techniques from machine learning and artificial intelligence, has spurred the creation of a wealth of settlement datasets. However, the precise agreement and alignment between these datasets is not known. Here we quantify the overlap of high-resolution settlement map for 42 African countries developed by Google (Open Buildings), Meta (High Resolution Population Maps) and GRID3 (Geo-Referenced Infrastructure and Demographic Data for Development). Across all studied countries we find large disagreement between datasets on how much area is considered settled. We demonstrate that there are considerable geographic and socio-economic factors at play and build a machine learning model to predict for which areas datasets disagree. It it vital to understand the shortcomings of AI derived high-resolution settlement layers as international organizations, governments, and NGOs are already experimenting with incorporating these into programmatic work. As such, we anticipate our work to be a starting point for more critical and detailed analyses of AI derived datasets for humanitarian, planning, policy, and scientific purposes.
Autores: Vedran Sekara, Andrea Martini, Manuel Garcia-Herranz, Do-Hyung Kim
Última actualización: 2024-04-19 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2404.13127
Fuente PDF: https://arxiv.org/pdf/2404.13127
Licencia: https://creativecommons.org/licenses/by-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.