Usando imágenes urbanas para predicciones socioeconómicas
Un nuevo método mejora el análisis de imágenes urbanas para obtener mejores datos socioeconómicos.
― 9 minilectura
Tabla de contenidos
- La Necesidad de Mejores Datos Socioeconómicos
- Aprendizaje Contrastivo Infundido con Conocimiento (KnowCL)
- Gráfico de Conocimiento Urbano
- Desafíos en los Métodos Actuales
- Marco de KnowCL
- Configuración Experimental
- Resultados del Rendimiento
- Transferibilidad del Conocimiento
- Similitudes Visuales
- Conclusión
- Direcciones Futuras
- Fuente original
- Enlaces de referencia
Las ciudades son clave para el desarrollo global, con más de la mitad de la población mundial viviendo en áreas urbanas. Entender las condiciones sociales y económicas de las ciudades es importante para monitorear el progreso hacia los objetivos de desarrollo sostenible establecidos por las Naciones Unidas. Los métodos tradicionales para recopilar datos socioeconómicos, como encuestas, pueden ser caros y lentos. Sin embargo, las imágenes urbanas de fuentes como satélites y vistas de calles pueden usarse para recopilar esta información de manera más efectiva.
Investigaciones recientes han comenzado a utilizar imágenes urbanas junto con el Aprendizaje Contrastivo auto-supervisado, un método que ayuda a un modelo a aprender de imágenes sin necesitar muchos datos etiquetados. Este enfoque analiza imágenes para aprender sus características y luego hace predicciones sobre condiciones socioeconómicas. Pero, los métodos actuales a menudo enfrentan desafíos para ser efectivos y consistentes. Este artículo habla de un nuevo método llamado Aprendizaje Contrastivo Infundido con Conocimiento (KnowCL) que busca mejorar cómo se utilizan las imágenes urbanas para predecir datos socioeconómicos.
La Necesidad de Mejores Datos Socioeconómicos
A medida que las áreas urbanas crecen, la necesidad de datos socioeconómicos precisos y oportunos se vuelve más urgente. Indicadores como el tamaño de la población, los niveles de educación y los ingresos son esenciales para entender la salud y el desarrollo de una ciudad. Desafortunadamente, los enfoques tradicionales para recopilar estos datos pueden ser lentos e impactados por factores como la pandemia de COVID-19, por lo que es urgente encontrar nuevas maneras de obtener esta información rápidamente y de manera eficiente.
Las estrategias recientes utilizan grandes cantidades de imágenes urbanas disponibles en línea, incluidas imágenes de satélites y fotos de calles. Estas fuentes brindan información valiosa sobre las condiciones económicas y sociales de una ciudad al analizar información visual.
Aprendizaje Contrastivo Infundido con Conocimiento (KnowCL)
Para superar las limitaciones de los métodos actuales, KnowCL integra gráficos de conocimiento para representar mejor las condiciones urbanas y las relaciones. Un gráfico de conocimiento es una forma estructurada de organizar información que destaca cómo diferentes trozos de datos se relacionan entre sí.
KnowCL comienza utilizando un gráfico de conocimiento para identificar características urbanas clave, como cómo se relacionan diferentes ubicaciones, sus patrones de movilidad y sus características funcionales. Luego, el modelo combina esta información con datos visuales a través de un proceso de dos pasos:
Aprendizaje de Representaciones Visuales y Semánticas: El primer paso implica extraer características de las imágenes urbanas usando redes neuronales convolucionales (CNN). Al mismo tiempo, un Codificador Semántico procesa datos del gráfico de conocimiento, convirtiéndolos en una forma que se puede comparar con los datos visuales.
Aprendizaje Contrastivo: Luego, el modelo emplea un marco de aprendizaje contrastivo, que busca maximizar las similitudes entre las imágenes y sus correspondientes representaciones del gráfico de conocimiento. Este enfoque combinado mejora la capacidad del modelo para hacer predicciones precisas sobre indicadores socioeconómicos basados en la imaginería urbana.
Gráfico de Conocimiento Urbano
La estructura de una ciudad es compleja, conteniendo muchos elementos como vecindarios, lugares de interés (POIs) y centros comerciales. El Gráfico de Conocimiento Urbano (UrbanKG) captura esta complejidad creando conexiones entre diferentes elementos urbanos en base a varios factores:
- Relaciones Espaciales: Qué tan cerca o lejos están dos regiones.
- Patrones de Movilidad: Entendiendo las tendencias de tráfico o movimiento entre lugares.
- Conocimiento Funcional: Los tipos de servicios o negocios presentes en diferentes áreas.
Al utilizar estos diversos aspectos de la vida urbana, el UrbanKG proporciona un contexto más rico para analizar imágenes urbanas.
Desafíos en los Métodos Actuales
Los métodos actuales hacen un esfuerzo significativo por aprender de las imágenes urbanas utilizando métricas de similitud predefinidas. Sin embargo, estas métricas a menudo se enfocan en solo uno o dos tipos de información, lo que limita su efectividad.
Métricas de Similitud Limitadas: Los enfoques actuales a menudo solo utilizan relaciones de vecindario o tipos específicos de características, como similitudes visuales entre imágenes cercanas.
Falta de Comprensión Integral: Los métodos existentes pueden no capturar toda la gama de conocimientos urbanos necesarios para hacer predicciones precisas. Por ejemplo, si bien las relaciones espaciales son importantes, entender las tendencias de movilidad y las funcionalidades de diferentes áreas también juega un papel crucial.
Marco de KnowCL
El modelo KnowCL está estructurado para abordar estos desafíos integrando conocimientos del UrbanKG en el proceso de análisis de imágenes. Así es como funciona en detalle:
UrbanKG para Identificación de Conocimiento
KnowCL comienza con la creación del UrbanKG, que identifica varios elementos urbanos y sus relaciones. Incluye:
- Nodos de Entidad: Representando características urbanas como áreas y POIs.
- Aristas de Relación: Indicando cómo están conectados estos elementos, como qué regiones están cercanas entre sí o comparten funciones similares.
El gráfico de conocimiento sirve como base para el modelo, proporcionando contexto para las imágenes que se están analizando.
Codificador Semántico
Para extraer información significativa del gráfico de conocimiento, KnowCL utiliza un codificador semántico. Este codificador procesa relaciones y genera embeddings, representaciones matemáticas del conocimiento que preservan las relaciones entre los elementos urbanos.
Codificador Visual
Para las imágenes urbanas, KnowCL emplea un codificador visual basado en redes neuronales convolucionales (CNN) para extraer características de las imágenes. El codificador visual trabaja tanto en imágenes de satélites como en imágenes de vistas de calles, permitiendo flexibilidad en los tipos de imágenes urbanas que se pueden analizar.
Aprendizaje Contrastivo de Múltiples Modalidades
La innovación clave de KnowCL radica en su marco de aprendizaje contrastivo, que empareja de manera óptima las representaciones visuales y semánticas. El objetivo es alentar al modelo a crear representaciones similares para los pares de imagen-Gráfico de Conocimiento correspondientes.
Se diseña una función de pérdida contrastiva, que permite que el modelo aprenda las conexiones entre las características visuales y semánticas de manera efectiva. Al maximizar el acuerdo entre estas dos representaciones, el modelo puede infundir mejor el conocimiento del gráfico de conocimiento en la imaginería urbana.
Configuración Experimental
Para validar la efectividad de KnowCL, se realizaron experimentos utilizando imágenes urbanas de tres ciudades: Beijing, Shanghai y Nueva York. Las imágenes urbanas fueron procesadas junto con indicadores socioeconómicos relacionados con la población, la actividad económica, los patrones de consumo y los niveles educativos.
Conjuntos de Datos y Metodología
Los conjuntos de datos incluían imágenes de satélite y fotos de vistas de calles, que se recopilaron y procesaron para coincidir con los límites irregulares de las regiones urbanas. Se incorporaron varios indicadores socioeconómicos, asegurando que el modelo pudiera reflejar con precisión las condiciones urbanas actuales.
Se utilizaron dos métricas primarias para evaluar el rendimiento del modelo:
- Error Cuadrático Medio (RMSE): Mide las diferencias entre los valores predichos y los reales.
- Coeficiente de Determinación (R²): Indica qué tan bien el modelo explica la variabilidad de los datos de resultado.
Resultados del Rendimiento
Los resultados indicaron que KnowCL superó significativamente los modelos existentes en tareas de predicción socioeconómica.
Resultados de Imágenes de Satélite
KnowCL mostró mejoras sobre los modelos de referencia al predecir indicadores basados en imágenes de satélite. Esto se debió probablemente a su integración exhaustiva de conocimiento, lo que le permitió considerar una gama más amplia de factores urbanos.
Resultados de Imágenes de Vistas de Calle
Se observaron tendencias similares con la imaginería de vistas de calle, donde KnowCL demostró su capacidad para aprovechar el conocimiento urbano de manera efectiva. Mientras que los modelos tradicionales luchaban, las representaciones infundidas de conocimiento permitieron a KnowCL ofrecer predicciones más confiables.
Transferibilidad del Conocimiento
Una de las ventajas de KnowCL es su potencial para ser transferido a diferentes ciudades y contextos. Esto significa que un modelo entrenado en una ciudad puede aplicarse efectivamente en otra ciudad, incluso si el gráfico de conocimiento local no existe.
Pruebas entre Ciudades
Se realizaron experimentos para medir qué tan bien las predicciones realizadas en un entorno urbano podrían aplicarse a otro. Los resultados mostraron que KnowCL mantenía un rendimiento competitivo cuando se aplicaba a nuevas ciudades, demostrando el entendimiento compartido capturado a través del UrbanKG.
Similitudes Visuales
Al comparar imágenes urbanas de diferentes ciudades, KnowCL ayudó a revelar similitudes visuales que reflejan las condiciones socioeconómicas. Las representaciones de imaginería urbana infundidas con conocimiento capturaron no solo características visuales, sino también las características urbanas subyacentes asociadas con varias regiones.
Conclusión
El modelo KnowCL representa un avance significativo en el uso de la imaginería urbana para la predicción socioeconómica. Al combinar datos visuales con conocimiento urbano integral a través de un gráfico de conocimiento, KnowCL ofrece un enfoque más efectivo para entender las condiciones urbanas.
A medida que las ciudades continúan evolucionando rápidamente, métodos como KnowCL tienen un gran potencial para monitorear y mejorar los entornos urbanos para cumplir con los objetivos de desarrollo sostenible. Una mayor exploración sobre la interpretabilidad del gráfico de conocimiento y las representaciones de imaginería urbana será esencial para hacer que estos modelos sean aún más útiles para los responsables de políticas y planificadores urbanos.
Direcciones Futuras
Si bien KnowCL ha demostrado resultados impresionantes, todavía hay áreas para mejorar. El trabajo futuro puede enfocarse en refinar la representación del conocimiento utilizada en el UrbanKG, mejorar la interpretabilidad del modelo y expandir la aplicabilidad del modelo a regiones subdesarrolladas donde los datos urbanos son escasos.
Además, incorporar más tipos de datos urbanos, como estadísticas demográficas o factores ambientales, podría mejorar aún más las predicciones y contribuir a una comprensión más completa de la dinámica socioeconómica urbana.
Al aprovechar la gran cantidad de información disponible en la imaginería urbana y gráficos de conocimiento, modelos como KnowCL pueden desempeñar un papel crítico en impulsar el desarrollo urbano sostenible y mejorar la calidad de vida en las ciudades de todo el mundo.
Título: Knowledge-infused Contrastive Learning for Urban Imagery-based Socioeconomic Prediction
Resumen: Monitoring sustainable development goals requires accurate and timely socioeconomic statistics, while ubiquitous and frequently-updated urban imagery in web like satellite/street view images has emerged as an important source for socioeconomic prediction. Especially, recent studies turn to self-supervised contrastive learning with manually designed similarity metrics for urban imagery representation learning and further socioeconomic prediction, which however suffers from effectiveness and robustness issues. To address such issues, in this paper, we propose a Knowledge-infused Contrastive Learning (KnowCL) model for urban imagery-based socioeconomic prediction. Specifically, we firstly introduce knowledge graph (KG) to effectively model the urban knowledge in spatiality, mobility, etc., and then build neural network based encoders to learn representations of an urban image in associated semantic and visual spaces, respectively. Finally, we design a cross-modality based contrastive learning framework with a novel image-KG contrastive loss, which maximizes the mutual information between semantic and visual representations for knowledge infusion. Extensive experiments of applying the learnt visual representations for socioeconomic prediction on three datasets demonstrate the superior performance of KnowCL with over 30\% improvements on $R^2$ compared with baselines. Especially, our proposed KnowCL model can apply to both satellite and street imagery with both effectiveness and transferability achieved, which provides insights into urban imagery-based socioeconomic prediction.
Autores: Yu Liu, Xin Zhang, Jingtao Ding, Yanxin Xi, Yong Li
Última actualización: 2023-02-25 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2302.13094
Fuente PDF: https://arxiv.org/pdf/2302.13094
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.