Nuevo conjunto de datos sobre patrones de movilidad urbana
Datos de movimiento anonimizado iluminan el comportamiento humano en las ciudades.
― 7 minilectura
Tabla de contenidos
- ¿Qué es el nuevo conjunto de datos?
- Antecedentes de la investigación sobre movilidad humana
- Características del nuevo conjunto de datos de movilidad
- Proceso de anonimización
- La importancia de un conjunto de datos longitudinal
- Desafío de predicción de movilidad humana
- Participantes y uso de datos
- Evaluación de predicciones
- Conclusión
- Fuente original
- Enlaces de referencia
Entender cómo se mueve la gente en las áreas urbanas es muy importante para varios campos. Este tipo de conocimiento puede ayudar a planificar el transporte, gestionar desastres, rastrear la propagación de enfermedades e incluso en el desarrollo urbano. Con el aumento de los smartphones y otros dispositivos, los investigadores ahora pueden recopilar un montón de datos sobre cómo viajan las personas en las ciudades.
Sin embargo, muchos métodos de predicción sobre cómo se moverán las personas a menudo usan diferentes tipos de datos. Esto puede complicar la comparación del éxito de los distintos enfoques. Las preocupaciones sobre la privacidad también han hecho que sea difícil compartir grandes Conjuntos de datos sobre Movilidad humana de manera abierta. Para resolver estos problemas, se ha creado un nuevo conjunto de datos.
¿Qué es el nuevo conjunto de datos?
Este nuevo conjunto incluye datos de movimiento anonimizado de 100,000 personas durante un período de 90 días. Los datos provienen de un área muy poblada en Japón, aunque la ubicación exacta no se revela para proteger la privacidad. El conjunto de datos se basa en la información de ubicación recolectada de smartphones. Esto significa que los investigadores pueden estudiar cómo viaja la gente sin comprometer su identidad.
Este conjunto de datos se divide en dos partes: 75 días de comportamiento normal y 15 días durante una emergencia en la que los patrones de viaje de las personas pueden cambiar. Al proporcionar este tipo de datos, se permite una mejor investigación sobre la movilidad humana y se sientan las bases para competencias que mejoren los métodos de predicción.
Antecedentes de la investigación sobre movilidad humana
Tradicionalmente, los investigadores se basaban en encuestas y datos del censo para analizar los hábitos de viaje en las ciudades. Estos métodos pueden ser limitados en alcance y precisión. Con los avances tecnológicos, han surgido muchos métodos nuevos que analizan grandes cantidades de datos de dispositivos móviles y redes sociales.
Estos nuevos métodos son prometedores, pero enfrentan desafíos. Muchos de ellos dependen de conjuntos de datos privados, lo que significa que no pueden compartir fácilmente sus hallazgos con otros. Esto puede llevar a inconsistencias en los resultados y dificulta evaluar qué métodos funcionan mejor.
Existen varios conjuntos de datos, como el conjunto de datos GeoLife y el conjunto de datos de trayectorias T-Drive. Estos incluyen información sobre tipos específicos de Movimientos, como viajes en taxi. Sin embargo, a menudo carecen de la gama más amplia de datos necesarios para estudiar el comportamiento humano de manera integral.
Características del nuevo conjunto de datos de movilidad
El nuevo conjunto de datos captura el movimiento de una manera rica y anonimizada. Presenta pings de ubicación organizados en una cuadrícula. Cada celda de la cuadrícula representa un área de 500 metros por 500 metros. Los datos recolectados también se dividen en intervalos de tiempo de 30 minutos. Esto permite a los investigadores ver cuándo se mueve la gente y dónde es probable que estén en diferentes momentos.
El conjunto de datos, creado con la ayuda de Yahoo Japan Corporation, involucra a usuarios individuales que han aceptado compartir sus datos GPS de manera anónima. Incluye registros de movimientos, sin revelar detalles personales como edad, género u ocupación. Este enfoque asegura que las personas permanezcan indetectables mientras se permite a los investigadores analizar patrones en el movimiento humano.
Proceso de anonimización
Para proteger la privacidad del usuario, el conjunto de datos ha pasado por un procesamiento cuidadoso. Los datos originales fueron recortados según dónde se observó frecuentemente a los individuos. Solo aquellos usuarios que estuvieron activos más de diez veces durante un período determinado en el área definida fueron incluidos en el conjunto de datos.
Los datos de ubicación GPS han sido transformados para que no se puedan identificar lugares específicos. Los puntos de datos se colocan en celdas de cuadrícula, y las fechas reales han sido enmascaradas. De esta manera, mientras los investigadores pueden estudiar tendencias de movimiento, no pueden identificar cuándo o dónde ocurrieron los movimientos individuales.
La importancia de un conjunto de datos longitudinal
Tener un conjunto de datos longitudinal, como este, permite a los investigadores analizar cómo cambian los patrones de movimiento a lo largo del tiempo. El período de recolección de 90 días proporciona información tanto sobre el comportamiento normal como sobre cómo las Emergencias pueden impactar los viajes.
Esto puede ser particularmente útil para planificadores de emergencias, funcionarios de salud pública y desarrolladores urbanos que necesitan anticipar cómo podría reaccionar la gente en diversas situaciones. Este conjunto de datos abre la puerta a modelos y predicciones más precisos para estudios futuros.
Desafío de predicción de movilidad humana
Para promover el uso del conjunto de datos, se está organizando una competencia conocida como el HuMob Challenge 2023. Se invita a los participantes a desarrollar nuevos modelos que puedan Predecir el movimiento humano usando los datos proporcionados.
Se establecen dos tareas principales para los participantes. La primera tarea implica predecir el movimiento de un grupo de individuos basándose en los datos de los primeros 75 días. La segunda tarea se centra en un grupo más pequeño de individuos durante un período de emergencia. El desafío anima a los equipos a encontrar formas innovadoras de mejorar sus modelos de predicción utilizando el conjunto de datos.
Participantes y uso de datos
Equipos de diversos antecedentes pueden participar en el desafío. Recibirán acceso a los conjuntos de datos pero deberán seguir pautas estrictas respecto al uso de datos. Los participantes deben asegurarse de no intentar identificar a ninguna persona dentro de los datos, ya que la privacidad es una prioridad.
El desafío no solo evalúa qué tan bien los equipos pueden predecir el movimiento, sino que también fomenta la colaboración y la innovación en el campo de la investigación sobre movilidad humana. Los mejores equipos mostrarán sus métodos en un taller, lo que permitirá una discusión y desarrollo adicional de nuevas ideas.
Evaluación de predicciones
Los participantes serán evaluados según qué tan precisamente pueden predecir el movimiento humano. Se utilizarán dos métricas clave: Dynamic Time Warping (DTW) y GEO-BLEU. DTW mide la similitud general de las trayectorias, mientras que GEO-BLEU se enfoca en similitudes locales. Este enfoque dual asegura que se consideren tanto las tendencias generales de movimiento como los patrones específicos.
Al participar en este desafío, los equipos pueden contribuir a una mejor comprensión de la movilidad urbana. Los resultados pueden llevar a mejoras en la planificación de ciudades, la gestión de emergencias e incluso en estrategias de salud pública.
Conclusión
El nuevo conjunto de datos de trayectorias de movilidad humana anonimizada es un gran avance para los investigadores que estudian los patrones de movimiento urbano. Al proporcionar un conjunto completo de datos mientras se asegura la privacidad, crea nuevas oportunidades para desarrollar modelos de predicción efectivos.
La competencia que lo acompaña permite a los investigadores poner en práctica sus ideas, fomentando una comunidad de innovación y aprendizaje. A medida que las ciudades continúan creciendo, entender cómo y por qué se mueve la gente será crucial para una planificación y gestión efectivas. Este conjunto de datos es un paso en esa dirección, ofreciendo valiosas ideas sobre el comportamiento humano en entornos urbanos.
Título: Metropolitan Scale and Longitudinal Dataset of Anonymized Human Mobility Trajectories
Resumen: Modeling and predicting human mobility trajectories in urban areas is an essential task for various applications. The recent availability of large-scale human movement data collected from mobile devices have enabled the development of complex human mobility prediction models. However, human mobility prediction methods are often trained and tested on different datasets, due to the lack of open-source large-scale human mobility datasets amid privacy concerns, posing a challenge towards conducting fair performance comparisons between methods. To this end, we created an open-source, anonymized, metropolitan scale, and longitudinal (90 days) dataset of 100,000 individuals' human mobility trajectories, using mobile phone location data. The location pings are spatially and temporally discretized, and the metropolitan area is undisclosed to protect users' privacy. The 90-day period is composed of 75 days of business-as-usual and 15 days during an emergency. To promote the use of the dataset, we will host a human mobility prediction data challenge (`HuMob Challenge 2023') using the human mobility dataset, which will be held in conjunction with ACM SIGSPATIAL 2023.
Autores: Takahiro Yabe, Kota Tsubouchi, Toru Shimizu, Yoshihide Sekimoto, Kaoru Sezaki, Esteban Moro, Alex Pentland
Última actualización: 2023-07-07 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2307.03401
Fuente PDF: https://arxiv.org/pdf/2307.03401
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page
- https://sigspatial2023.sigspatial.org/
- https://connection.mit.edu/humob-challenge-2023
- https://zenodo.org/record/8111993
- https://github.com/yahoojapan/geobleu
- https://doi.org/10.1007/s12110-009-9068-2
- https://www.nature.com/sdata/policies/editorial-and-publishing-policies#competing