Nouveau jeu de données sur les patterns de mobilité urbaine
Des données de mouvement anonymisées éclairent le comportement humain dans les villes.
― 8 min lire
Table des matières
- Qu'est-ce que le nouveau jeu de données ?
- Contexte de la recherche sur la mobilité humaine
- Caractéristiques du nouveau jeu de données sur la mobilité
- Processus d'anonymisation
- L'importance d'un jeu de données longitudinal
- Défi de prédiction de la mobilité humaine
- Participants et utilisation des données
- Évaluation des prédictions
- Conclusion
- Source originale
- Liens de référence
Comprendre comment les gens se déplacent dans les zones urbaines est super important pour plein de domaines. Avoir ce genre de connaissances peut aider à planifier les transports, gérer les catastrophes, suivre la propagation des maladies, et même le développement urbain. Avec la montée des smartphones et d'autres appareils, les chercheurs peuvent maintenant collecter beaucoup de données sur la façon dont les gens voyagent dans les villes.
Cependant, beaucoup de méthodes pour prédire les déplacements des gens utilisent souvent des types de données différents. Ça rend la comparaison des succès de différentes approches un peu compliquée. Les préoccupations concernant la vie privée ont aussi rendu difficile le partage ouvert de grandes quantités de données sur la Mobilité humaine. Pour régler ces problèmes, un nouveau jeu de données a été créé.
Qu'est-ce que le nouveau jeu de données ?
Ce nouveau jeu de données comprend des données de mouvement anonymisées de 100 000 individus sur une période de 90 jours. Les données proviennent d'une zone très peuplée au Japon, bien que l'emplacement exact reste secret pour protéger la vie privée. Le jeu de données est basé sur des informations de localisation collectées à partir des smartphones. Ça veut dire que les chercheurs peuvent étudier comment les gens se déplacent sans compromettre leur identité.
Ce jeu de données est divisé en deux parties : 75 jours de comportement normal et 15 jours pendant une urgence où les schémas de déplacement des gens pourraient changer. En fournissant ce type de données, ça permet une meilleure recherche sur la mobilité humaine et ouvre la voie à des compétitions pour améliorer les méthodes de prédiction.
Contexte de la recherche sur la mobilité humaine
Traditionnellement, les chercheurs s'appuyaient sur des enquêtes et des données de recensement pour analyser les habitudes de voyage dans les villes. Ces méthodes peuvent être limitées en termes de portée et de précision. Avec les avancées technologiques, plein de nouvelles méthodes ont émergé qui analysent de grandes quantités de données provenant d'appareils mobiles et des réseaux sociaux.
Ces nouvelles méthodes sont prometteuses mais font face à des défis. Beaucoup d'elles dépendent de Jeux de données privés, ce qui signifie qu'elles ne peuvent pas facilement partager leurs découvertes avec d'autres. Ça peut mener à des incohérences dans les résultats et rend difficile d'évaluer quelles méthodes fonctionnent le mieux.
Il existe différents jeux de données comme le jeu de données GeoLife et le jeu de données de trajectoire T-Drive. Ceux-ci incluent des informations sur des types spécifiques de Mouvements, comme les trajets en taxi. Cependant, ils manquent souvent de la gamme plus large de données nécessaires pour étudier le comportement humain de manière complète.
Caractéristiques du nouveau jeu de données sur la mobilité
Le nouveau jeu de données capture le mouvement d'une manière à la fois riche et anonymisée. Il présente des pings de localisation organisés en une grille. Chaque cellule de la grille représente une zone de 500 mètres par 500 mètres. Les données collectées sont aussi divisées en créneaux de 30 minutes. Ça permet aux chercheurs de voir quand les gens se déplacent et où ils sont susceptibles d'être à différents moments.
Le jeu de données, créé avec l'aide de Yahoo Japan Corporation, implique des utilisateurs individuels qui ont accepté de partager anonymement leurs données GPS. Il comprend des enregistrements de mouvements, sans révéler des détails personnels comme l'âge, le sexe ou la profession. Cette approche garantit que les individus restent non identifiables tout en permettant aux chercheurs d'analyser les schémas de mouvement humain.
Processus d'anonymisation
Pour protéger la vie privée des utilisateurs, le jeu de données a subi un traitement minutieux. Les données brutes d'origine ont été recadrées en fonction des endroits où les individus étaient fréquemment observés. Seuls les utilisateurs qui étaient actifs plus de dix fois sur une certaine période dans la zone définie ont été inclus dans le jeu de données.
Les données de localisation GPS ont été transformées de sorte que des lieux spécifiques ne puissent pas être identifiés. Les points de données sont placés dans des cellules de grille, et les dates réelles ont été masquées. De cette façon, bien que les chercheurs puissent étudier les tendances de mouvement, ils ne peuvent pas déterminer quand ou où les mouvements individuels ont eu lieu.
L'importance d'un jeu de données longitudinal
Avoir un jeu de données longitudinal, comme celui-ci, permet aux chercheurs d'analyser comment les schémas de mouvement changent au fil du temps. La période de collecte de 90 jours fournit des aperçus sur le comportement normal et comment les Urgences peuvent affecter les déplacements.
Ça peut être particulièrement utile pour les planificateurs d'urgence, les officials de santé publique et les développeurs urbains qui doivent anticiper comment les gens pourraient réagir dans différentes situations. Ce jeu de données ouvre la porte à des modèles et des prédictions plus précises pour des études futures.
Défi de prédiction de la mobilité humaine
Pour promouvoir l'utilisation du jeu de données, une compétition appelée HuMob Challenge 2023 est organisée. Les participants sont invités à développer de nouveaux modèles capables de prédire le mouvement humain en utilisant les données fournies.
Deux tâches principales sont fixées pour les participants. La première tâche implique de prédire le mouvement d'un groupe d'individus basé sur les données des 75 premiers jours. La deuxième tâche se concentre sur un plus petit groupe d'individus pendant une période d'urgence. Le défi encourage les équipes à trouver des moyens innovants d'améliorer leurs modèles de prédiction en utilisant le jeu de données.
Participants et utilisation des données
Des équipes de différents horizons peuvent participer au défi. Elles auront accès aux jeux de données mais devront suivre des directives strictes concernant l'utilisation des données. Les participants doivent s'assurer qu'ils ne tentent pas d'identifier des individus dans les données, car la vie privée est une priorité absolue.
Le défi évalue non seulement à quel point les équipes peuvent prédire les mouvements, mais favorise aussi la collaboration et l'innovation dans le domaine de la recherche sur la mobilité humaine. Les meilleures équipes présenteront leurs méthodes lors d'un atelier, permettant des discussions et le développement de nouvelles idées.
Évaluation des prédictions
Les participants seront évalués en fonction de la précision avec laquelle ils peuvent prédire le mouvement humain. Deux mesures clés seront utilisées : le Dynamic Time Warping (DTW) et le GEO-BLEU. Le DTW mesure la similarité globale des trajectoires, tandis que le GEO-BLEU se concentre sur les similarités locales. Cette approche double garantit que les tendances de mouvement générales et les schémas spécifiques sont prises en compte.
En participant à ce défi, les équipes peuvent contribuer à la compréhension plus large de la mobilité urbaine. Les résultats pourraient mener à des améliorations dans la planification urbaine, la gestion des urgences, et même les stratégies de santé publique.
Conclusion
Le nouveau jeu de données de trajectoires de mobilité humaine anonymisées est un grand pas en avant pour les chercheurs qui étudient les schémas de mouvement urbains. En fournissant un ensemble complet de données tout en garantissant la vie privée, il crée de nouvelles opportunités pour développer des modèles de prédiction efficaces.
La compétition qui l'accompagne permet aux chercheurs de mettre leurs idées en pratique, favorisant une communauté d'innovation et d'apprentissage. Alors que les villes continuent de croître, comprendre comment et pourquoi les gens se déplacent sera crucial pour une planification et une gestion efficaces. Ce jeu de données est une étape dans cette direction, offrant des aperçus précieux sur le comportement humain dans les environnements urbains.
Titre: Metropolitan Scale and Longitudinal Dataset of Anonymized Human Mobility Trajectories
Résumé: Modeling and predicting human mobility trajectories in urban areas is an essential task for various applications. The recent availability of large-scale human movement data collected from mobile devices have enabled the development of complex human mobility prediction models. However, human mobility prediction methods are often trained and tested on different datasets, due to the lack of open-source large-scale human mobility datasets amid privacy concerns, posing a challenge towards conducting fair performance comparisons between methods. To this end, we created an open-source, anonymized, metropolitan scale, and longitudinal (90 days) dataset of 100,000 individuals' human mobility trajectories, using mobile phone location data. The location pings are spatially and temporally discretized, and the metropolitan area is undisclosed to protect users' privacy. The 90-day period is composed of 75 days of business-as-usual and 15 days during an emergency. To promote the use of the dataset, we will host a human mobility prediction data challenge (`HuMob Challenge 2023') using the human mobility dataset, which will be held in conjunction with ACM SIGSPATIAL 2023.
Auteurs: Takahiro Yabe, Kota Tsubouchi, Toru Shimizu, Yoshihide Sekimoto, Kaoru Sezaki, Esteban Moro, Alex Pentland
Dernière mise à jour: 2023-07-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.03401
Source PDF: https://arxiv.org/pdf/2307.03401
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page
- https://sigspatial2023.sigspatial.org/
- https://connection.mit.edu/humob-challenge-2023
- https://zenodo.org/record/8111993
- https://github.com/yahoojapan/geobleu
- https://doi.org/10.1007/s12110-009-9068-2
- https://www.nature.com/sdata/policies/editorial-and-publishing-policies#competing