Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Apprentissage automatique

DeepStay : Une approche innovante pour identifier les régions de séjour

DeepStay utilise l'apprentissage faiblement supervisé pour améliorer l'identification des zones de séjour.

― 8 min lire


DeepStay : Identifier lesDeepStay : Identifier lesrégions de séjourlocalisation.zones de séjour dans les données deUn modèle pour trouver précisément les
Table des matières

Aujourd'hui, les appareils mobiles peuvent suivre la localisation d'une personne en permanence. Ces données peuvent montrer où les gens passent le plus de temps, comme chez eux ou sur leur lieu de travail. Ces endroits clés sont appelés Points d'intérêt, ou POIs. Pour trouver ces lieux, il faut d'abord identifier les zones où quelqu'un reste longtemps. Ces zones s'appellent les régions de séjour, ou SRs.

Les méthodes courantes pour trouver les régions de séjour utilisent souvent l'apprentissage non supervisé ou reposent sur de petits ensembles de données privées. Les ensembles de données publics n'ont généralement pas les étiquettes nécessaires pour un apprentissage supervisé. Beaucoup de méthodes traditionnelles utilisent des règles ou des seuils fixes et n’optimisent que certains paramètres. À cause de ces limitations, il y a un besoin de meilleures méthodes qui peuvent apprendre plus efficacement à partir des données.

Cet article présente DeepStay, un modèle qui utilise l'Apprentissage faiblement supervisé pour trouver des régions de séjour dans les Données de localisation. Cette approche utilise un type de modèle appelé Transformateur, qui est entraîné sur des données de localisation pour identifier les régions de séjour. Notre méthode est unique car elle utilise un ensemble de données publiques qui a des étiquettes, ce qui facilite la comparaison avec d'autres méthodes. L’efficacité de DeepStay est démontrée à travers des tests où il surpasse les approches existantes pour trouver des régions de séjour.

Qu'est-ce que les régions de séjour ?

Les régions de séjour sont des segments d'une trajectoire de localisation où une personne reste au même endroit pendant un moment. Comprendre où les gens restent peut aider à analyser comment les humains et les animaux se comportent. Ces infos sont essentielles pour cartographier les points d'intérêt et extraire des informations pertinentes des données de localisation.

La plupart des méthodes actuelles qui identifient les régions de séjour se concentrent sur le regroupement de données en utilisant des seuils fixes pour le temps, la distance et la vitesse. Ces seuils sont souvent déterminés par des évaluations qualitatives ou une optimisation quantitative. Beaucoup de méthodes ne fonctionnent qu'avec de petits ensembles de données privés qui peuvent avoir certaines annotations, ou elles se basent sur de grands ensembles de données sans étiquettes, rendant les comparaisons équitables difficiles.

Même si on n'a pas toujours des étiquettes claires pour les régions de séjour, on peut encore utiliser des étiquettes faibles dérivées de sources comme OpenStreetMap (OSM). Par exemple, on peut supposer qu'un point de localisation à l'intérieur d'un bâtiment est probablement un point de séjour, tandis qu'un point près d'une route n'est probablement pas un point de séjour. Cette information faible peut nous donner suffisamment d'indices pour entraîner un modèle efficacement.

Le besoin de meilleures méthodes

Trouver des régions de séjour à partir des données de localisation peut être vu comme diviser les données en segments. Chaque segment a un temps de début et de fin et une étiquette indiquant si la personne reste au même endroit ou se déplace. La partie clé de la tâche est de prédire les segments en fonction des données de trajectoire disponibles.

La recherche sur la segmentation de trajectoire est importante pour diverses tâches, y compris la reconnaissance d'activité et la détection de modes de transport. Dans ces tâches, les données sont divisées en segments qui reçoivent ensuite des catégories spécifiques. Lors de l'identification des régions de séjour, on a seulement deux possibilités : rester ou ne pas rester.

La plupart des méthodes existantes utilisent des seuils pour regrouper les données afin de trouver des segments de séjour. Certaines méthodes plus récentes utilisent un regroupement basé sur la densité, offrant plus de flexibilité. Cependant, ces méthodes peuvent ne pas imposer strictement la nécessité de points consécutifs, ce qui peut entraîner des erreurs.

Comment fonctionne DeepStay

DeepStay est conçu pour améliorer l'extraction des régions de séjour à partir des trajectoires en utilisant une architecture de transformateur. Ce modèle traite d'abord les données de localisation brutes pour extraire les caractéristiques nécessaires pour les étapes suivantes. Le modèle prend des séquences de points de localisation et sort une probabilité pour chaque point indiquant s'il fait partie d'un séjour ou non.

Pour préparer les données, le modèle standardise les coordonnées et les divise en petites séquences de longueur égale. Il entraîne ensuite un encodeur transformateur pour générer des embeddings pour chaque point. Ces embeddings contiennent des informations importantes qui aident à prédire quels points font partie d'un séjour.

Une fois que le modèle génère ces prédictions, il regroupe les points consécutifs qui sont probablement dans la même région de séjour. Cela se fait en fixant un seuil pour les probabilités prédites. Si la probabilité est au-dessus d'un certain point, les points sont classés comme faisant partie d'une région de séjour.

Entraînement du modèle

Comme de nombreuses trajectoires de localisation manquent souvent d'étiquettes claires pour les régions de séjour, DeepStay utilise une supervision faible pour créer ces étiquettes de manière programmatique. Bien que les étiquettes faibles ne soient pas toujours correctes, elles sont générées à grande échelle, permettant au modèle d'apprendre efficacement.

DeepStay combine les résultats de diverses fonctions de label qui aident à prédire les points de séjour et de non-séjour basés sur des règles simples. Ces fonctions évaluent chaque point en fonction de son contexte, en utilisant les données OSM. Par exemple, si un point se situe à l'intérieur d'un bâtiment, il représente probablement un séjour. En revanche, s'il se trouve près d'une route, cela indique probablement un non-séjour.

Améliorations grâce à l'auto-supervision

Tous les points n'auront pas de faibles étiquettes, ce qui crée des lacunes dans les données. Pour y remédier, DeepStay intègre l'apprentissage auto-supervisé (SSL). Cette approche permet au modèle d'apprendre à partir de données non étiquetées et d'améliorer sa force et sa robustesse globales. Le modèle prédit certaines caractéristiques comme la vitesse et la direction en fonction d'informations antérieures pour créer de meilleurs embeddings.

En combinant le SSL avec les étiquettes faibles, DeepStay apprend efficacement des représentations utiles des régions de séjour, même si les données initiales ne sont pas parfaites. Le modèle passe par diverses étapes d'entraînement, s'adaptant aux schémas trouvés dans les données de localisation.

Expériences et résultats

Pour valider DeepStay, deux expériences principales ont été réalisées. La première s'est concentrée sur l'extraction des régions de séjour à partir d'ensembles de données étiquetés, tandis que la seconde a testé la capacité du modèle à identifier les modes de transport. Dans la première expérience, DeepStay a été pré-entraîné sur des étiquettes faibles et ensuite affiné sur un autre ensemble de données rempli d'étiquettes d'activité.

Lors des tests, DeepStay s'est révélé efficace, atteignant des scores plus élevés que les méthodes de référence populaires. La conception du modèle lui permet de travailler avec de grands volumes de données tout en étant capable de gérer le bruit des étiquettes faibles.

Dans la deuxième expérience, DeepStay a été appliqué pour détecter les modes de transport dans les trajectoires de localisation. Ce modèle est avantageux car il ne dépend pas d'avoir des segments précis avant de procéder à la classification. Il prédit des classes pour chaque point et regroupe les points avec la même classe prédite ensemble, ce qui le rend plus efficace dans des situations réelles.

Conclusion et travaux futurs

Ce travail démontre comment dériver programmétiquement des étiquettes faibles pour extraire des régions de séjour et comment entraîner un modèle de transformateur avec ces données. Les résultats montrent que DeepStay surpasse de nombreuses approches traditionnelles, faisant de lui un ajout précieux aux outils disponibles pour travailler avec les données de trajectoire.

Les recherches futures peuvent se concentrer sur plusieurs domaines pour améliorer encore plus DeepStay. Des techniques d'augmentation de données améliorées pourraient être appliquées pour rendre le modèle plus résilient et éviter le surajustement. Établir des liens entre différentes fonctions de label pourrait également renforcer les prédictions du modèle. De plus, un pré-entraînement sur plusieurs ensembles de données pourrait fournir des données d'entraînement plus riches, ouvrant la voie à des performances encore meilleures.

L'implémentation de DeepStay ouvre une nouvelle voie pour utiliser des méthodes basées sur les données pour identifier les régions de séjour, ouvrant ainsi la voie à des avancées dans la compréhension des comportements humains basés sur des données de localisation.

Source originale

Titre: DeepStay: Stay Region Extraction from Location Trajectories using Weak Supervision

Résumé: Nowadays, mobile devices enable constant tracking of the user's position and location trajectories can be used to infer personal points of interest (POIs) like homes, workplaces, or stores. A common way to extract POIs is to first identify spatio-temporal regions where a user spends a significant amount of time, known as stay regions (SRs). Common approaches to SR extraction are evaluated either solely unsupervised or on a small-scale private dataset, as popular public datasets are unlabeled. Most of these methods rely on hand-crafted features or thresholds and do not learn beyond hyperparameter optimization. Therefore, we propose a weakly and self-supervised transformer-based model called DeepStay, which is trained on location trajectories to predict stay regions. To the best of our knowledge, this is the first approach based on deep learning and the first approach that is evaluated on a public, labeled dataset. Our SR extraction method outperforms state-of-the-art methods. In addition, we conducted a limited experiment on the task of transportation mode detection from GPS trajectories using the same architecture and achieved significantly higher scores than the state-of-the-art. Our code is available at https://github.com/christianll9/deepstay.

Auteurs: Christian Löwens, Daniela Thyssens, Emma Andersson, Christina Jenkins, Lars Schmidt-Thieme

Dernière mise à jour: 2023-06-05 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.06068

Source PDF: https://arxiv.org/pdf/2306.06068

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires