Améliorer les prévisions de flux de trafic grâce à l'analyse de similarité
Cet article examine comment la similarité dans les patterns historiques peut améliorer les prévisions de circulation.
― 8 min lire
Table des matières
- Qu'est-ce que la prévision de séries chronologiques ?
- Pourquoi utiliser la similarité dans la prévision ?
- Méthodologies de prévision basée sur la similarité
- Expérimentation avec les données de flux de trafic
- Défis de la prévision de séries chronologiques
- Évaluation de la précision des prévisions
- Prévision multi-étapes
- Prévision par intervalles
- Gestion des valeurs aberrantes
- Conclusion
- Source originale
- Liens de référence
La prévision est super importante dans plein de domaines, comme l'économie, les études environnementales et le transport. La prévision de séries chronologiques est une méthode qu'on utilise pour prédire des valeurs futures en se basant sur des données observées précédemment dans le temps. Cet article se concentre sur une approche spécifique de la prévision de séries chronologiques qui utilise des similarités dans les motifs, surtout dans le contexte du flux de trafic.
Qu'est-ce que la prévision de séries chronologiques ?
Une série chronologique, c'est une suite de points de données collectés dans l'ordre du temps. Des exemples incluent des relevés de température, des prix d'actions et des comptages de trafic quotidiens. La prévision nous aide à faire des prédictions sur les tendances futures basées sur des données passées. L'importance de la prévision de séries chronologiques a augmenté ces dernières années, surtout à cause de ses applications pratiques.
Pourquoi utiliser la similarité dans la prévision ?
Utiliser le concept de similarité peut améliorer les méthodes de prévision. En identifiant des motifs dans les données historiques qui ressemblent aux tendances actuelles, on peut faire des prédictions plus précises. Cette méthode cherche des trajectoires, ou des chemins de points de données, qui sont similaires aux observations récentes.
Méthodologies de prévision basée sur la similarité
Il existe différentes méthodes pour mettre en œuvre la prévision basée sur la similarité. Cela inclut la sélection de trajectoires similaires et la combinaison des prévisions de ces chemins sélectionnés. L'idée est de créer un cadre général qui permet de comparer efficacement diverses approches de prévision.
Sélection des trajectoires similaires
Pour sélectionner des trajectoires similaires, tu reviens sur les données historiques et tu identifies les trajectoires passées qui ressemblent au motif récent que tu veux prédire. Ce processus implique de trouver des points de données qui se sont produits dans des contextes similaires, garantissant que la prévision est enracinée dans un comportement historique pertinent.
Combinaison des prévisions candidates
Une fois que les trajectoires similaires sont identifiées, l'étape suivante consiste à combiner les prévisions générées à partir de ces trajectoires candidates. En moyennant ou en utilisant une autre méthode statistique, tu peux obtenir une prédiction plus précise. Cette approche d'ensemble prend en compte plusieurs sources, offrant une perspective équilibrée sur les valeurs futures.
Expérimentation avec les données de flux de trafic
Dans cette étude, on se concentre sur la prévision du flux de trafic en utilisant des données du monde réel. Les données de flux de trafic peuvent montrer des motifs liés à différents moments de la journée, des saisons et des événements spéciaux. Le dataset PEMS de Californie offre une riche source d'informations pour tester nos méthodes de prévision.
Collecte et préparation des données
Les données utilisées consistent en des relevés de flux de trafic toutes les cinq minutes sur plusieurs mois. Pour réduire le bruit, on combine ces relevés en intervalles de 15 minutes. Cela aide à capturer des fluctuations significatives dans le trafic sans être affecté par la variabilité à court terme.
Division des données
Les données sont divisées en différents segments pour optimiser les modèles de prévision. Certains segments sont utilisés pour affiner le modèle tandis que d'autres sont réservés pour tester sa performance. Cela assure qu'on puisse évaluer à quel point le modèle prédit bien de nouvelles données basées sur des modèles historiques.
Défis de la prévision de séries chronologiques
Plusieurs défis se posent dans la prévision de séries chronologiques. Une grande difficulté est de gérer les données manquantes, ce qui peut fausser les résultats. Deux stratégies pour gérer les données manquantes incluent de remplacer par des valeurs récentes ou d'avgérer des valeurs de périodes similaires dans les semaines précédentes.
Distances pour mesurer la similarité
Pour mesurer la similarité entre les trajectoires, on utilise différentes fonctions de distance. Ces fonctions quantifient à quel point deux ensembles de données sont liés, nous permettant d'identifier les trajectoires les plus similaires. Les méthodes courantes incluent :
- Distance Euclidienne : Mesure la distance en ligne droite entre deux points.
- Distance Manhattan : Calcule la distance basée sur des chemins en grille.
- Distance Pondérée : Ajuste l'importance de certains points de données selon leur pertinence.
En choisissant des mesures de distance appropriées, on peut améliorer la précision de nos comparaisons.
Évaluation de la précision des prévisions
Une fois que les modèles de prévision ont été appliqués, il est essentiel d'évaluer leur précision. Cette évaluation nous aide à comprendre à quel point un modèle performe par rapport à d'autres. L'erreur absolue moyenne (MAE) et l'erreur absolue moyenne en pourcentage (MAPE) sont des métriques courantes utilisées à cet effet.
MAE et MAPE expliqués
- MAE : Calcule la moyenne des erreurs absolues entre les valeurs prédites et réelles. Un MAE plus bas indique une meilleure précision.
- MAPE : Fournit l'erreur en pourcentage moyenne, permettant une évaluation relative de la précision sur différentes échelles.
Ces métriques donnent un aperçu précieux de l'efficacité du modèle de prévision, aidant à le raffiner et à l'améliorer au fil du temps.
Prévision multi-étapes
Dans certains cas, il est important de prédire plusieurs points futurs plutôt que juste le suivant. La prévision multi-étapes peut être particulièrement utile dans la prévision du trafic, où comprendre les tendances à long terme est crucial.
Stratégies pour la prévision multi-étapes
Une approche pour la prévision multi-étapes est de faire des prédictions étape par étape, où chaque prédiction s'appuie sur les précédentes. En utilisant des trajectoires similaires identifiées dans les étapes précédentes, on peut obtenir des informations sur des points futurs plus éloignés. Cependant, la précision peut diminuer à mesure qu'on regarde plus loin, donc une considération soigneuse est nécessaire pour garantir des prévisions fiables.
Prévision par intervalles
Au lieu de fournir une seule valeur prédite, la prévision par intervalles offre une plage dans laquelle la valeur réelle pourrait tomber. Cela peut être particulièrement utile en cas d'incertitude, car cela prend en compte des fluctuations possibles autour du point prédit.
Construction des intervalles de prévision
Pour créer des intervalles de prévision, on identifie d'abord des valeurs candidates basées sur des données historiques. En les triant et en utilisant des quantiles d'échantillon, on peut établir des bornes supérieures et inférieures pour les intervalles. Cette méthode permet d'avoir une compréhension plus globale des résultats potentiels.
Gestion des valeurs aberrantes
Les valeurs aberrantes peuvent fausser la précision des prévisions. Donc, identifier et gérer ces valeurs extrêmes est essentiel pour améliorer la fiabilité des prédictions.
Techniques de gestion des valeurs aberrantes
Plusieurs techniques sont disponibles pour gérer les valeurs aberrantes :
- Winsorisation : Limite les valeurs extrêmes à une certaine plage, remplaçant les plus grandes et les plus petites par des valeurs plus modérées.
- Méthode du Z-Score : Identifie les valeurs aberrantes basées sur les écarts-types par rapport à la moyenne.
- Suppression des queues : Enlève les valeurs extrêmes des deux extrémités d'un ensemble de données.
Appliquer ces méthodes peut mener à une meilleure précision globale des prévisions en réduisant l'influence des points de données erratiques.
Conclusion
Cet aperçu présente une méthode pour améliorer la prévision de séries chronologiques en utilisant des similarités dans les motifs de données passées. En se concentrant sur les données de flux de trafic, on a montré comment l'identification de trajectoires similaires peut mener à des prévisions plus précises, tant pour les points que pour les intervalles. De plus, des défis comme les données manquantes, les valeurs aberrantes et les méthodes de mesure de similarité ont été discutés.
Les résultats indiquent que les prévisions basées sur des trajectoires similaires peuvent être compétitives avec des modèles établis. Au fur et à mesure que les techniques de prévision continuent d'évoluer, chercher à améliorer le traitement des motifs saisonniers et à appliquer différentes méthodes d'apprentissage automatique pourrait encore affiner ces approches. Les travaux futurs pourraient approfondir des méthodologies spécifiques et explorer de nouvelles voies pour améliorer la précision et l'applicabilité des prévisions de séries chronologiques.
Titre: An overview of time series point and interval forecasting based on similarity of trajectories, with an experimental study on traffic flow forecasting
Résumé: The purpose of this paper is to give an overview of the time series forecasting problem based on similarity of trajectories. Various methodologies are introduced and studied, and detailed discussions on hyperparameter optimization, outlier handling and distance measures are provided. The suggested new approaches involve variations in both the selection of similar trajectories and assembling the candidate forecasts. After forming a general framework, an experimental study is conducted to compare the methods that use similar trajectories along with some other standard models (such as ARIMA and Random Forest) from the literature. Lastly, the forecasting setting is extended to interval forecasts, and the prediction intervals resulting from the similar trajectories approach are compared with the existing models from the literature, such as historical simulation and quantile regression. Throughout the paper, the experimentations and comparisons are conducted via the time series of traffic flow from the California PEMS dataset.
Auteurs: İlker Arslan, Can Hakan Dağıdır, Ümit Işlak
Dernière mise à jour: 2023-09-19 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.10613
Source PDF: https://arxiv.org/pdf/2309.10613
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.