Simple Science

La science de pointe expliquée simplement

# Statistiques# Méthodologie# Applications

Modéliser les relations de séries temporelles avec GNAR-edge

Une nouvelle approche pour analyser les données de séries temporelles sur les arêtes du réseau.

― 10 min lire


Modèle GNAR-edge pour lesModèle GNAR-edge pour lesséries temporellesréseau.données de séries temporelles enUne nouvelle méthode pour prévoir des
Table des matières

Dans plein de domaines, comme l'économie et la finance, on se retrouve souvent à gérer plusieurs séries temporelles qui sont liées entre elles. Ces relations peuvent être illustrées par un Réseau où les séries temporelles représentent des connexions entre différents éléments. Cet article parle de comment on peut utiliser ces structures de réseau pour mieux interpréter les données et faire des prévisions sur les valeurs futures.

Il y a deux façons courantes de modéliser ces séries temporelles connectées. La première méthode consiste à examiner chaque série temporelle séparément, en utilisant un modèle appelé modèle autorégressif. Bien que cette méthode soit simple et rapide, elle ne tire pas pleinement parti des informations de toutes les séries temporelles combinées. La deuxième méthode est de modéliser toutes les séries temporelles ensemble en utilisant une technique appelée Vector Autoregressive (VaR). Cette approche bénéficie de la prise en compte des relations entre toutes les séries, mais elle devient assez compliquée, surtout quand le nombre de séries temporelles augmente.

Pour relever certains défis du modèle VAR, les chercheurs ont tenté de simplifier le modèle en se concentrant seulement sur les connexions les plus importantes. Une méthode populaire pour cela est les approches basées sur Lasso, qui ajoutent une pénalité pendant le processus de modélisation pour limiter le nombre de connexions utilisées. Une autre étude a proposé une méthode appelée Hierarchical Lag Group (HLAG) qui considère la structure des coefficients retardés dans le modèle. D'autres approches cherchent aussi à réduire la complexité à travers des méthodes bayésiennes ou des modèles de facteurs.

Quand on sait que nos séries temporelles ont une structure de réseau, c'est pratique d'utiliser cette info dès le début du processus de modélisation. Ça mène à un type de modèle VAR spécialisé qui est conçu spécifiquement pour ces séries temporelles en réseau.

Un autre scénario courant est de modéliser des séries temporelles qui sont liées à des positions spécifiques dans un réseau, comme des nœuds. Des travaux récents se sont concentrés sur le développement de modèles de réseau qui aident à prédire des résultats basés sur ce type de données. Par exemple, une étude a créé un modèle qui inclut des influences directes des nœuds voisins. Ce modèle suppose que les impacts restent constants dans le temps.

Cependant, notre attention est un peu différente. On s'intéresse spécifiquement aux données de séries temporelles qui sont représentées sur les arêtes d'un réseau, montrant des valeurs variables au fil du temps. Par exemple, on regarde des transactions entre industries au fil du temps, où les industries sont représentées comme des nœuds dans un réseau.

Cet article présente un modèle appelé le modèle GNAR-edge. Ce modèle nous permet de prendre en compte les relations entre les arêtes voisines, fournissant un moyen de capturer efficacement l'info du réseau. Comme d'autres études, on suppose que la structure du réseau reste la même au fil du temps.

Un Exemple de Données Motivatif

Notre recherche est inspirée par un ensemble de données qui contient des infos anonymisées sur des transactions commerciales au Royaume-Uni. Les données montrent comment différents secteurs industriels interagissent, enregistrées sur plusieurs années. L'ensemble de données se compose de séries temporelles pour diverses transactions par paires entre ces secteurs industriels ou codes SIC. On peut voir ces données comme un réseau où chaque code SIC est un nœud, et les transactions sont les poids sur les arêtes.

Les données s'étendent sur plusieurs années, nous donnant plein de records mensuels de transactions. Bien qu'on puisse créer un réseau différent pour chaque mois, la structure sous-jacente resterait largement la même, juste avec des poids variant dans les transactions. Cela signifie que traiter la structure du réseau comme fixe dans le temps est un choix naturel.

Ces transactions reflètent souvent des tendances économiques plus larges. Les grands événements économiques peuvent influencer comment les secteurs interagissent, ce qui souligne l'importance de prédire avec précision les transactions futures. Comprendre ce réseau pourrait aussi nous aider à voir comment les chocs économiques pourraient se propager à travers les industries.

Dans ce contexte, on explore deux questions importantes :

  1. Peut-on prédire avec précision les tailles de transactions futures ?
  2. Peut-on améliorer nos prévisions en utilisant la structure sous-jacente du réseau ?

Contexte

Dans un scénario typique avec plusieurs séries temporelles, on observe des données de longueurs fixes pour diverses variables. Le modèle VAR est une approche courante pour analyser ces données en utilisant les valeurs passées de chaque variable pour prédire les futures. Cependant, la complexité de ce modèle augmente rapidement avec le nombre de séries temporelles, rendant son utilisation difficile avec de grands réseaux. Pour gérer cette complexité, des approches ont été proposées pour se concentrer sur les connexions les plus significatives dans les données.

Quand on connaît la structure du réseau à l'avance, on peut ajuster notre modèle VAR en conséquence. La structure de voisinage du réseau offre un moyen de réduire la complexité du processus de modélisation en prenant en compte seulement les influences qui sont significatives.

Dans notre travail, on change de focus pour un modèle qui considère les données de séries temporelles représentées sur les arêtes de notre réseau. Cela signifie que comprendre les connexions entre les nœuds devient essentiel, car ces arêtes contiennent des infos précieuses.

Le Modèle GNAR-edge

Inspiré par des travaux précédents, le modèle GNAR-edge suppose que le poids sur une arête à un moment donné dépend non seulement de ses valeurs passées mais aussi de celles des arêtes voisines. Cela permet une modélisation plus complète des relations présentes dans les données. En tenant compte des arêtes voisines, on peut capturer plus efficacement la dynamique du réseau.

Le modèle suppose que le réseau est fixe mais que les poids sur les arêtes changent au fil du temps. Cela nous donne la capacité de représenter ces séries temporelles efficacement tout en tenant compte de la structure du réseau.

La prochaine étape consiste à réaliser des expériences sur des données synthétiques pour évaluer à quel point le modèle GNAR-edge performe bien pour estimer les paramètres et faire des prévisions.

Expériences sur des Données Synthétiques

Dans cette section, on réalise une série d'expériences pour évaluer à quel point le modèle GNAR-edge fonctionne sous divers scénarios. On commence par examiner des modèles de taille modérée avant de passer à des réseaux plus grands similaires à ceux qu'on voit dans notre application sur des données réelles.

Performance d'Estimation

Pour des réseaux de taille modérée, on effectue des simulations basées sur diverses spécifications de paramètres et structures de réseau. Après avoir généré des réseaux et simulé des séries temporelles basées sur ces structures, on ajuste le modèle GNAR-edge aux données.

Lors de notre analyse, on examine à quel point les paramètres estimés s'alignent avec leurs vraies valeurs. On constate que le modèle GNAR-edge performe bien dans l'ensemble, montrant des erreurs faibles dans nos estimations et maintenant des taux de couverture élevés pour les intervalles de confiance.

Les résultats indiquent que le modèle capture les paramètres sous-jacents efficacement, avec seulement une légère variabilité. Cette constance suggère que le modèle GNAR-edge est une approche fiable pour analyser ce type de données de séries temporelles.

Performance Prédictive

Ensuite, on se concentre sur le pouvoir prédictif du modèle GNAR-edge. Pour des réseaux modérés, on compare le modèle GNAR-edge à un modèle VAR standard et à un modèle autorégressif (AR) qui examine chaque série temporelle individuellement.

Les résultats montrent que le modèle GNAR-edge surpasse constamment les deux modèles de base. Cela suggère que l'inclusion de la structure du réseau améliore significativement la capacité du modèle à prévoir des valeurs futures.

On examine aussi comment différentes densités de réseau affectent la performance du modèle. Comme prévu, on observe que le modèle GNAR-edge avec des effets de voisinage fonctionne mieux dans des réseaux plus clairsemés, soulignant l'importance des connexions dans l'interprétation des données.

Application sur des Données Réelles

On applique le modèle GNAR-edge à l'ensemble de données sur les transactions commerciales décrit précédemment. Cet ensemble de données est densément connecté, donc on propose une méthode pour réduire la complexité du réseau à travers un processus appelé Sparsification du réseau.

Sparsification du Réseau

En utilisant une analyse de lead-lag, on identifie les relations les plus significatives entre les séries temporelles. Ce processus nous aide à nous concentrer sur les connexions les plus fortes tout en éliminant celles plus faibles. L'objectif est de créer un réseau qui conserve les arêtes les plus informatives, ce qui peut améliorer la performance prédictive.

Une fois qu'on a notre réseau sparsifié, on ajuste le modèle GNAR-edge aux données d'entraînement et prédit le dernier horodatage. Les résultats montrent une réduction significative des erreurs de prévision comparées au réseau original, non sparsifié.

Évaluation de l'Ajustement du Modèle

Pour évaluer à quel point le modèle s'ajuste bien aux données réelles, on analyse les résidus de nos prévisions. En regardant la distribution des résidus au fil du temps, on peut voir si le modèle se comporte comme prévu. Les résidus indiquent un bon ajustement dans l'ensemble, bien qu'il y ait quelques valeurs extrêmes, suggérant que le modèle capture les tendances générales mais peut ne pas tenir compte de chaque fluctuation.

Conclusion

Dans cet article, on introduit un nouveau modèle pour analyser les données de séries temporelles représentées sur les arêtes des réseaux. Le modèle GNAR-edge exploite efficacement les relations entre les séries temporelles en réseau, améliorant notre capacité à faire des prévisions précises. Nos expériences valident la performance du modèle, démontrant sa force par rapport aux approches traditionnelles.

Les résultats suggèrent que tenir compte de la structure du réseau est crucial dans les applications de prévision. De plus, notre approche de sparsification du réseau montre des promesses pour améliorer l'exactitude prédictive.

À l'avenir, des travaux futurs pourraient explorer les structures communautaires formées par les arêtes et comment cela peut être intégré dans notre cadre de modélisation. Cela offrirait une compréhension plus riche des relations complexes présentes dans les données de réseau et pourrait mener à des techniques de modélisation encore meilleures.

Source originale

Titre: The GNAR-edge model: A network autoregressive model for networks with time-varying edge weights

Résumé: In economic and financial applications, there is often the need for analysing multivariate time series, comprising of time series for a range of quantities. In some applications such complex systems can be associated with some underlying network describing pairwise relationships among the quantities. Accounting for the underlying network structure for the analysis of this type of multivariate time series is required for assessing estimation error and can be particularly informative for forecasting. Our work is motivated by a dataset consisting of time series of industry-to-industry transactions. In this example, pairwise relationships between Standard Industrial Classification (SIC) codes can be represented using a network, with SIC codes as nodes and pairwise transactions between SIC codes as edges, while the observed time series of the amounts of the transactions for each pair of SIC codes can be regarded as time-varying weights on the edges. Inspired by Knight et al. (2020), we introduce the GNAR-edge model which allows modelling of multiple time series utilising the network structure, assuming that each edge weight depends not only on its past values, but also on past values of its neighbouring edges, for a range of neighbourhood stages. The method is validated through simulations. Results from the implementation of the GNAR-edge model on the real industry-to-industry data show good fitting and predictive performance of the model. The predictive performance is improved when sparsifying the network using a lead-lag analysis and thresholding edges according to a lead-lag score.

Auteurs: Anastasia Mantziou, Mihai Cucuringu, Victor Meirinhos, Gesine Reinert

Dernière mise à jour: 2023-09-26 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.16097

Source PDF: https://arxiv.org/pdf/2305.16097

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires