Modellare le relazioni delle serie temporali con GNAR-edge
Un nuovo modo per analizzare i dati delle serie temporali sui bordi di una rete.
― 8 leggere min
Indice
In molti settori, come economia e finanza, ci troviamo spesso a dover gestire più serie temporali che sono collegate tra loro. Queste relazioni possono essere illustrate usando una Rete dove le serie temporali rappresentano le connessioni tra diversi elementi. Questo articolo parla di come possiamo usare queste strutture di rete per interpretare meglio i dati e fare previsioni sui valori futuri.
Ci sono due modi comuni per modellare queste serie temporali collegate. Il primo metodo consiste nel guardare ogni serie temporale separatamente, usando un modello chiamato modello Autoregressivo. Anche se questo metodo è semplice e veloce, non sfrutta appieno le informazioni di tutte le serie temporali insieme. Il secondo metodo è modellare tutte le serie temporali insieme usando una tecnica chiamata Autoregressivo Vettoriale (VaR). Questo approccio beneficia del considerare le relazioni tra tutte le serie, ma diventa piuttosto complicato, specialmente quando il numero di serie temporali aumenta.
Per affrontare alcune delle sfide con il modello VAR, i ricercatori hanno cercato di semplificare il modello concentrandosi solo sulle connessioni più importanti. Un modo popolare per farlo è attraverso metodi basati su Lasso, che aggiungono una penalità durante il processo di modellazione per limitare il numero di connessioni usate. Un altro studio ha introdotto un metodo chiamato Gruppo di Lag Gerarchico (HLAG) che considera la struttura dei coefficienti laggati nel modello. Altri approcci cercano anche di ridurre la complessità tramite metodi bayesiani o modelli di fattori.
Quando sappiamo che le nostre serie temporali hanno una struttura di rete, è utile usare queste informazioni all'inizio del processo di modellazione. Questo porta a un tipo di modello VAR specializzato, progettato specificamente per queste serie temporali collegate.
Un altro scenario comune è modellare serie temporali che sono collegate a posizioni specifiche in una rete, come i nodi. Recenti lavori si sono concentrati sullo sviluppo di modelli di rete che aiutano a prevedere i risultati basati su questo tipo di dati. Ad esempio, uno studio ha creato un modello che include influenze dirette da nodi vicini. Questo modello presume che gli impatti rimangano costanti nel tempo.
Tuttavia, il nostro focus è un po' diverso. Siamo specificamente interessati ai dati delle serie temporali che sono rappresentati sui bordi di una rete, che mostrano valori variabili nel tempo. Ad esempio, guardiamo le transazioni tra settori nel tempo, dove i settori sono rappresentati come nodi in una rete.
Questo articolo introduce un modello chiamato modello GNAR-edge. Questo modello ci consente di tener conto delle relazioni tra i bordi vicini, fornendo un modo per catturare le informazioni di rete in modo efficace. Proprio come fatto in altri studi, presumiamo che la struttura di rete rimanga la stessa nel tempo.
Un Esempio di Dati Motivanti
La nostra ricerca è ispirata a un dataset che contiene informazioni anonimizzate su transazioni commerciali nel Regno Unito. I dati mostrano come diversi settori industriali interagiscono, registrati nel corso di diversi anni. Il dataset consiste in serie temporali per varie transazioni a coppie tra questi settori industriali, o codici SIC. Possiamo vedere questi dati come una rete dove ogni codice SIC è un nodo e le transazioni sono i pesi sui bordi.
I dati coprono diversi anni, fornendoci molti record di transazioni mensili. Anche se potremmo creare una rete diversa per ogni mese, la struttura sottostante rimarrebbe per lo più la stessa, solo con pesi variabili nelle transazioni. Questo significa che trattare la struttura di rete come fissa nel tempo è una scelta naturale.
Queste transazioni riflettono spesso tendenze economiche più ampie. Eventi economici importanti possono influenzare come i settori interagiscono, il che mette in evidenza l'importanza di prevedere con precisione le future transazioni. Comprendere questa rete potrebbe anche aiutarci a vedere come gli shock economici potrebbero diffondersi tra le industrie.
In questo contesto, esploriamo due domande importanti:
- Possiamo prevedere con accuratezza le dimensioni delle future transazioni?
- Possiamo migliorare le nostre previsioni usando la struttura di rete sottostante?
Contesto
In uno scenario tipico con più serie temporali, osserviamo dati di lunghezze fisse per varie variabili. Il modello VAR è un approccio comune per analizzare tali dati utilizzando i valori passati di ogni variabile per prevedere quelli futuri. Tuttavia, la complessità di questo modello cresce rapidamente con il numero di serie temporali, rendendolo difficile da usare con grandi reti. Per gestire questa complessità, sono stati proposti approcci per concentrarsi sulle connessioni più significative nei dati.
Quando conosciamo la struttura di rete in anticipo, possiamo adattare il nostro modello VAR di conseguenza. La struttura di vicinato della rete offre un modo per ridurre la complessità del processo di modellazione considerando solo quelle influenze che sono significative.
Nel nostro lavoro, spostiamo il focus verso un modello che considera i dati delle serie temporali rappresentati sui bordi della nostra rete. Questo significa che comprendere le connessioni tra i nodi diventa essenziale, poiché questi bordi contengono informazioni preziose.
Il Modello GNAR-edge
Ispirato da lavori precedenti, il modello GNAR-edge presume che il peso su un bordo in un dato momento dipenda non solo dai suoi valori passati ma anche dai valori passati dei bordi vicini. Questo consente una modellazione più completa delle relazioni presenti nei dati. Considerando i bordi vicini, possiamo catturare le dinamiche della rete in modo più efficace.
Il modello presume che la rete sia fissa ma che i pesi sui bordi cambino nel tempo. Questo ci dà la possibilità di rappresentare queste serie temporali in modo efficace tenendo conto della struttura della rete.
Il passo successivo prevede di eseguire esperimenti su dati sintetici per valutare quanto bene il modello GNAR-edge funziona nell'estimare parametri e fare previsioni.
Esperimenti su Dati Sintetici
In questa sezione, eseguiamo una serie di esperimenti per valutare quanto bene funziona il modello GNAR-edge sotto vari scenari. Iniziamo guardando modelli di dimensioni moderate e poi passiamo a reti più grandi simili a quelle viste nella nostra applicazione ai dati reali.
Performance di Stima
Per reti di dimensioni moderate, conduciamo simulazioni basate su varie specifiche di parametri e strutture di rete. Dopo aver generato reti e simulato serie temporali basate su queste strutture, adattiamo il modello GNAR-edge ai dati.
Durante la nostra analisi, esaminiamo quanto le stime dei parametri si allineano con i loro valori veri. Scopriamo che il modello GNAR-edge performa bene nel complesso, mostrando errori bassi nelle nostre stime e mantenendo alti tassi di copertura per gli intervalli di confidenza.
I risultati indicano che il modello cattura efficacemente i parametri sottostanti, con solo lievi variazioni. Questa coerenza suggerisce che il modello GNAR-edge è un approccio affidabile per analizzare tali dati delle serie temporali.
Performance Predittiva
Poi, ci concentriamo sul potere predittivo del modello GNAR-edge. Per reti moderate, confrontiamo il modello GNAR-edge con un modello VAR standard e un modello autoregressivo (AR) che guarda a ogni serie temporale individualmente.
I risultati mostrano che il modello GNAR-edge supera costantemente entrambi i modelli di base. Questo suggerisce che l'inclusione della struttura di rete migliora significativamente la capacità del modello di prevedere valori futuri.
Esploriamo anche come diverse densità di rete influenzino la performance del modello. Come previsto, osserviamo che il modello GNAR-edge con effetti di vicinato funziona meglio in reti più rarefatte, evidenziando l'importanza delle connessioni nell'interpretazione dei dati.
Applicazione ai Dati Reali
Applichiamo il modello GNAR-edge al dataset delle transazioni commerciali descritto in precedenza. Questo dataset è densamente connesso, quindi proponiamo un metodo per ridurre la complessità della rete attraverso un processo chiamato sfoltimento della rete.
Sfoltimento della Rete
Utilizzando un'analisi lead-lag, identifichiamo le relazioni più significative tra le serie temporali. Questo processo ci aiuta a concentrarci sulle connessioni più forti mentre scartiamo quelle più deboli. L'obiettivo è creare una rete che conserva i bordi più informativi, il che può migliorare la performance predittiva.
Una volta che abbiamo la nostra rete sfoltita, adattiamo il modello GNAR-edge ai dati di addestramento e prevediamo l'ultimo timestamp. I risultati mostrano una significativa riduzione degli errori di previsione rispetto alla rete originale, non sfoltita.
Valutazione dell'Adattamento del Modello
Per valutare quanto bene il modello si adatta ai dati reali, analizziamo i residui dalle nostre previsioni. Guardando alla distribuzione dei residui nel tempo, possiamo vedere se il modello si comporta come previsto. I residui mostrano un buon adattamento complessivo, anche se ci sono alcuni outlier, suggerendo che il modello cattura le tendenze generali ma potrebbe non tenere conto di ogni fluttuazione.
Conclusione
In questo articolo, introduciamo un nuovo modello per analizzare i dati delle serie temporali rappresentati sui bordi delle reti. Il modello GNAR-edge sfrutta efficacemente le relazioni tra le serie temporali di rete, migliorando la nostra capacità di fare previsioni accurate. I nostri esperimenti convalidano la performance del modello, dimostrando la sua forza rispetto ai metodi tradizionali.
I risultati suggeriscono che tener conto della struttura della rete è cruciale nelle applicazioni di previsione. Inoltre, il nostro approccio allo sfoltimento della rete mostra promettente nel migliorare l'accuratezza predittiva.
In futuro, lavori successivi potrebbero esplorare le strutture comunitarie formate dai bordi e come queste possano essere incorporate nel nostro framework di modellazione. Questo fornirebbe una comprensione più ricca delle complesse relazioni presenti nei dati di rete e potrebbe portare a tecniche di modellazione ancora migliori.
Titolo: The GNAR-edge model: A network autoregressive model for networks with time-varying edge weights
Estratto: In economic and financial applications, there is often the need for analysing multivariate time series, comprising of time series for a range of quantities. In some applications such complex systems can be associated with some underlying network describing pairwise relationships among the quantities. Accounting for the underlying network structure for the analysis of this type of multivariate time series is required for assessing estimation error and can be particularly informative for forecasting. Our work is motivated by a dataset consisting of time series of industry-to-industry transactions. In this example, pairwise relationships between Standard Industrial Classification (SIC) codes can be represented using a network, with SIC codes as nodes and pairwise transactions between SIC codes as edges, while the observed time series of the amounts of the transactions for each pair of SIC codes can be regarded as time-varying weights on the edges. Inspired by Knight et al. (2020), we introduce the GNAR-edge model which allows modelling of multiple time series utilising the network structure, assuming that each edge weight depends not only on its past values, but also on past values of its neighbouring edges, for a range of neighbourhood stages. The method is validated through simulations. Results from the implementation of the GNAR-edge model on the real industry-to-industry data show good fitting and predictive performance of the model. The predictive performance is improved when sparsifying the network using a lead-lag analysis and thresholding edges according to a lead-lag score.
Autori: Anastasia Mantziou, Mihai Cucuringu, Victor Meirinhos, Gesine Reinert
Ultimo aggiornamento: 2023-09-26 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.16097
Fonte PDF: https://arxiv.org/pdf/2305.16097
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.