Modelando Relaciones de Series de Tiempo con GNAR-edge
Un nuevo enfoque para analizar datos de series temporales en los bordes de la red.
― 9 minilectura
Tabla de contenidos
En muchos campos, como la economía y las finanzas, a menudo lidiamos con múltiples series temporales que están relacionadas entre sí. Estas relaciones se pueden ilustrar usando una Red donde las series temporales representan conexiones entre diferentes elementos. Este artículo habla sobre cómo podemos usar estas estructuras de red para interpretar mejor los datos y hacer predicciones sobre valores futuros.
Hay dos formas comunes de modelar estas series temporales conectadas. La primera método consiste en mirar cada serie temporal por separado, utilizando un modelo llamado modelo autorregresivo. Aunque este método es sencillo y rápido, no aprovecha completamente la información de todas las series temporales combinadas. El segundo método es modelar todas las series temporales juntas usando una técnica llamada Autorregresiva Vectorial (VaR). Este enfoque se beneficia de considerar las relaciones entre todas las series, pero se vuelve bastante complicado, especialmente a medida que aumenta el número de series temporales.
Para abordar algunos de los desafíos del modelo VAR, los investigadores han intentado simplificar el modelo enfocándose solo en las conexiones más importantes. Una forma popular de hacerlo es a través de métodos basados en Lasso, que añaden una penalización durante el proceso de modelado para limitar el número de conexiones usadas. Otro estudio introdujo un método llamado Grupo Jerárquico de Rezagos (HLAG) que considera la estructura de los coeficientes rezagados en el modelo. Otros enfoques también buscan reducir la complejidad a través de métodos bayesianos o modelos de factores.
Cuando sabemos que nuestras series temporales tienen una estructura de red, es útil usar esta información desde el principio en el proceso de modelado. Esto lleva a un tipo especializado de modelo VAR que está diseñado específicamente para estas series temporales en red.
Otro escenario común es modelar series temporales que están vinculadas a posiciones específicas en una red, como nodos. Trabajos recientes se han centrado en desarrollar modelos de red que ayudan a predecir resultados basados en este tipo de datos. Por ejemplo, un estudio creó un modelo que incluye influencias directas de nodos vecinos. Este modelo asume que los impactos se mantienen constantes a lo largo del tiempo.
Sin embargo, nuestro enfoque es algo diferente. Nos interesa específicamente los datos de series temporales que están representados en los bordes de una red, que muestran valores variables a lo largo del tiempo. Por ejemplo, miramos las transacciones entre industrias a lo largo del tiempo, donde las industrias están representadas como nodos en una red.
Este artículo presenta un modelo llamado modelo GNAR-edge. Este modelo nos permite tener en cuenta las relaciones entre bordes vecinos, proporcionando una manera de capturar la información de la red de manera efectiva. Así como lo han hecho otros estudios, asumimos que la estructura de la red permanece igual a lo largo del tiempo.
Un Ejemplo de Datos Motivador
Nuestra investigación se inspira en un conjunto de datos que contiene información anonimizada sobre transacciones comerciales en el Reino Unido. Los datos muestran cómo interactúan diferentes sectores industriales, registrados durante varios años. El conjunto de datos consiste en series temporales para varias transacciones por pares entre estos sectores industriales, o códigos SIC. Podemos ver estos datos como una red donde cada código SIC es un nodo y las transacciones son los pesos en los bordes.
Los datos abarcan varios años, dándonos muchos registros de transacciones mensuales. Aunque podríamos crear una red diferente para cada mes, la estructura subyacente seguiría siendo en gran parte la misma, solo con pesos variables en las transacciones. Esto significa que tratar la estructura de la red como fija a lo largo del tiempo es una opción natural.
Estas transacciones a menudo reflejan tendencias económicas más amplias. Eventos económicos importantes pueden influir en cómo interactúan los sectores, lo que resalta la importancia de predecir con precisión transacciones futuras. Entender esta red también podría ayudarnos a ver cómo los choques económicos podrían propagarse entre industrias.
En este contexto, exploramos dos preguntas importantes:
- ¿Podemos predecir con precisión los tamaños de las transacciones futuras?
- ¿Podemos mejorar nuestras predicciones usando la estructura subyacente de la red?
Antecedentes
En un escenario típico con múltiples series temporales, observamos datos de longitudes fijas para varias variables. El modelo VAR es un enfoque común para analizar tales datos usando los valores pasados de cada variable para predecir los futuros. Sin embargo, la complejidad de este modelo crece rápidamente con el número de series temporales, lo que lo hace complicado de usar con redes grandes. Para manejar esta complejidad, se han propuesto enfoques para centrarse en las conexiones más significativas en los datos.
Cuando conocemos la estructura de la red de antemano, podemos ajustar nuestro modelo VAR en consecuencia. La estructura de vecindario de la red ofrece una forma de reducir la complejidad del proceso de modelado al considerar solo aquellas influencias que son significativas.
En nuestro trabajo, cambiamos el enfoque a un modelo que considera datos de series temporales representados en los bordes de nuestra red. Esto significa que entender las conexiones entre nodos se vuelve esencial, ya que estos bordes contienen información valiosa.
El Modelo GNAR-edge
Inspirado por trabajos previos, el modelo GNAR-edge asume que el peso en un borde en un momento dado depende no solo de sus valores pasados, sino también de los valores pasados de los bordes vecinos. Esto permite un modelado más completo de las relaciones presentes en los datos. Al considerar los bordes vecinos, podemos capturar la dinámica de la red de manera más efectiva.
El modelo asume que la red es fija pero que los pesos en los bordes cambian a lo largo del tiempo. Esto nos da la capacidad de representar estas series temporales de manera efectiva mientras se tiene en cuenta la estructura de la red.
El siguiente paso implica realizar experimentos con datos sintéticos para evaluar qué tan bien funciona el modelo GNAR-edge en la estimación de parámetros y en hacer predicciones.
Experimentos con Datos Sintéticos
En esta sección, realizamos una serie de experimentos para evaluar qué tan bien funciona el modelo GNAR-edge bajo varios escenarios. Comenzamos observando modelos de tamaño moderado y luego escalamos a redes más grandes similares a las que vimos en nuestra aplicación de datos reales.
Rendimiento de Estimación
Para redes de tamaño moderado, realizamos simulaciones basadas en varias especificaciones de parámetros y estructuras de red. Después de generar redes y simular series temporales basadas en estas estructuras, ajustamos el modelo GNAR-edge a los datos.
Durante nuestro análisis, examinamos qué tan cerca están los parámetros estimados de sus valores verdaderos. Encontramos que el modelo GNAR-edge funciona bien en general, mostrando bajos errores en nuestras estimaciones y manteniendo altas tasas de cobertura para intervalos de confianza.
Los resultados indican que el modelo captura los parámetros subyacentes de manera efectiva, con solo una variabilidad menor. Esta consistencia sugiere que el modelo GNAR-edge es un enfoque confiable para analizar tales datos de series temporales.
Rendimiento Predictivo
Luego, nos enfocamos en el poder predictivo del modelo GNAR-edge. Para redes moderadas, comparamos el modelo GNAR-edge contra un modelo VAR estándar y un modelo autorregresivo (AR) que analiza cada serie temporal individualmente.
Los resultados muestran que el modelo GNAR-edge supera constantemente a ambos modelos base. Esto sugiere que la inclusión de la estructura de red mejora significativamente la capacidad del modelo para predecir valores futuros.
También investigamos cómo diferentes densidades de red afectan el rendimiento del modelo. Como era de esperar, observamos que el modelo GNAR-edge con efectos de vecinos funciona mejor en redes más dispersas, subrayando la importancia de las conexiones en la interpretación de datos.
Aplicación a Datos Reales
Aplicamos el modelo GNAR-edge al conjunto de datos de transacciones comerciales descrito anteriormente. Este conjunto de datos está densamente conectado, por lo que proponemos un método para reducir la complejidad de la red a través de un proceso llamado reducción de red.
Reducción de Red
Usando análisis de rezagos, identificamos las relaciones más significativas entre las series temporales. Este proceso nos ayuda a centrarnos en las conexiones más fuertes mientras descartamos las más débiles. El objetivo es crear una red que retenga los bordes más informativos, lo que puede mejorar el rendimiento predictivo.
Una vez que tenemos nuestra red reducida, ajustamos el modelo GNAR-edge a los datos de entrenamiento y predecimos la última marca de tiempo. Los resultados indican una reducción significativa en los errores de pronóstico en comparación con la red original, no reducida.
Evaluación del Ajuste del Modelo
Para evaluar qué tan bien se ajusta el modelo a los datos reales, analizamos los residuos de nuestras predicciones. Al observar la distribución de los residuos a lo largo del tiempo, podemos ver si el modelo se comporta como se esperaba. Los residuos indican un buen ajuste en general, aunque hay algunos valores atípicos, lo que sugiere que el modelo captura las tendencias generales pero puede no tener en cuenta cada fluctuación.
Conclusión
En este documento, introducimos un nuevo modelo para analizar datos de series temporales representados en los bordes de redes. El modelo GNAR-edge aprovecha efectivamente las relaciones entre series temporales en red, mejorando nuestra capacidad para hacer predicciones precisas. Nuestros experimentos validan el rendimiento del modelo, demostrando su fortaleza frente a enfoques tradicionales.
Los hallazgos sugieren que tener en cuenta la estructura de la red es crucial en aplicaciones de pronóstico. Además, nuestro enfoque de reducción de red muestra promesa para mejorar la precisión predictiva.
De cara al futuro, el trabajo podría explorar las estructuras comunitarias formadas por bordes y cómo estas pueden incorporarse en nuestro marco de modelado. Esto proporcionaría una comprensión más rica de las relaciones complejas presentes en los datos de red y podría llevar a técnicas de modelado aún mejores.
Título: The GNAR-edge model: A network autoregressive model for networks with time-varying edge weights
Resumen: In economic and financial applications, there is often the need for analysing multivariate time series, comprising of time series for a range of quantities. In some applications such complex systems can be associated with some underlying network describing pairwise relationships among the quantities. Accounting for the underlying network structure for the analysis of this type of multivariate time series is required for assessing estimation error and can be particularly informative for forecasting. Our work is motivated by a dataset consisting of time series of industry-to-industry transactions. In this example, pairwise relationships between Standard Industrial Classification (SIC) codes can be represented using a network, with SIC codes as nodes and pairwise transactions between SIC codes as edges, while the observed time series of the amounts of the transactions for each pair of SIC codes can be regarded as time-varying weights on the edges. Inspired by Knight et al. (2020), we introduce the GNAR-edge model which allows modelling of multiple time series utilising the network structure, assuming that each edge weight depends not only on its past values, but also on past values of its neighbouring edges, for a range of neighbourhood stages. The method is validated through simulations. Results from the implementation of the GNAR-edge model on the real industry-to-industry data show good fitting and predictive performance of the model. The predictive performance is improved when sparsifying the network using a lead-lag analysis and thresholding edges according to a lead-lag score.
Autores: Anastasia Mantziou, Mihai Cucuringu, Victor Meirinhos, Gesine Reinert
Última actualización: 2023-09-26 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2305.16097
Fuente PDF: https://arxiv.org/pdf/2305.16097
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.