Mejorando las predicciones de series de tiempo con TSER
TSER mejora la precisión de las predicciones generando muestras sintéticas para series temporales poco representadas.
― 8 minilectura
Tabla de contenidos
- ¿Qué son los Datos de Series Temporales?
- Desafíos con los Datos de Series Temporales
- La Necesidad de la Augmentación de Datos
- La Importancia del Sobremuestreo
- Presentando el Remuestreador de Entidades de Series Temporales (TSER)
- Los Experimentos Detrás de TSER
- Resultados de los Experimentos de TSER
- Análisis de Sensibilidad
- Limitaciones y Direcciones Futuras
- Conclusión
- Fuente original
- Enlaces de referencia
En varios campos como el comercio minorista y la economía, hacer predicciones precisas es crucial. Por ejemplo, si una tienda sabe cuántos productos va a vender el próximo mes, puede tomar mejores decisiones sobre inventario y personal. A menudo, estas predicciones se basan en datos recopilados a lo largo del tiempo, conocidos como Datos de series temporales. Sin embargo, cuando no hay suficientes datos, puede llevar a Pronósticos pobres. Aquí es donde entra en juego la augmentación de datos de series temporales, ayudando a crear datos adicionales para mejorar estas predicciones.
¿Qué son los Datos de Series Temporales?
Una serie temporal es simplemente una secuencia de números que representa una medida específica a lo largo del tiempo. Por ejemplo, si una tienda registra sus ventas diarias, esos datos forman una serie temporal. Al analizar tales datos, el objetivo suele ser predecir ventas futuras basadas en tendencias pasadas.
En muchos casos, las empresas tienen múltiples datos de series temporales. Por ejemplo, un minorista podría rastrear las ventas de muchos productos, cada uno formando su propia serie temporal. Se puede hacer pronósticos para una o varias de estas series a la vez.
Desafíos con los Datos de Series Temporales
Uno de los principales desafíos con los datos de series temporales es que pueden estar desbalanceados. Esto significa que algunas series temporales pueden tener muchos más datos que otras. Por ejemplo, si un minorista vende 100 productos diferentes, puede tener datos ricos para algunos pero muy pocos para otros. Cuando hay datos insuficientes para un producto en particular, el modelo entrenado con todos estos datos puede no funcionar bien para ese producto.
La Necesidad de la Augmentación de Datos
Para manejar estos desafíos, se pueden emplear técnicas de augmentación de datos. La augmentación de datos es el proceso de generar nuevos datos a partir de datos existentes. Al crear muestras adicionales, las empresas pueden asegurarse de que sus modelos tengan suficientes puntos de datos para todas las series temporales, incluso las que podrían haber sido descuidadas anteriormente.
Sobremuestreo
La Importancia delUn enfoque efectivo para la augmentación de datos se llama sobremuestreo. El sobremuestreo implica crear más copias de puntos de datos menos representados. Piénsalo como llenar los vacíos para datos de series temporales que son escasos en muestras.
Por ejemplo, supongamos que un producto tiene solo 10 puntos de datos, mientras que otro producto tiene 1000. Al crear puntos de datos sintéticos para el producto menos representado, podemos equilibrar el conjunto de datos. Esto lleva a un mejor entrenamiento de los modelos de pronóstico.
TSER)
Presentando el Remuestreador de Entidades de Series Temporales (El Remuestreador de Entidades de Series Temporales (TSER) es un nuevo método para generar muestras sintéticas para series temporales que están subrepresentadas en los datos. Al enfocarse en una serie temporal específica de interés, TSER crea nuevos puntos de datos que pueden mejorar la precisión del pronóstico.
Cómo Funciona TSER
El enfoque de TSER comienza identificando la serie temporal que necesita más datos. Reconoce que las observaciones para esta serie representan una pequeña parte del conjunto de datos total. Por ejemplo, si hay 1000 series temporales en total, y una serie temporal específica contiene solo unas pocas observaciones, TSER reconoce este desbalance.
TSER utiliza técnicas similares a las de un campo conocido como aprendizaje de dominios desbalanceados, donde el objetivo es aprender de situaciones donde los puntos de datos importantes son raros. En este caso, los puntos de datos importantes son aquellos relacionados con la serie temporal que deseamos mejorar.
Aplicando Sobremuestreo con TSER
TSER emplea varios métodos de sobremuestreo para generar datos sintéticos. Al analizar los datos existentes, crea nuevas observaciones para mejorar la representación de la serie temporal de interés. Esto resulta en un conjunto de datos más balanceado que puede llevar a modelos de pronóstico mejorados.
Implementando TSER
Al usar TSER, el proceso comienza con la preparación de los datos. Inicialmente, las series temporales se normalizan a una escala común. Esto asegura que las comparaciones y cálculos sean más efectivos. A partir de ahí, se utiliza una técnica de ventana deslizante para transformar la serie temporal en un formato adecuado para el análisis.
Una vez que el conjunto de datos está listo, TSER se enfoca en la serie temporal de interés y genera nuevas muestras a través de técnicas de remuestreo. Las muestras recién creadas se combinan con los datos originales para proporcionar un conjunto de datos más completo.
Los Experimentos Detrás de TSER
Para evaluar la efectividad de TSER, se realizaron experimentos utilizando 7 colecciones diferentes de datos de series temporales univariantes. El objetivo era determinar si TSER podría proporcionar mejores predicciones en comparación con un modelo global estándar (que mira todos los datos juntos) o un modelo local (que solo considera puntos de datos individuales).
Configuración del Experimento
En los experimentos, se utilizó un número fijo de observaciones pasadas para predecir valores futuros. Cada conjunto de datos fue evaluado utilizando una estrategia de dejar-una-serie-temporal-fuera, que aseguraba que cada serie temporal se probara mientras se usaban otras para el entrenamiento. Este enfoque ayudó a evaluar qué tan bien funcionarían los modelos.
Evaluando el Rendimiento
Se utilizaron varias métricas para analizar el rendimiento de los modelos de pronóstico. El error absoluto medio escalado (MASE) fue la medida principal de precisión. Esta métrica proporciona una imagen más clara de cuán bien un modelo está haciendo predicciones.
Además del método principal, se aplicaron varias versiones de TSER, utilizando diferentes técnicas de muestreo. Estas incluyen métodos populares como SMOTE y ADASYN, que generan datos sintéticos interpolando entre los puntos de datos existentes.
Resultados de los Experimentos de TSER
Los resultados mostraron que TSER mejoró significativamente la precisión del pronóstico para la serie temporal objetivo. En muchas pruebas, TSER superó tanto a los métodos locales como a los globales. También indicó que crear muestras sintéticas específicamente para una serie temporal podría llevar a mejores resultados.
Comparando Diferentes Métodos
Al comparar las diferentes variantes de TSER, las versiones que usaron métodos de sobremuestreo obtuvieron las puntuaciones más altas. Demostraron que crear datos sintéticos adicionales mejoró el rendimiento del modelo más que simplemente usar técnicas de submuestreo o enfocarse solo en modelos locales.
Rendimiento en Otras Series Temporales
Un inconveniente del método TSER es que, aunque aumenta la precisión para la serie temporal objetivo, puede no funcionar tan bien para otras series en el conjunto de datos. Esto resalta el equilibrio necesario al usar enfoques personalizados para el pronóstico.
Análisis de Sensibilidad
Para obtener más información sobre TSER, se realizó un análisis de sensibilidad. Esto examinó factores como cuántas muestras sintéticas deberían ser creadas y cómo integrarlas mejor en los datos existentes.
Estrategias de Integración de Datos
Se evaluaron tres estrategias diferentes:
- TSER: El enfoque estándar de crear muestras sintéticas y añadiéndolas al conjunto de datos original.
- TSER(Local): Esta versión solo mantuvo datos de la serie temporal objetivo después de añadir datos sintéticos, descartando el resto.
- TSER(All): En esta estrategia, se crearon muestras sintéticas no solo para la serie objetivo sino que también se aumentaron para otras, mejorando su representación.
Los resultados mostraron que TSER y TSER(All) tuvieron un rendimiento similar, mientras que TSER(Local) no lo hizo tan bien. Esto indica que mantener datos de todas las series es beneficioso para el rendimiento.
Encontrando la Relación de Muestreo Correcta
Otro aspecto investigado fue el número óptimo de muestras a crear para la serie temporal objetivo en comparación con otras. El análisis reveló que, aunque equilibrar el conjunto de datos es a menudo el objetivo, puede que no siempre sea el mejor enfoque. La relación ideal parecía ser alrededor de 2:1 para obtener los mejores resultados.
Limitaciones y Direcciones Futuras
Si bien TSER ha mostrado promesas en mejorar el rendimiento de los modelos de pronóstico para series temporales específicas, existen varias limitaciones. La principal preocupación es que generar datos sintéticos para una serie temporal puede llevar a un rendimiento reducido para otras.
Se planea investigar más para abordar estas limitaciones y explorar todo el potencial de TSER en varios escenarios. También hay espacio para mejorar la eficiencia computacional y explorar otras técnicas de remuestreo que podrían beneficiar tanto a la serie temporal objetivo como a otras series en el conjunto de datos.
Conclusión
En resumen, el Remuestreador de Entidades de Series Temporales es un método que aborda los desafíos de la augmentación de datos de series temporales. Genera eficazmente muestras sintéticas para mejorar la representación de series temporales subrepresentadas. A través de varios experimentos, TSER ha demostrado sus capacidades para mejorar los modelos de pronóstico, convirtiéndolo en una herramienta valiosa en diversos dominios de aplicación. Seguir explorando sus limitaciones y refinar aún más su enfoque desbloqueará un potencial aún mayor para mejorar las predicciones relacionadas con el tiempo.
Título: Time Series Data Augmentation as an Imbalanced Learning Problem
Resumen: Recent state-of-the-art forecasting methods are trained on collections of time series. These methods, often referred to as global models, can capture common patterns in different time series to improve their generalization performance. However, they require large amounts of data that might not be readily available. Besides this, global models sometimes fail to capture relevant patterns unique to a particular time series. In these cases, data augmentation can be useful to increase the sample size of time series datasets. The main contribution of this work is a novel method for generating univariate time series synthetic samples. Our approach stems from the insight that the observations concerning a particular time series of interest represent only a small fraction of all observations. In this context, we frame the problem of training a forecasting model as an imbalanced learning task. Oversampling strategies are popular approaches used to deal with the imbalance problem in machine learning. We use these techniques to create synthetic time series observations and improve the accuracy of forecasting models. We carried out experiments using 7 different databases that contain a total of 5502 univariate time series. We found that the proposed solution outperforms both a global and a local model, thus providing a better trade-off between these two approaches.
Autores: Vitor Cerqueira, Nuno Moniz, Ricardo Inácio, Carlos Soares
Última actualización: 2024-04-29 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2404.18537
Fuente PDF: https://arxiv.org/pdf/2404.18537
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.