Adaptando Modelos de Pronóstico Durante la Pandemia de COVID-19
Este estudio destaca las adaptaciones de modelos que se hicieron durante la pandemia de COVID-19.
― 6 minilectura
Tabla de contenidos
- Evolución de los Modelos de Pronóstico
- Recolección y Análisis de Datos
- Resumen de los Modelos Usados
- Regresión Lineal
- ARIMA
- Random Forest y XGBoost
- LSTM
- Entrenamiento y Evaluación de Modelos
- Diferentes Enfoques de Conjunto
- Resultados del Estudio
- Desafíos y Limitaciones
- Conclusión
- Fuente original
- Enlaces de referencia
A finales de 2019, apareció un nuevo virus llamado SARS-CoV-2. Este virus causó la pandemia de COVID-19, que cambió la vida en todo el mundo. Provocó problemas económicos, interrumpió la educación y causó millones de muertes. Los gobiernos tuvieron que hacer malabares para equilibrar las medidas que detuvieran la propagación del virus mientras intentaban mantener las economías en marcha y los servicios disponibles. Se basaron en los números de casos confirmados y las tasas de hospitalización para tomar decisiones importantes.
Durante los primeros días de la pandemia, se crearon muchos modelos para predecir cuántos casos y hospitalizaciones habría. Estos modelos usaron datos del pasado para hacer pronósticos. Sin embargo, la pandemia estaba cambiando rápido con las nuevas vacunas y variantes del virus. Esto hizo que fuera difícil para estos modelos mantenerse precisos con el tiempo.
Los modelos tienen sus fortalezas y debilidades, así que los investigadores empezaron a usar una combinación de ellos, conocidos como Modelos de Conjunto. Estos modelos toman varios modelos simples para producir un pronóstico más preciso. La idea principal es que al combinar predicciones, el resultado final suele ser más confiable.
Evolución de los Modelos de Pronóstico
A medida que la pandemia avanzaba, quedó claro que muchos factores influían en el número de casos. Estos incluían las medidas del gobierno, el comportamiento de la gente, las estaciones y las nuevas variantes. Esto llevó a la necesidad de modelos más flexibles que pudieran adaptarse a situaciones cambiantes.
Para satisfacer esta necesidad, se creó un nuevo enfoque que elegiría el mejor modelo en un momento dado o ajustaría las predicciones basadas en datos actuales. El enfoque incluía modelos base como Regresión Lineal, ARIMA, XGBoost, Random Forest y LSTM. Cada modelo fue probado para ver qué tan bien funcionaba en comparación con métodos de conjunto simples.
Recolección y Análisis de Datos
El estudio utilizó varios conjuntos de datos relacionados con COVID-19, incluidos los números de casos diarios, ingresos hospitalarios y muertes en Alemania y Francia. También miraron los casos semanales de gripe y de infecciones respiratorias agudas severas en Alemania. Los datos fueron recogidos de fuentes confiables y transformados para mostrar las tendencias más claramente.
También se usaron datos de Google Trends para ver qué estaba buscando la gente en relación con los síntomas de COVID-19. Esta información se incluyó para ver si podía ayudar a mejorar los pronósticos.
Resumen de los Modelos Usados
Regresión Lineal
Este modelo asume que una pandemia se comporta de una manera predecible. Al cambiar los datos a una escala logarítmica, la regresión lineal puede identificar tendencias más fácilmente y hacer predicciones a corto plazo.
ARIMA
Los modelos ARIMA se usan para predecir datos de series temporales. Funcionan mejor cuando los datos no muestran tendencias y permanecen alrededor de un promedio consistente. Los investigadores utilizaron un modelo ARIMA no estacional para predecir tendencias a corto plazo en los datos de COVID-19.
Random Forest y XGBoost
Ambos modelos se basan en árboles de decisión. Random Forest crea muchos árboles y promedia sus predicciones, mientras que XGBoost construye árboles secuencialmente, corrigiendo los errores cometidos por los árboles anteriores. Se ha demostrado que son efectivos en diversas tareas de predicción de datos.
LSTM
Los modelos de Memoria a Largo Plazo (LSTM) son un tipo de red neuronal que puede recordar información pasada mejor que los modelos estándar. Son particularmente buenos para predecir datos a lo largo del tiempo, como en el caso de la pandemia.
Entrenamiento y Evaluación de Modelos
Los investigadores usaron un enfoque de ventana deslizante para entrenar y evaluar los modelos. Esto implicó crear conjuntos de entrenamiento y prueba a partir de datos históricos. Los modelos fueron ajustados para asegurar que estaban optimizados para hacer predicciones precisas.
Para comparar qué tan bien funcionaron los modelos, usaron una métrica para calcular la diferencia porcentual entre los valores previstos y los reales. Esto permitió al equipo ver qué modelos estaban funcionando mejor.
Diferentes Enfoques de Conjunto
El equipo primero probó métodos de conjunto básicos, que usaron la media o mediana de las predicciones realizadas por los modelos. También crearon un método llamado "Prev-Best", que siempre elegía el modelo que había funcionado mejor en el período anterior.
Luego, introdujeron métodos más avanzados para seleccionar modelos dinámicamente o combinar sus salidas. Esto se hizo con un meta-modelo, que se ajustaba según el éxito de las predicciones anteriores y los datos actuales.
Resultados del Estudio
Las evaluaciones mostraron que los modelos básicos podían funcionar bien, pero a menudo no eran tan confiables como los métodos de conjunto. En particular, el método Prev-Best pudo competir con los modelos ARIMA más avanzados.
El enfoque de apilamiento dinámico demostró ser el mejor en general, especialmente para los datos diarios de COVID-19. Este método no solo consideró las predicciones, sino que también se adaptó según el desempeño anterior de cada modelo. Sin embargo, agregar datos de Google Trends no llevó a una mejora significativa en las predicciones.
Desafíos y Limitaciones
A pesar del éxito de estos modelos, todavía había desafíos. Los datos usados para pronosticar necesitaban ser confiables y reportados con precisión. Las imprecisiones en los datos locales podrían llevar a resultados engañosos al analizar a nivel regional.
Además, los investigadores notaron que entender qué tan bien funcionaban los modelos se complicaba por las diferencias en los conjuntos de datos y la forma en que los estudios reportaban sus hallazgos. Esto hace que sea difícil comparar el rendimiento entre diferentes investigaciones.
Conclusión
La pandemia de COVID-19 destacó la necesidad de modelos de pronóstico sólidos que puedan seguir el ritmo de una situación que cambia rápidamente. El enfoque de apilamiento dinámico de modelos desarrollado en el estudio pudo superar los métodos tradicionales y mostró su potencial para adaptarse rápidamente a nuevos datos.
Los hallazgos sugieren que para futuras pandemias, comenzar con un conjunto de modelos simples y luego aplicar el apilamiento dinámico a medida que se dispone de más datos podría ser una estrategia inteligente. Aunque los modelos actuales fueron exitosos, los investigadores notaron que también pueden aplicar esta estrategia a otras áreas donde se necesite pronóstico de series temporales, como el clima o las predicciones de tráfico.
En general, el estudio proporciona ideas valiosas sobre cómo se pueden desarrollar y utilizar modelos de manera flexible para enfrentar desafíos en situaciones en tiempo real como una pandemia. Este trabajo sienta las bases para futuras investigaciones en pronósticos epidémicos y campos relacionados.
Título: A dynamic ensemble model for short-term forecasting in pandemic situations
Resumen: During the COVID-19 pandemic, many hospitals reached their capacity limits and could no longer guarantee treatment of all patients. At the same time, governments endeavored to take sensible measures to stop the spread of the virus while at the same time trying to keep the economy afloat. Many models extrapolating confirmed cases and hospitalization rate over short periods of time have been proposed, including several ones coming from the field of machine learning. However, the highly dynamic nature of the pandemic with rapidly introduced interventions and new circulating variants imposed non-trivial challenges for the generalizability of such models. In the context of this paper, we propose the use of ensemble models, which are allowed to change in their composition or weighting of base models over time and can thus adapt to highly dynamic pandemic or epidemic situations. In that regard, we also explored the use of secondary metadata - Google searches - to inform the ensemble model. We tested our approach using surveillance data from COVID-19, Influenza, and hospital syndromic surveillance of severe acute respiratory infections (SARI). In general, we found ensembles to be more robust than the individual models. Altogether we see our work as a contribution to enhance the preparedness for future pandemic situations.
Autores: Jonas Botz, D. Valderrama, J. Guski, H. Fröhlich
Última actualización: 2024-03-09 00:00:00
Idioma: English
Fuente URL: https://www.medrxiv.org/content/10.1101/2024.03.08.24303963
Fuente PDF: https://www.medrxiv.org/content/10.1101/2024.03.08.24303963.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.