Flusion : Un nouveau modèle pour prédire la grippe
Flusion combine des sources de données pour des prévisions précises des admissions à l'hôpital liées à la grippe.
Evan L. Ray, Yijin Wang, Russell D. Wolfinger, Nicholas G. Reich
― 11 min lire
Table des matières
- Les Exercices Collaboratifs de Prévision FluSight
- Méthodologie de Flusion
- Sources de Données pour Flusion
- L'Exercice Collaboratif de Prévision FluSight
- Évaluation et Résultats
- Importance de l'Entraînement Commun
- Techniques de Traitement des Données
- Compétences des Modèles Individuels
- Perspectives sur les Variations de Performance
- Opportunités d'Amélioration Future
- Conclusion
- Source originale
- Liens de référence
Au cours de la dernière décennie, le CDC a organisé un défi annuel axé sur la prédiction de la grippe. L'objectif est de créer des prévisions précises qui peuvent aider les responsables de la santé publique à se préparer et à réagir efficacement aux épidémies. Depuis la saison de grippe 2021/22, les prédictions sont basées sur les Admissions à l'hôpital signalées par un système de surveillance.
Cependant, les données sur ces admissions à l'hôpital sont limitées car elles n'ont été collectées que pendant quelques années. Pour résoudre ce problème, les chercheurs ont combiné ces nouvelles données avec deux autres mesures ayant une histoire plus longue : le nombre de visites en ambulatoire pour des maladies grippales (ILI) et les taux d'hospitalisations confirmées pour la grippe provenant d'établissements de santé spécifiques.
Le modèle développé pour ces prédictions s'appelle Flusion. Il combine plusieurs modèles différents où l'un utilise le gradient boosting pour la régression quantile, avec un modèle autoregressif bayésien. Les modèles de gradient boosting ont été formés sur les trois sources de données, tandis que le modèle autoregressif s'est concentré uniquement sur les données d'admissions NHSN. Chaque semaine pendant la saison de grippe, ces modèles produisaient non pas une seule prédiction, mais une gamme de résultats possibles pour les admissions à l'hôpital. En faisant la moyenne de ces prédictions, Flusion a pu fournir une prévision complète.
Flusion a été reconnu comme le meilleur modèle dans le défi de prédiction de grippe du CDC pour la saison 2023/24. Ce succès est surtout dû à la manière dont il a partagé des informations provenant de différentes sources de données et localisations, ce qui a considérablement amélioré la précision du modèle.
Les Exercices Collaboratifs de Prévision FluSight
La prévision à court terme pour les maladies infectieuses a gagné en popularité, surtout grâce à des partenariats entre agences gouvernementales, entreprises privées et institutions académiques. Le projet FluSight du CDC a débuté lors de la saison de grippe 2013/2014, rassemblant plusieurs équipes de recherche pour partager leurs prévisions sur l'activité grippale aux États-Unis. Après une pause due à la pandémie de COVID-19, FluSight a repris en 2022, permettant à plus de 20 équipes de soumettre leurs prévisions chaque semaine en utilisant diverses méthodes et sources de données.
Les techniques de prévision par ensembles se sont révélées efficaces pour combiner ces soumissions individuelles en une seule prévision plus précise. L'objectif principal de FluSight est d'évaluer à quel point ces prévisions s'alignent sur les données réelles, aidant finalement à améliorer les réponses de santé publique.
Alors que la pandémie a changé les méthodes de collecte de données, de nouveaux flux de données haute résolution sont devenus disponibles. Pour les saisons FluSight suivant la pandémie, l'accent principal pour les prévisions était à nouveau sur les admissions à l'hôpital rapportées dans le système NHSN. Bien que ces données fournissent des informations détaillées sur l'activité grippale, le court historique des rapports posait un défi pour comprendre les tendances saisonnières.
Pour surmonter cette difficulté, le modèle Flusion a utilisé des sources de données externes avec des histoires plus longues pour soutenir des prédictions précises. Ce faisant, Flusion était le meilleur modèle de la saison FluSight 2023/24.
Méthodologie de Flusion
Les développements récents dans la prévision des maladies infectieuses ont conduit à des méthodes innovantes pour prédire les tendances. De nombreux modèles réussis utilisent à la fois des approches statistiques et des techniques d'apprentissage machine, intégrant souvent des idées provenant de la dynamique de transmission de la maladie. Les compétitions de science des données, comme celles accueillies sur des plateformes comme Kaggle, ont également stimulé les avancées dans ce domaine.
Flusion est un modèle d'apprentissage machine qui met l'accent sur les motifs saisonniers et les tendances récentes pour mieux comprendre la transmission de la grippe. En exploitant des données historiques en série temporelle qui se rapportent étroitement à la source de données cible, Flusion vise à améliorer la précision prédictive.
Dans des scénarios typiques où un signal principal a des rapports faibles ou retardés, les chercheurs ont constaté que l'utilisation de signaux connexes pour informer les prévisions peut grandement améliorer les résultats. Flusion adopte une approche similaire, s'appuyant sur des informations provenant de divers lieux et utilisant des données historiques plus longues pour une précision accrue.
Sources de Données pour Flusion
Flusion utilise trois mesures clés de l'activité grippale. La source de données principale est les admissions hospitalières hebdomadaires rapportées au NHSN. Les données NHSN ont commencé en 2020 mais ont montré une activité limitée pendant la pandémie de COVID-19, ce qui signifie qu'au début de la saison 2023/24, il n'y avait qu'une saison complète de données utiles.
Pour compléter les données NHSN, Flusion inclut deux signaux supplémentaires avec des histoires de rapport plus longues. Le premier est les admissions à l'hôpital de patients avec une grippe confirmée rapportées par FluSurv-NET, qui ajuste pour les incohérences passées et vise à fournir une mesure plus précise de l'activité grippale. La deuxième source, appelée ILI+, estime la proportion de visites en ambulatoire où les patients ont la grippe en combinant des données provenant d'ILINet et de systèmes de rapport de l'OMS.
Comme l'objectif était de fournir une prévision fiable, le modèle n'a pas utilisé de données des saisons de pandémie ou de périodes de faible activité pendant la pandémie de COVID-19. En se concentrant uniquement sur les données historiques utiles, Flusion visait à générer des prédictions plus précises.
L'Exercice Collaboratif de Prévision FluSight
Pour la saison 2023/24, l'objectif principal des prédictions dans l'exercice de prévision FluSight était les admissions hebdomadaires à l'hôpital avec grippe confirmée collectées à partir du NHSN. Les prévisions ont été faites pour les semaines en cours et à venir, avec des soumissions dues le mercredi et couvrant une semaine de référence qui s'est terminée le samedi suivant la soumission.
Les données publiées comprenaient les admissions les plus récentes signalées le samedi précédent. En plus des prévisions probabilistes, Flusion a fourni une gamme de quantiles représentant l'incertitude des prévisions.
Les prédictions du modèle ont montré un fort alignement avec les modèles d'admission à l'hôpital réels, surpassant les modèles de référence qui servaient de comparaisons. Dans de nombreux cas, Flusion a capturé avec précision les tendances des admissions à l'hôpital, faisant d'elle un outil de prévision précieux.
Évaluation et Résultats
L'évaluation des performances de Flusion a montré qu'elle se classait systématiquement parmi les meilleures en termes de précision des prévisions. Le modèle a produit des résultats qui étaient précis et bien calibrés par rapport à d'autres modèles soumis à FluSight.
Pour évaluer le succès de Flusion, les chercheurs ont mesuré plusieurs indicateurs de performance. Ils ont examiné à quel point les médianes prédites par le modèle s'alignaient sur les observations réelles et à quel point les intervalles de prévision couvraient les vraies valeurs. Flusion a surpassé de nombreux contributeurs dans les deux catégories.
Une partie essentielle de la conception de Flusion est qu'il a été construit comme un ensemble de différents modèles. En combinant les forces des composants-spécifiquement les méthodes de gradient boosting et autoregressives-Flusion a pu fournir des prédictions robustes. L'évaluation a montré que l'inclusion de plusieurs sources de données et l'entraînement partagé à travers les lieux amélioraient considérablement la performance du modèle.
Importance de l'Entraînement Commun
Un des grands avantages de Flusion est qu'il a été entraîné conjointement sur des données de multiples sources et localisations. Cette approche holistique permet au modèle d'apprendre de divers motifs et tendances, ce qui pourrait aider à faire des prédictions plus précises.
Des expériences comparant Flusion à des variations de ses modèles ont montré que l'entraînement commun a conduit à de meilleurs résultats. Les modèles qui étaient entraînés séparément ou utilisant uniquement une source de données se sont régulièrement mal positionnés par rapport à Flusion. Cela renforce l'importance de la collaboration et du partage de données dans le développement de modèles de prévision efficaces.
Techniques de Traitement des Données
La façon dont les données sont traitées avant d'être saisies dans les modèles est également essentielle pour la performance. Flusion a incorporé plusieurs transformations pour assurer la cohérence entre différentes sources de données. Par exemple, il a ajusté les taux en fonction de la taille de la population pour différents lieux et a appliqué une transformation de racine quatrième pour réduire la variance.
Un examen des composants de Flusion a révélé que l'ajustement pour les incohérences de rapport était vital. Les résultats ont suggéré que sans ces étapes de prétraitement, le modèle n'aurait pas bien performé. Par conséquent, avoir un processus bien défini pour gérer les entrées de données est essentiel pour obtenir des résultats réussis.
Compétences des Modèles Individuels
Bien que l'approche par ensembles de Flusion ait été bénéfique, la performance individuelle de chaque modèle a également été évaluée. Le modèle de gradient boosting utilisé dans Flusion a été particulièrement impactant. En examinant la performance de différentes combinaisons de modèles au sein de l'ensemble, il est devenu clair que le modèle de gradient boosting était un contributeur majeur au succès de Flusion.
Des modèles plus traditionnels, comme le modèle autoregressif bayésien, ont également montré de la valeur, bien que dans une mesure plus petite. L'évaluation a indiqué que l'efficacité globale de Flusion découlait significativement de la performance de son composant de gradient boosting.
Perspectives sur les Variations de Performance
Des enquêtes post-évaluation ont exploré quels facteurs influençaient le plus la précision des prédictions de Flusion. Les résultats de ces évaluations ont illustré que, bien que l'assemblage offre des avantages, le contributeur le plus significatif était l'inclusion du modèle de gradient boosting.
En revanche, les variations qui excluaient des caractéristiques critiques ou qui n'étaient pas entraînées sur des données historiques avaient tendance à mal performer. L'analyse a suggéré que garantir que les modèles utilisent des caractéristiques à jour et pertinentes était essentiel pour produire des prévisions fiables.
Opportunités d'Amélioration Future
Malgré le succès de Flusion, il y a encore des opportunités d'améliorer ses performances lors des prochaines saisons. Les chercheurs visent à intégrer des mises à jour en temps réel de plusieurs signaux pour de meilleures prévisions. Cela pourrait impliquer d'intégrer d'autres sources de données, telles que des réclamations d'assurance ou l'activité sur le web, pour obtenir une compréhension plus large des tendances grippales.
De plus, les travaux futurs pourraient explorer comment tirer parti des idées provenant des localisations voisines ou établir des connections entre les prévisions faites à différents niveaux hiérarchiques. Cela pourrait être particulièrement précieux dans les zones avec des populations plus petites, où la variabilité des données peut impacter la précision des prévisions.
En intégrant ces domaines dans les futurs modèles, Flusion pourrait potentiellement améliorer son efficacité et devenir un outil encore plus précieux dans la prévision de santé publique.
Conclusion
En résumé, Flusion se démarque comme un modèle réussi pour prédire les admissions à l'hôpital pour la grippe. Son classement en tête du défi de prédiction du CDC est principalement attribué à sa combinaison innovante de plusieurs sources de données et une approche d'entraînement commun. Les idées tirées de ce modèle pourraient ouvrir la voie à de futures avancées dans la prévision des maladies infectieuses, démontrant l'importance du partage de données et de la collaboration dans les efforts de santé publique. À mesure que le paysage de la collecte de données continue d'évoluer, des modèles comme Flusion qui s'adaptent et intègrent divers signaux seront essentiels pour se préparer et répondre aux épidémies saisonnières et pandémiques de grippe.
Titre: Flusion: Integrating multiple data sources for accurate influenza predictions
Résumé: Over the last ten years, the US Centers for Disease Control and Prevention (CDC) has organized an annual influenza forecasting challenge with the motivation that accurate probabilistic forecasts could improve situational awareness and yield more effective public health actions. Starting with the 2021/22 influenza season, the forecasting targets for this challenge have been based on hospital admissions reported in the CDC's National Healthcare Safety Network (NHSN) surveillance system. Reporting of influenza hospital admissions through NHSN began within the last few years, and as such only a limited amount of historical data are available for this signal. To produce forecasts in the presence of limited data for the target surveillance system, we augmented these data with two signals that have a longer historical record: 1) ILI+, which estimates the proportion of outpatient doctor visits where the patient has influenza; and 2) rates of laboratory-confirmed influenza hospitalizations at a selected set of healthcare facilities. Our model, Flusion, is an ensemble that combines gradient boosting quantile regression models with a Bayesian autoregressive model. The gradient boosting models were trained on all three data signals, while the autoregressive model was trained on only the target signal; all models were trained jointly on data for multiple locations. Flusion was the top-performing model in the CDC's influenza prediction challenge for the 2023/24 season. In this article we investigate the factors contributing to Flusion's success, and we find that its strong performance was primarily driven by the use of a gradient boosting model that was trained jointly on data from multiple surveillance signals and locations. These results indicate the value of sharing information across locations and surveillance signals, especially when doing so adds to the pool of available training data.
Auteurs: Evan L. Ray, Yijin Wang, Russell D. Wolfinger, Nicholas G. Reich
Dernière mise à jour: 2024-07-26 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.19054
Source PDF: https://arxiv.org/pdf/2407.19054
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.