Améliorer les prévisions d'hospitalisation pour la grippe
De nouvelles méthodes améliorent la précision des prévisions d'hospitalisations liées à la grippe.
― 10 min lire
Table des matières
- Avancées dans la prévision de la grippe
- Données limitées et ses défis
- Une nouvelle approche de la prévision
- Méthodes utilisées dans la prévision
- Collecte de données
- Augmentation des données
- Modèles de prévision
- Validation et performance des modèles
- Évaluation de la précision des modèles
- Principales conclusions et défis
- Directions futures dans la prévision de la grippe
- Conclusion
- Source originale
La grippe, connue sous le nom de grippe, est une infection virale qui touche le système respiratoire. Cette infection existe depuis des siècles, mais elle reste un problème sérieux de santé publique dans le monde entier. Chaque année, la grippe entraîne de nombreuses Hospitalisations et décès. Aux États-Unis, par exemple, le nombre d'hospitalisations liées à la grippe peut varier énormément, atteignant entre 100 000 et 700 000, avec des décès allant de 5 000 à 50 000 chaque année.
Avoir des prévisions précises et en temps opportun de l'activité grippale peut aider les agences de santé, les hôpitaux, les entreprises et le grand public à mieux se préparer pour la saison de la grippe. Cependant, prédire les tendances de la grippe peut être difficile parce que les schémas d'épidémies de grippe sont imprévisibles et que les données historiques sont souvent limitées.
Avancées dans la prévision de la grippe
Ces dernières années, la science de la prévision de la grippe a fait des progrès significatifs. Les chercheurs combinent maintenant diverses sources de données et méthodes pour prédire l'activité grippale de manière plus précise au niveau des États. Il existe de nombreuses techniques statistiques efficaces utilisées à cet effet, comme les modèles de régression et les méthodes autorégressives. Les chercheurs ont également utilisé de nouvelles techniques d'apprentissage automatique pour améliorer les prévisions.
Un élément clé dans l'avancement de ce domaine a été les défis FluSight organisés par les Centers for Disease Control and Prevention (CDC). Depuis 2013, ces défis ont encouragé les scientifiques à développer et tester des modèles de prévision en temps réel. Alors que les premiers défis se concentraient sur la prédiction de l'activité générale de la grippe, les récents se sont orientés vers la prévision des hospitalisations dues à la grippe. Ce changement vient de la reconnaissance que les taux d'hospitalisation sont plus pertinents pour les responsables de la santé essayant de gérer les ressources de manière efficace.
Données limitées et ses défis
Un des grands défis dans la prévision des hospitalisations liées à la grippe est qu'avant 2020, des données d'hospitalisation cohérentes n'étaient disponibles que dans quelques États. Avec le recentrage sur les données d'hospitalisation, il n'y a eu que deux saisons de grippe (2020-21 et 2021-22) où des informations complètes sur les hospitalisations sont disponibles pour tous les États. De plus, la pandémie de COVID-19 a impacté les tendances des hospitalisations liées à la grippe, rendant encore plus difficile la collecte de données utiles pour les prévisions.
Les données limitées posent des défis pour l'entraînement des modèles de prévision, en particulier pour les approches avancées d'apprentissage automatique qui nécessitent des données abondantes. Les modèles statistiques traditionnels peuvent fonctionner avec moins de données, mais leur précision peut diminuer lorsque les informations ne sont pas suffisantes pour les affiner.
Un autre obstacle est le besoin de produire des prévisions en temps réel rapidement. Au début de la saison de grippe 2022-23, les chercheurs avaient moins de deux semaines pour préparer leurs prévisions, ce qui n'était pas assez de temps pour bien gérer le problème de la pénurie de données. De plus, les incohérences dans la collecte de données et les différences de qualité des données entre les régions compliquent encore les choses pour ceux qui cherchent à créer des prévisions fiables.
Une nouvelle approche de la prévision
Pour aborder les problèmes de données limitées et le besoin de prévisions précises, les chercheurs ont développé une nouvelle méthode. Ils ont utilisé le transfert d'apprentissage, une technique où les connaissances acquises d'un domaine sont appliquées à un autre. Ce faisant, ils ont créé une stratégie pour améliorer les données en utilisant des informations historiques sur les maladies grippales (ILI) à travers les États-Unis.
Les chercheurs ont d'abord construit un modèle pour analyser les hospitalisations passées liées à la grippe en utilisant les données ILI, ce qui a aidé à créer un ensemble de données plus vaste en estimant les hospitalisations basées sur des tendances décennales à partir des données ILI disponibles. Cet ensemble de données enrichi a permis d'utiliser des données de tous les États, sauf la Floride et Porto Rico, pour prévoir les hospitalisations malgré la pénurie de données directes sur les hospitalisations. Cette approche de transfert d'apprentissage a permis de former et d'affiner des modèles avancés d'apprentissage automatique qui pouvaient prédire les hospitalisations liées à la grippe de manière précise.
Méthodes utilisées dans la prévision
Collecte de données
Les données pour les hospitalisations liées à la grippe proviennent de diverses sources. Le CDC maintient une base de données qui suit le nombre d'hospitalisations liées à la grippe. Ces informations sont cruciales pour créer des prévisions précises. Une autre source de données clé était le réseau de surveillance des symptômes grippaux en consultation externe, qui collecte des informations auprès des prestataires de soins de santé sur des patients présentant des symptômes grippaux.
Augmentation des données
Pour surmonter les limitations des données, les chercheurs ont développé une méthode pour étendre les données d'hospitalisation disponibles en utilisant les informations ILI. Ils ont créé un modèle pour mapper les données ILI historiques à des hospitalisations. Ce processus impliquait de normaliser les données pour garantir leur cohérence et leur fiabilité. Les chercheurs ont constaté que l'analyse des données combinées des États avec des données d'hospitalisation complètes produisait de meilleurs résultats que d'essayer d'analyser chaque État séparément.
Après avoir développé le modèle, ils ont créé une série chronologique prolongée de données d'hospitalisation, qui a ensuite été fusionnée avec les données d'hospitalisation réelles pour former un ensemble de données continu commençant en 2012. Cette étape était cruciale pour générer un ensemble de données complet utile pour former des modèles de prévision.
Modèles de prévision
Pour créer des prévisions robustes, les chercheurs ont utilisé divers modèles pour prédire les hospitalisations liées à la grippe. Cela incluait des méthodes statistiques standard comme ARIMA et la régression vectorielle régularisée (VAR), ainsi que des modèles d'apprentissage automatique comme LightGBM. Pendant le processus de prévision, ils ont ajusté les modèles en fonction des performances récentes et ont continuellement affiné leurs prédictions.
Pour les saisons 2022-23 et 2023-24, les chercheurs ont utilisé différentes combinaisons de ces modèles. Ils ont développé des méthodes pour réaliser des prévisions jusqu'à quatre semaines à l'avance pour la saison 2022-23 et jusqu'à cinq semaines pour la saison suivante. Cette flexibilité a permis des mises à jour en temps opportun des prévisions lorsque de nouvelles données devenaient disponibles.
Validation et performance des modèles
Les chercheurs ont rigoureusement testé leurs modèles de prévision pour garantir leur précision. Leurs modèles ont participé au défi FluSight du CDC, où ils se sont classés quatrièmes lors de la première saison et deuxièmes la saison suivante. Cette validation a démontré l'efficacité de leur approche pour créer des prévisions fiables.
Ils ont comparé les performances de leurs modèles de données augmentées à celles utilisant les données originales, et ont constaté que les modèles entraînés avec des ensembles de données étendus performaient beaucoup mieux. La combinaison de l'augmentation des données et des méthodes de modélisation avancées s'est révélée cruciale pour obtenir des prévisions d'hospitalisations plus précises.
Évaluation de la précision des modèles
Pour évaluer l'efficacité de leurs modèles de prévision, les chercheurs ont calculé les erreurs de prévision et comparé leurs prédictions aux données réelles d'hospitalisation. Leurs résultats ont indiqué que leurs modèles augmentés pouvaient efficacement capturer le timing des saisons grippales et des tendances, bien qu'il restât encore des divergences dans la prédiction précise des valeurs de pic d'hospitalisation.
Par exemple, bien que leurs prévisions s'alignent de près avec les données réelles lors des périodes de grippe typiques, il y a eu des instances où ils ont sous-estimé les pics. Cela a mis en évidence la nécessité d'une amélioration continue de leurs techniques d'augmentation des données pour affiner encore davantage les modèles.
Principales conclusions et défis
La recherche a produit des insights précieux. Tout d'abord, avoir une meilleure qualité et disponibilité des données a joué un rôle clé dans l'amélioration de la performance des modèles. L'approche d'augmentation des données a permis aux chercheurs d'utiliser des informations historiques pour créer un ensemble de données plus riche pour former des modèles, ce qui était essentiel pour des prévisions précises.
Cependant, des défis demeurent. Les chercheurs ont reconnu que leur méthode d'estimation des volumes d'hospitalisation à des pics nécessitait des améliorations. Il y avait une tendance systématique à sous-estimer ces valeurs de pic, ce qui a pointé vers le besoin de raffiner leurs méthodes de collecte de données et d'intégrer des sources de données supplémentaires.
Directions futures dans la prévision de la grippe
En se tournant vers l'avenir, les chercheurs ont mis en avant plusieurs domaines à explorer. Il y a un potentiel pour améliorer les méthodes d'augmentation des données, en intégrant différents types de données pour améliorer la précision dans l'estimation des courbes d'hospitalisation. Des sources de données en temps réel, comme les tendances sur les réseaux sociaux et les requêtes de recherche, pourraient également renforcer les capacités prédictives pour les hospitalisations.
De plus, même si leurs méthodes se sont révélées efficaces pour la prévision de la grippe, il serait important d'évaluer si ces approches pourraient s'appliquer à d'autres maladies infectieuses. En outre, développer des modèles qui intègrent plusieurs flux de données et différentes périodes de temps pourrait renforcer la résilience des efforts de prévision dans des scénarios où les données sont rares.
Enfin, avec les avancées récentes en techniques d'apprentissage automatique, il existe une opportunité de peaufiner des modèles spécifiquement conçus pour les virus respiratoires. Cela pourrait considérablement améliorer les capacités prédictives pour les tendances de santé sous-jacentes.
Conclusion
Une prévision précise des hospitalisations liées à la grippe est essentielle pour la préparation de la santé publique et l'allocation des ressources. L'intégration de techniques de modélisation avancées, de méthodes statistiques et de stratégies d'augmentation des données démontre un potentiel prometteur pour améliorer les efforts de prédiction de la grippe. Bien que l'approche ait montré son efficacité, la recherche continue est cruciale pour améliorer encore les méthodes et combler les lacunes existantes en matière de précision des prévisions. En continuant à développer ces techniques, les chercheurs peuvent contribuer à de meilleures réponses de santé publique face aux épidémies de grippe et potentiellement à d'autres maladies infectieuses également.
Titre: A prospective real-time transfer learning approach to estimate Influenza hospitalizations with limited data.
Résumé: Accurate, real-time forecasts of influenza hospitalizations would facilitate prospective resource allocation and public health preparedness. State-of-the-art machine learning methods are a promising approach to produce such forecasts, but they require extensive historical data to be properly trained. Unfortunately, historically observed data of influenza hospitalizations, for the 50 states in the United States, are only available since the beginning of 2020, as their collection was motivated and enabled by the COVID-19 pandemic. In addition, the data are far from perfect as they were under-reported for several months before health systems began consistently and reliably submitting their data. To address these issues, we propose a transfer learning approach to perform data augmentation. We extend the currently available two-season dataset for state-level influenza hospitalizations in the US by an additional ten seasons. Our method leverages influenza-like illness (ILI) surveillance data to infer historical estimates of influenza hospitalizations. This cross-domain data augmentation enables the implementation of advanced machine learning techniques, multi-horizon training, and an ensemble of models for forecasting using the ILI training data set, improving hospitalization forecasts. We evaluated the performance of our machine learning approaches by prospectively producing forecasts for future weeks and submitting them in real time to the Centers for Disease Control and Prevention FluSight challenges during two seasons: 2022-2023 and 2023-2024. Our methodology demonstrated good accuracy and reliability, achieving a fourth place finish (among 20 participating teams) in the 2022-23 and a second place finish (among 20 participating teams) in the 2023-24 CDC FluSight challenges. Our findings highlight the utility of data augmentation and knowledge transfer in the application of machine learning models to public health surveillance where only limited historical data is available. Author summaryInfluenza is a major public health concern in the United States, causing thousands of hospitalizations annually. Accurate and timely forecasts of hospitalization rates are essential for effective public health preparedness. However, limited historical data makes forecasting with state-of-the-art models challenging. To address this issue, we developed a cross-domain data augmentation method that allowed us to train advanced machine learning models using symptom-based (syndromic) surveillance data. We then created a set of models, focusing on gradient-boosted machines, and combined them into an ensemble framework. This approach successfully overcame data limitations, outperforming the majority of teams participating in the CDC FluSight project for 2022-23 and 2023-24. Additionally, our forecasts demonstrated superior accuracy to the CDCs composite model in the 2022-23 season and matched its performance in 2023-24. Our study demonstrates a robust and data-efficient strategy for training machine learning models for use in public health forecasting.
Auteurs: Austin G Meyer, F. Lu, L. Clemente, M. Santillana
Dernière mise à jour: 2024-07-18 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2024.07.17.24310565
Source PDF: https://www.medrxiv.org/content/10.1101/2024.07.17.24310565.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.