Migliorare le previsioni di ospedalizzazione per l'influenza usando l'augmented data
Un nuovo metodo per migliorare le previsioni di ospedalizzazione per l'influenza con dati storici limitati.
Amy E Benefield, D. Williams, V. Nagraj
― 7 leggere min
Indice
La modellazione delle malattie è fondamentale per aiutare gli ufficiali sanitari a rispondere a minacce per la salute come l'influenza. Tuttavia, un problema è che non abbiamo abbastanza dati storici per creare previsioni accurate sui ricoveri per influenza. Lavorando con il gruppo FluSight del CDC, abbiamo riconosciuto questa sfida mentre cercavamo di prevedere i ricoveri per influenza a breve termine negli Stati Uniti.
Nel 2020, il Dipartimento della Salute degli Stati Uniti ha iniziato a segnalare i ricoveri per influenza attraverso un sistema chiamato HHS Protect, ora noto come National Healthcare Safety Network (NHSN). L'obbligo di segnalare questi dati è stato in vigore solo tra febbraio 2022 e aprile 2024. Per questo motivo, abbiamo appena poco più di due anni di dati affidabili a livello statale sui ricoveri per influenza. Più dati possono aiutarci a creare previsioni migliori. Per affrontare questo, abbiamo cercato di riempire i vuoti stimando i ricoveri per influenza prima del 2020. Qui sotto spieghiamo il nostro metodo per estendere questa serie temporale e migliorare la nostra comprensione dei ricoveri per influenza negli Stati Uniti.
Fonti di dati
Per costruire una cronologia dei ricoveri per influenza, abbiamo esaminato due diverse fonti di dati sull'influenza: FluSurv-NET (FSN) e ILINet. Questi due sistemi sono preziosi per la salute pubblica ma presentano alcune limitazioni. Ad esempio, FSN raccoglie solo i registri di ricoveri per influenza da stati selezionati e ha dati a partire dal 2009. D'altra parte, ILINet si concentra sulle visite ambulatoriali per malattie simili all'influenza ma non tiene traccia dei ricoveri e potrebbe includere visite per altre malattie.
Poiché il nostro obiettivo era comprendere le tendenze nei ricoveri, abbiamo deciso di dare priorità ai dati di FSN rispetto a quelli di ILINet.
Processo di Aggiunta di Dati
Il nostro processo per aggiungere alla cronologia dei ricoveri per influenza si è articolato in quattro fasi principali: concatenazione, interpolazione, estrapolazione e imputazione. Per ridurre i bias quando stimavamo i dati storici, abbiamo utilizzato i registri FSN per la nostra estrapolazione. Prima di tutto, dovevamo riempire i vuoti durante le settimane senza influenza, ed è qui che è entrata in gioco l'interpolazione. Infine, abbiamo combinato con attenzione tutti i dataset esistenti durante la fase di concatenazione.
Per iniziare, abbiamo estratto i dati FSN utilizzando uno specifico strumento software, raccogliendo informazioni da 19 stati con registri a partire dal 2009. Abbiamo anche raccolto dati FSN da ottobre 2020 ad aprile 2024. Tuttavia, FSN non riporta dati al di fuori della stagione influenzale, lasciando delle lacune nei nostri dati. Per affrontare questo, abbiamo fatto la media dei dati sui ricoveri per influenza provenienti da due aree nello Stato di New York. Abbiamo anche utilizzato un altro strumento software per aggiungere i dati sulla popolazione statale per convertire i tassi di ricovero in conteggi grezzi, rendendoli compatibili con i report NHSN.
Dopo aver combinato i dati FSN e NHSN, abbiamo notato molte lacune per i ricoveri per influenza. Alcuni stati non hanno mai segnalato a FSN, mentre altri hanno riportato in modo incoerente, specialmente durante l'estate e durante la pandemia.
Lacune Brevi
Le prime lacune che abbiamo affrontato erano brevi nei dati FSN. Dato che queste lacune erano minori o si verificavano in periodi in cui i ricoveri per influenza erano generalmente bassi, abbiamo utilizzato un metodo semplice chiamato interpolazione lineare per riempirle. Tuttavia, abbiamo limitato la nostra interpolazione a lacune più brevi di 26 settimane per evitare di fare assunzioni ampie su lacune più lunghe.
Dopo l'interpolazione, c'erano ancora molte voci mancanti, ma ora avevamo due colonne di dati sui ricoveri per alcuni stati: una da FSN e l'altra da NHSN. Per completare il nostro dataset, avevamo pianificato di utilizzare una tecnica chiamata imputazione multivariata, che aiuta a stimare i valori mancanti sulla base dei dati esistenti. Tuttavia, per garantire l'accuratezza, dovevamo consolidare le due variabili di ricovero.
Fase di Estrapolazione
Abbiamo stabilito un metodo di conversione per stimare i ricoveri NHSN utilizzando i dati FSN. Abbiamo utilizzato un modello lineare generalizzato (GLM) che considerava i casi in cui erano disponibili sia dati FSN che NHSN. Questo modello ha aiutato a predire i ricoveri NHSN quando erano presenti solo dati FSN. Abbiamo scoperto che, sebbene i registri FSN mostrassero spesso numeri più alti rispetto a NHSN, siamo riusciti a creare un insieme unico di numeri di ricovero utilizzando il GLM.
Dopo questa estrapolazione, avevamo un dataset combinato che conteneva ancora lacune per gli stati che non avevano riportato a FSN. Questo nuovo dataset consisteva di 17.062 registri di ricoveri per influenza ma aveva ancora 22.888 registri mancanti. Per riempire queste lacune rimanenti, abbiamo utilizzato una tecnica chiamata imputazione multipla, che stima i dati mancanti sulla base di variabili esistenti come la posizione statale, la data e la dimensione della popolazione.
Validazione del Processo di Imputazione
Per garantire che i nostri metodi di imputazione fossero validi, li abbiamo testati su dati recenti limitati in cui avevamo già segnali NHSN. Lo abbiamo fatto rimuovendo temporaneamente alcuni dati e verificando con quale precisione i nostri metodi potevano stimare i valori mancanti. In generale, abbiamo scoperto che i nostri metodi funzionavano abbastanza bene, specialmente durante le normali stagioni influenzali, anche se erano meno accurati durante gli anni della pandemia.
Prestazioni delle Previsioni
Con il nostro dataset aumentato, abbiamo testato la sua utilità eseguendo una previsione a breve termine utilizzando un approccio di serie temporale chiamato media mobile integrata autoregressiva (ARIMA). Il modello ARIMA aiuta a prevedere i conteggi futuri dei ricoveri sulla base dei dati storici. Abbiamo testato varie versioni dei dati per vedere quale funzionava meglio, compreso il dataset originale NHSN e il dataset aumentato completo.
A livello nazionale, non ci sono state molte differenze nel funzionamento delle previsioni usando i dati NHSN originali e le variazioni del dataset imputato. Tuttavia, le migliori prestazioni sono venute dai modelli che escludevano i ricoveri per influenza prima di giugno 2010. Questo indicava che escludere i dati da stagioni influenzali insolite migliorava l'accuratezza.
Guardando alle previsioni a livello statale, abbiamo notato che i modelli che utilizzavano dati terminati prima del 2010 o includevano esclusioni pandemiche tendevano a funzionare meglio. Al contrario, non utilizzare dati aumentati o rimuovere solo gli anni pandemici portava a prestazioni peggiori. Questo suggerisce che trovare il giusto equilibrio tra la profondità dei dati storici e gli eventi di salute significativi può portare a risultati di previsione migliori.
Conclusione
L'approccio che abbiamo sviluppato è utile per migliorare le previsioni sui ricoveri per influenza e mostra come estendere efficacemente le serie temporali epidemiologiche. Combinando i dati di FSN e NHSN, abbiamo creato una stima continua dei ricoveri per influenza a livello statale fino al 2009. Questo dataset esteso è cruciale, specialmente dato che ci sono solo pochi anni di dati sui ricoveri effettivamente riportati.
Il lavoro futuro dovrebbe concentrarsi sull'affrontare le limitazioni del nostro metodo e sulla validazione dei metodi di imputazione man mano che diventano disponibili più dati NHSN. La necessità di metodi di aumento dei dati efficaci è importante, specialmente mentre le regole di segnalazione degli ospedali continuano a cambiare. Inoltre, il nostro approccio potrebbe servire come modello per altri ricercatori che desiderano estendere i propri dati in altri contesti di salute pubblica.
In sintesi, siamo riusciti a combinare i dati di FSN e NHSN per riempire le lacune e creare una cronologia continua dei ricoveri per influenza. Questo nuovo dataset migliorerà probabilmente i modelli di serie temporali utilizzati per le previsioni, portando a migliori risposte e strategie di preparazione della salute pubblica.
Titolo: An Imputation-Based Approach for Augmenting Sparse Epidemiological Signals
Estratto: Near-term disease forecasting and scenario projection efforts rely on the availability of data to train and evaluate model performance. In most cases, more extensive epidemiological time series data can lead to better modeling results and improved public health insights. Here we describe a procedure to augment an epidemiological time series. We used reported flu hospitalization data from FluSurv-NET and the National Healthcare Safety Network to estimate a complete time series of flu hospitalization counts dating back to 2009. The augmentation process includes concatenation, interpolation, extrapolation, and imputation steps, each designed to address specific data gaps. We demonstrate the forecasting performance gain when the extended time series is used to train flu hospitalization models at the state and national level.
Autori: Amy E Benefield, D. Williams, V. Nagraj
Ultimo aggiornamento: 2024-08-03 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2024.07.31.24311314
Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.07.31.24311314.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.