Prevedere la Mortalità: Intuizioni dai Dati Finnici
Uno studio sull'uso dei dati sanitari per prevedere la mortalità a un anno.
― 8 leggere min
Indice
Capire come invecchiano le persone e i rischi che affrontano riguardo all'aspettativa di vita e alla morte è fondamentale per la pianificazione sanitaria e politica. Identificare chi è più probabile che muoia presto aiuta a creare interventi sanitari migliori. Prevedere la Mortalità a breve termine può migliorare drasticamente la qualità delle cure per chi si avvicina alla fine della vita, risparmiando anche sui costi sanitari. Un punto chiave è riconoscere il divario tra l'età anagrafica di una persona e la sua età biologica, specialmente con l’avanzare dell’età. Questo divario influisce sulla nostra capacità di prevedere quanto a lungo possa vivere una persona.
L'importanza della previsione della mortalità
Con l'aumento della tecnologia informatica, in particolare del machine learning, ora abbiamo accesso a enormi quantità di Dati sanitari e sociali. Questo ha portato allo sviluppo di algoritmi in grado di prevedere la salute futura di una persona e informare le decisioni mediche. I modelli di deep learning possono analizzare grandi set di dati e richiedono meno elaborazione iniziale rispetto ai metodi tradizionali. Un vantaggio di questi modelli è che possono esaminare la storia sanitaria di un individuo nel tempo, tenendo conto di vari fattori riguardanti le loro cure mediche e le circostanze sociali.
Tuttavia, i modelli di deep learning spesso funzionano come una "scatola nera", il che significa che è difficile capire perché fanno certe previsioni. Anche se alcuni metodi possono fornire informazioni su fattori importanti per gli individui, non chiariscono necessariamente perché le previsioni differiscono tra i gruppi. Questa comprensione diventa particolarmente rilevante quando si affronta l'equità nelle previsioni sanitarie. È essenziale che gli algoritmi non favoriscano o svantaggino alcuni gruppi basati su tratti intrinseci o acquisiti. Ci sono stati casi in cui gli algoritmi di deep learning hanno avuto prestazioni inferiori per individui socialmente svantaggiati, portando a previsioni distorte a causa di dati mancanti o difettosi.
Ad esempio, ricerche hanno mostrato che i modelli che prevedono le riammissioni ospedaliere hanno avuto prestazioni migliori per alcuni gruppi razziali rispetto ad altri. Differenze negli interventi sanitari hanno anche mostrato variazioni basate su razza, genere ed età, influenzando quanto bene le previsioni funzionassero tra diversi gruppi.
Obiettivi dello studio
Questo studio mira a prevedere la mortalità a un anno per tutti i residenti finlandesi utilizzando ampi dati nazionali. Vogliamo vedere quanto siano accurate le previsioni tra vari gruppi basati su salute, città e stato economico. Per fare ciò, abbiamo creato un Modello di deep learning avanzato. Abbiamo anche confrontato quanto bene si comportasse questo modello rispetto a un modello più semplice, che considerava solo età e genere come fattori.
Molti studi precedenti si sono concentrati sulla previsione della mortalità a breve termine utilizzando diversi tipi di cartelle cliniche, fattori ambientali o dati biologici. Il nostro lavoro si distingue perché analizziamo l'intera popolazione finlandese, il che ci dà un campione ampio e rappresentativo. Inoltre, consideriamo molti tipi diversi di dati, comprese informazioni socioeconomiche che altri studi non hanno esplorato appieno. Questo approccio completo ci consente di comprendere le Disparità nelle previsioni sanitarie in modo più dettagliato.
Fonti di dati
Il FinRegistry è una risorsa preziosa per dati sanitari e demografici sulla popolazione finlandese. Include una varietà di registri: visite sanitarie, condizioni di salute, farmaci, interventi chirurgici, informazioni demografiche e dati socioeconomici. Alcune di queste informazioni risalgono agli anni '70, offrendo una visione a lungo termine delle tendenze sanitarie.
Il nostro studio ha incluso tutti i residenti vivi e non emigrati al 1 gennaio 2020. Ci siamo concentrati sulla previsione della mortalità per tutte le cause entro un anno, poiché circa l'1% degli individui muore durante quel periodo. Per rendere le nostre previsioni affidabili, abbiamo utilizzato dati di tre anni consecutivi per addestrare, convalidare e testare il nostro modello, assicurandoci che gli anni utilizzati per la convalida e il test non fossero stati visti dal modello durante l'addestramento.
Metodologia
Per valutare le previsioni di mortalità, abbiamo incluso sia caratteristiche fisse che longitudinali nel nostro modello. Le caratteristiche fisse riguardano informazioni che non cambiano nel tempo, come dati demografici di base. Le caratteristiche longitudinali catturano i cambiamenti nel tempo, come la storia medica e lo stato socioeconomico.
Abbiamo utilizzato un modello di rete neurale ricorrente (RNN), che è adatto per gestire sequenze di dati nel tempo. Questo modello è efficace per analizzare le storie sanitarie ed è stato dimostrato funzionare bene nella previsione di risultati clinici.
Abbiamo anche confrontato il nostro modello di deep learning con un modello di regressione logistica più semplice che considerava solo età e genere. Questo ci ha permesso di vedere quanto meglio si comportasse il modello avanzato.
Risultati descrittivi
Abbiamo esaminato la distribuzione di età e sesso della popolazione del nostro studio. L'età media era di 44,4 anni, con leggermente più donne che uomini. Nel 2020, l'età media alla morte era di 79,7 anni, con le donne che generalmente vivevano più a lungo degli uomini. È interessante notare che solo una piccola percentuale di decessi si è verificata prima dei 65 anni.
Abbiamo anche guardato alla quantità di dati sanitari disponibili nel tempo. La maggior parte degli individui aveva più registri, con il 78% che aveva registri di almeno otto fonti diverse. Questa ricchezza di dati è cruciale per fare previsioni accurate.
Performance del modello
Il modello RNN aveva circa 2,9 milioni di parametri e ha raggiunto un'area sotto la curva caratteristica (AUC) di 0,944, che è significativamente più alta rispetto all'AUC del modello di base di 0,897. Questo dimostra che il nostro modello è molto più affidabile per prevedere chi potrebbe morire nell'anno successivo.
Il nostro modello RNN era anche ben calibrato, il che significa che le sue previsioni corrispondevano strettamente ai risultati reali. Si è comportato meglio del modello di base in diverse metriche, compresa l'area sotto la curva precision-recall (AUPRC), indicando la sua superiorità complessiva.
Quando ci siamo concentrati sul tempo fino alla morte piuttosto che su un semplice risultato binario di vivere o morire, l'RNN ha mantenuto un'alta coerenza durante il periodo predittivo. Abbiamo anche creato gruppi di rischio basati sulle probabilità di mortalità previste, dimostrando che l'RNN poteva categorizzare efficacemente gli individui in gruppi a basso, medio e alto rischio di mortalità.
Performance tra diversi gruppi
Abbiamo valutato quanto bene il modello si comportasse tra le diverse cause di morte e gruppi di età. Analizzando 50 diverse cause di morte, abbiamo scoperto che il modello RNN prevedeva la mortalità con alta precisione per la maggior parte, mostrando AUC superiori a 0,8 per 45 cause. Tuttavia, era meno efficace nel prevedere i decessi per incidenti e violenza rispetto alle cause legate a malattie.
La performance del modello RNN ha anche correlato con l'età degli individui. Le previsioni erano generalmente migliori per i gruppi di età più avanzata, e il modello ha distinto bene tra diverse cause di morte. È interessante notare che ha superato significativamente il modello di base per le cause di morte di individui più giovani, come il suicidio.
Equità nelle previsioni
Abbiamo indagato se il modello trattasse diversi gruppi in modo equo esaminando le sue previsioni in base a fattori come posizione geografica, reddito e altre variabili sociali. Ci sono state differenze evidenti nelle prestazioni predittive tra vari comuni regionali, con alcune aree che hanno ottenuto punteggi AUC più bassi di altre. Questa variabilità ha evidenziato disparità sociali nelle previsioni sanitarie.
Inoltre, abbiamo notato che gli individui con pensioni più alte avevano risultati di previsione migliori, mentre quelli in gruppi svantaggiati - come individui non sposati, immigrati o quelli con diagnosi di salute mentale - avevano risultati peggiori in termini di precisione predittiva. Abbiamo scoperto che le prestazioni del modello RNN erano significativamente più basse tra questi gruppi svantaggiati rispetto ai loro omologhi. Lo studio ha anche esaminato coloro con più svantaggi, dove le prestazioni predittive sono diminuite ulteriormente.
Limitazioni
Sebbene il nostro studio abbia mostrato risultati robusti, ci sono state limitazioni. Non abbiamo convalidato il nostro modello al di fuori della Finlandia, il che è qualcosa che la ricerca futura dovrebbe affrontare. Il nostro set di dati mancava di marcatori biologici o genetici, che potrebbero migliorare l'accuratezza delle previsioni. Inoltre, la maggior parte della nostra analisi di equità si è concentrata su individui più anziani e su attributi limitati.
Conclusione
Questo studio evidenzia come i modelli di deep learning possano utilizzare ampi dati sanitari per prevedere con precisione i rischi di mortalità a un anno. Il nostro modello ha eccelso in diverse cause di morte e ha persino superato i metodi tradizionali quando si controllava per l'età. È importante notare che, sebbene il nostro modello mostri promesse nella previsione della mortalità, solleva anche preoccupazioni riguardo all'equità, poiché i gruppi svantaggiati ricevono spesso un'accuratezza predittiva inferiore.
Andando avanti, la ricerca futura dovrebbe mirare a convalidare questi risultati in contesti diversi, esplorando come i fattori socioeconomici influenzino le previsioni sanitarie, garantendo al contempo equità tra tutte le demografie. L'integrazione di dati sanitari e sociali è fondamentale per migliorare i modelli predittivi in medicina.
Titolo: Deep learning-based prediction of one-year mortality in the entire Finnish population is an accurate but unfair digital marker of aging
Estratto: BackgroundAccurately predicting short-term mortality is important for optimizing healthcare resource allocation, developing risk-reducing interventions, and improving end-of-life care. Moreover, short-term mortality risk reflects individual frailty and can serve as digital aging marker. Previous studies have focused on specific, high-risk populations. Predicting all-cause mortality in an unselected population incorporating both health and socioeconomic factors has direct public health relevance but requires careful fairness considerations. MethodsWe developed a deep learning model to predict 1-year mortality using nationwide longitudinal data from the Finnish population (N = 5.4 million), including >8,000 features and spanning back up to 50 years. We used the area under the receiver operating characteristic curve (AUC) as a primary metric to assess model performance and fairness. FindingsThe model achieved an AUC of 0.944 with strong calibration, outperforming a baseline model that only included age and sex (AUC = 0.897). The model generalized well to different causes of death (AUC > 0.800 for 45 out of 50 causes), including COVID-19 which was not present in the training data. The model performed best among young females and worst in older males (AUC = 0.910 vs. AUC = 0.718). Extensive fairness analyses revealed that individuals belonging to multiple disadvantaged groups had the worst model performance, not explained by age and sex differences, reduced healthcare contact, or smaller training set sizes within these groups. ConclusionA deep learning model based on nationwide longitudinal multi-modal data accurately identified short-term mortality risk holding the potential for developing a population-wide in-silico aging marker. Unfairness in model predictions represents a major challenge to the equitable integration of these approaches in public health interventions.
Autori: Andrius Vabalas, T. Hartonen, P. Vartiainen, S. Jukarainen, E. Viippola, R. Rodosthenous, A. Liu, S. Hagg, M. Perola, A. Ganna
Ultimo aggiornamento: 2023-09-18 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2023.09.18.23295726
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.09.18.23295726.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.