Simple Science

Scienza all'avanguardia spiegata semplicemente

# Scienze della salute# Informatica sanitaria

Valutare il rischio di cancro al fegato nei pazienti con NAFLD

Questo studio utilizza il deep learning per prevedere il rischio di cancro al fegato nei pazienti con NAFLD.

― 6 leggere min


Deep Learning e RischioDeep Learning e Rischiodi Cancro al FegatoHCC nei pazienti con NAFLD.Usare l'IA per valutare il rischio di
Indice

Il cancro al fegato è un problema di salute serio, con il carcinoma epatocellulare (HCC) che è il tipo più comune di cancro al fegato negli adulti. È una delle principali cause di morte legate al cancro in tutto il mondo. I fattori di rischio noti per l'HCC includono le infezioni da epatite B e C e la malattia epatica alcolica, ma c'è una crescente preoccupazione riguardo alla malattia epatica grassa non alcolica (NAFLD) come fattore di rischio per l'HCC, specialmente negli Stati Uniti. Studi precedenti hanno esaminato questo legame, ma spesso coinvolgevano piccoli gruppi di pazienti, rendendo difficile trarre conclusioni ampie.

Con sempre più dati sanitari raccolti elettronicamente, i ricercatori possono ora usare queste informazioni per comprendere meglio i rischi delle malattie. Il machine learning, in particolare le tecniche di deep learning, mostrano promesse nell'identificare quali pazienti sono a rischio di sviluppare HCC. Alcuni studi hanno già applicato queste tecniche a pazienti con malattie epatiche legate all'epatite, ma nessuno si è concentrato specificamente su quelli con NAFLD.

Scopo dello Studio

Questo studio ha l'obiettivo di utilizzare metodi avanzati di deep learning per analizzare i dati sanitari di un gran numero di pazienti con NAFLD per determinare il loro rischio di sviluppare HCC. A differenza dei metodi precedenti, vogliamo assicurarci di considerare le varie complessità nei dati, come i registri dei pazienti incompleti e la lenta progressione della malattia.

Fonte dei Dati

I dati per questo studio provengono da un grande database di cartelle cliniche, che include informazioni su oltre 68 milioni di pazienti negli Stati Uniti. I registri contengono una varietà di informazioni sanitarie, tra cui demografia dei pazienti, diagnosi, farmaci, esami di laboratorio e altro. Ci siamo concentrati specificamente su pazienti con NAFLD e abbiamo creato un gruppo corrispondente di pazienti sani per il confronto.

Gruppo di Pazienti con NAFLD

Per far parte del gruppo NAFLD in questo studio, i pazienti dovevano mostrare segni di problemi epatici attraverso livelli anomali di enzimi per un certo periodo. Abbiamo escluso i pazienti sotto i 18 anni, così come quelli con infezioni da epatite o una storia di uso di alcol, dato che questi sono fattori di rischio noti per l'HCC. Il nostro obiettivo era creare un dataset pulito per analizzare il rischio di sviluppo di HCC tra i pazienti con NAFLD.

Gruppo Caso-Controllo

Per rendere il nostro studio robusto, abbiamo incluso anche un gruppo caso-controllo. Questo gruppo era composto da pazienti diagnosticati con HCC, insieme a un gruppo di pazienti sani che non avevano NAFLD. Abbiamo abbinato pazienti sani con pazienti HCC in base a età, genere e storia sanitaria, per comprendere meglio le differenze negli esiti di salute.

Progetto dello Studio

Nella nostra ricerca, abbiamo utilizzato modelli moderni di deep learning per prevedere se i pazienti con NAFLD avrebbero sviluppato HCC nel giro di un certo periodo. Abbiamo progettato il nostro studio tenendo presente che molti pazienti potrebbero non avere dati di follow-up completi per vari motivi, come traslochi o cambi di medici.

Abbiamo iniziato osservando i casi di HCC entro dieci anni da un punto di partenza scelto. I pazienti persi al follow-up sono stati considerati come non aver sviluppato il cancro. Quelli che sviluppavano HCC sono stati seguiti attentamente per vedere se emergessero certi schemi di salute tra di loro.

Modelli di Deep Learning

Ci siamo concentrati su due modelli primari di deep learning per la nostra analisi: RETAIN e DeepHit. Il modello RETAIN utilizza dati medici storici per prevedere la progressione della malattia, mentre DeepHit è progettato per l'analisi di sopravvivenza. Entrambi i modelli hanno i loro punti di forza, ma la nostra ipotesi era che RETAIN avrebbe funzionato meglio in questo contesto, perché utilizza dati di salute che cambiano nel tempo.

Tecnica di Backward Masking

Una sfida unica nella nostra ricerca era la diagnosi tardiva dell'HCC. Spesso, i sintomi sono presenti molto prima che venga fatta una diagnosi ufficiale. Per affrontare questo problema, abbiamo usato una tecnica chiamata backward masking, dove abbiamo intenzionalmente mascherato o nascosto determinati registri medici passati prima della data di diagnosi dell'HCC. Questo ci ha permesso di individuare i fattori di rischio piuttosto che affidarci solo a segnali di avvertimento evidenti.

Transfer Learning

Data la quantità relativamente piccola di pazienti NAFLD che sviluppano HCC, abbiamo adottato un metodo chiamato transfer learning. Questo approccio ci ha permesso di utilizzare i nostri modelli, inizialmente addestrati su un gruppo più grande di pazienti, e poi affinarli sui dati NAFLD. Questa strategia ha migliorato le previsioni che potevamo fare sul rischio di HCC nei pazienti con NAFLD.

Risultati

I nostri risultati hanno mostrato che utilizzando il modello RETAIN, che considerava l'evoluzione dei dati dei pazienti nel tempo, si ottenevano previsioni più accurate del rischio di HCC. Abbiamo scoperto che la capacità di analizzare i dati di salute in cambiamento era cruciale per previsioni efficaci. Al contrario, DeepHit, che utilizza solo dati iniziali, non ha funzionato altrettanto bene.

In aggiunta, abbiamo constatato che il transfer learning ha avuto un effetto positivo sui nostri risultati. Partendo da un modello che aveva già appreso da un dataset più ampio, le nostre previsioni per il gruppo più piccolo di NAFLD sono migliorate significativamente.

Pregiudizio di Genere nelle Previsioni

Una parte importante della nostra analisi includeva l'esame di come il genere potrebbe influenzare il rischio di malattia per l'HCC. Risultati precedenti suggerivano che uomini e donne potessero vivere rischi e risultati diversi legati all'HCC. Analizzando i nostri dati, abbiamo confermato che i modelli si comportavano diversamente in base al genere dei pazienti su cui erano stati addestrati. I modelli solo per uomini non prevedevano bene gli esiti femminili, sottolineando la necessità di approcci specifici per il genere nelle future analisi.

Importanza dei Fattori di Rischio

Infine, abbiamo identificato diversi fattori di rischio chiave che sembravano essere significativi nella previsione dell'HCC. Caratteristiche come l'alto indice di massa corporea, esami epatici anomali e la presenza di altre condizioni di salute si sono rivelate forti indicatori. Interessante notare, alcune problematiche sanitarie specifiche sono state evidenziate per le donne, come l'artrite reumatoide, che potrebbe influenzare il loro profilo di rischio per lo sviluppo dell'HCC.

Conclusione

In conclusione, il nostro studio evidenzia l'efficacia delle tecniche moderne di deep learning nella previsione del rischio di HCC nei pazienti con NAFLD. Combinando metodi avanzati di analisi dei dati con un focus sulla gestione accurata dei dati e l'identificazione dei fattori di rischio, miriamo a fornire spunti che possano migliorare la cura dei pazienti. Affrontare problemi come le diagnosi tardive e il pregiudizio di genere sarà cruciale per fare ulteriori progressi nella comprensione e nella previsione dei rischi legati al cancro al fegato. Di conseguenza, possiamo costruire strategie migliori per monitorare e trattare i pazienti con malattie epatiche.

Fonte originale

Titolo: Developing deep learning-based strategies to predict the risk of hepatocellular carcinoma among patients with nonalcoholic fatty liver disease from electronic health records

Estratto: BackgroundDeep learning models showed great success and potential when applied to many biomedical problems. However, the accuracy of deep learning models for many disease prediction problems is affected by time-varying covariates, rare incidence, and covariate imbalance when using structured electronic health records data. The situation is further exasperated when predicting the risk of one disease on condition of another disease, such as the hepatocellular carcinoma risk among patients with nonalcoholic fatty liver disease due to slow, chronic progression, the scarce of data with both disease conditions and the sex bias of the diseases. ObjectiveThe goal of this study is to investigate the extent to which time-varying covariates, rare incidence, and covariate imbalance influence deep learning performance, and then devised strategies to tackle these challenges. These strategies were applied to improve hepatocellular carcinoma risk prediction among patients with nonalcoholic fatty liver disease. MethodsWe evaluated two representative deep learning models in the task of predicting the occurrence of hepatocellular carcinoma in a cohort of patients with nonalcoholic fatty liver disease (n = 220,838) from a national EHR database. The disease prediction task was carefully formulated as a classification problem while taking censorship and the length of follow-up into consideration. ResultsWe developed a novel backward masking scheme to evaluate how the length of longitudinal information after the index date affects disease prediction. We observed that modeling time-varying covariates improved the performance of the algorithms and transfer learning mitigated reduced performance caused by the lack of data. In addition, covariate imbalance, such as sex bias in data impaired performance. Deep learning models trained on one sex and evaluated in the other sex showed reduced performance, indicating the importance of assessing covariate imbalance while preparing data for model training. ConclusionsDevising proper strategies to address challenges from time-varying covariates, lack of data, and covariate imbalance can be key to counteracting data bias and accurately predicting disease occurrence using deep learning models. The novel strategies developed in this work can significantly improve the performance of hepatocellular carcinoma risk prediction among patients with nonalcoholic fatty liver disease. Furthermore, our novel strategies can be generalized to apply to other disease risk predictions using structured electronic health records, especially for disease risks on condition of another disease.

Autori: Zhao Li, L. Lan, Y. Zhou, K. D. Chavin, H. Xu, D. J. Shih, W. J. Zheng

Ultimo aggiornamento: 2023-11-17 00:00:00

Lingua: English

URL di origine: https://www.medrxiv.org/content/10.1101/2023.11.17.23298691

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.11.17.23298691.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili