Migliorare la previsione del rischio di cancro con i dati EHR
Un nuovo metodo sfrutta le cartelle cliniche elettroniche per prevedere meglio il rischio di cancro nei pazienti.
― 6 leggere min
Indice
- Contesto
- Metodo
- Raccolta Dati
- Formulazione del Problema
- Metodo di Base
- Metodo Proposto
- Risultati del Metodo Proposto
- Confronto con la Baseline
- Baseline per Età
- Importanza delle Caratteristiche
- Implicazioni Cliniche
- Prioritizzazione dei Pazienti
- Miglioramento dei Protocolli di Screening
- Efficienza dei Costi
- Direzioni Future di Ricerca
- Conclusione
- Fonte originale
- Link di riferimento
Il Cancro è una delle principali cause di morte nel mondo. Negli ultimi anni, sempre più persone vengono diagnosticate con questa malattia, in parte grazie a un'aspettativa di vita più lunga e ai miglioramenti nei test medici. La rilevazione precoce è fondamentale per un trattamento efficace, ma spesso il cancro si sviluppa senza sintomi evidenti per molto tempo. I metodi di Screening attuali, come i test e le immagini, possono essere costosi e scomodi, rendendoli difficili da implementare su larga scala. Sono stati proposti vari metodi di intelligenza artificiale per valutare il rischio di cancro, ma spesso richiedono dati medici approfonditi che non sono sempre disponibili.
Questo studio si concentra sull'uso delle Cartelle Cliniche Elettroniche (EHR) come fonte di dati. Sfruttando le EHR, vogliamo creare un metodo per prevedere il rischio di cancro che sia più pratico e applicabile in diversi contesti sanitari. L'obiettivo è valutare il rischio dei pazienti basandoci esclusivamente sui documenti medici esistenti senza necessità di nuovi test estesi.
Contesto
I metodi di rilevazione del cancro oggi spesso si basano su test specializzati che sono costosi e richiedono tempo. La spinta verso alternative economiche e scalabili ci porta a esplorare le tecnologie di intelligenza artificiale che possono lavorare con i dati già presenti nelle EHR. Questi registri contengono informazioni mediche sui pazienti, che possono aiutare a valutare i loro livelli di rischio per varie malattie, incluso il cancro.
La barriera più significativa è la mancanza di standardizzazione nelle cartelle mediche tra le cliniche, il che può influenzare la qualità dei dati utilizzati. Diverse strutture possono avere gradi variabili di completezza dei dati, rendendo difficile implementare modelli predittivi in modo universale. Un metodo che sia adattabile e utilizzi punti di dati semplici può estendere la sua usabilità in molti fornitori di assistenza sanitaria.
Metodo
Raccolta Dati
Lo studio utilizza dati EHR ottenuti da una grande clinica regionale, coprendo un gruppo diversificato di pazienti. I registri includono informazioni su eventi medici, trattamenti e diagnosi codificate secondo il sistema ICD-10. Questo è un sistema di classificazione standardizzato usato a livello mondiale, che consente una gestione e un confronto più facili dei dati medici.
Abbiamo un dataset che contiene oltre 175.000 registri di pazienti anonimizzati, con circa 2.800 diagnosticati con cancro. I dati offrono informazioni utili sulle storie mediche dei diversi pazienti e sui loro esiti.
Formulazione del Problema
La ricerca si concentra su se possiamo prevedere con precisione quali pazienti potrebbero sviluppare il cancro in futuro. Questo è inquadrato come un problema di classificazione binaria, dove ogni paziente viene categorizzato come "sano" o "malato". Vogliamo valutare il loro rischio basandoci sugli eventi nella loro storia medica registrata nelle EHR.
Metodo di Base
Come baseline, usiamo un modello di rete neurale ricorrente (RNN) con un modello di linguaggio basato su BERT per elaborare i dati. Questo modello analizza sequenze di eventi medici, trasformandoli in embedding che catturano informazioni critiche sulla salute del paziente nel tempo.
Metodo Proposto
Mentre la baseline si basa su modelli complessi, il nostro metodo proposto combina l'Apprendimento Automatico con l'Analisi della sopravvivenza, rendendolo meno intensivo dal punto di vista computazionale e più facile da riprodurre in diversi ambienti sanitari. In sostanza, utilizziamo metodi più semplici ma efficaci che possono essere adattati per adattarsi all'ambiente specifico di qualsiasi istituzione medica.
Iniziamo addestrando modelli di sopravvivenza, come gli stimatori di Kaplan-Meier, che ci aiutano a capire il tempo fino a quando si verifica un evento-come una diagnosi di cancro. Seguiamo questo passaggio con l'ingegneria delle caratteristiche, dove deriviamo caratteristiche utili da questi modelli che possono essere immesse negli algoritmi di apprendimento automatico.
Risultati del Metodo Proposto
Confronto con la Baseline
Il nostro metodo Survival Ensemble è stato testato contro il modello RNN che abbiamo usato come baseline. I risultati hanno mostrato un chiaro vantaggio per il nostro metodo proposto su diverse metriche. Ad esempio, la metrica di Precisione Media è migliorata notevolmente con il modello Survival Ensemble, indicando una migliore capacità di identificare i veri casi di cancro tra i pazienti.
Nei nostri studi retrospettivi, abbiamo anche notato che il nostro metodo ha fornito un tasso più alto di rilevamento del cancro nei pazienti. Questo suggerisce che l'uso di modelli più semplici e interpretabili può portare a risultati efficaci senza la necessità di risorse computazionali estese.
Baseline per Età
Oltre a confrontare il nostro metodo con il modello di baseline, abbiamo esaminato ulteriormente l'efficacia del Survival Ensemble attraverso vari gruppi di età. Poiché l'età è un fattore critico per il rischio di cancro, abbiamo valutato quanto bene il nostro metodo ha performato rispetto a una baseline semplice che monitorava i tassi di cancro attesi all'interno di diverse fasce di età.
Il metodo proposto ha costantemente superato queste baseline per età, confermando la sua utilità nel prevedere quali pazienti potrebbero aver bisogno di ulteriori valutazioni.
Importanza delle Caratteristiche
Capire quali caratteristiche hanno contribuito di più al nostro modello è fondamentale. I principali predittori includevano età, sesso e numero di servizi medici ricevuti. Queste intuizioni si allineano bene con le conoscenze mediche note, convalidando l'affidabilità del nostro metodo.
Implicazioni Cliniche
Prioritizzazione dei Pazienti
Uno dei risultati pratici di questa ricerca è il suo potenziale di assistere i fornitori di assistenza sanitaria a prioritizzare meglio i pazienti per gli screening. Identificando efficacemente gli individui ad alto rischio, i sistemi sanitari possono allocare le risorse in modo più efficiente, assicurandosi che coloro che hanno maggiori probabilità di trarre vantaggio dallo screening vengano valutati per primi.
Miglioramento dei Protocolli di Screening
Il metodo può anche affinare i protocolli di screening per il cancro esistenti. Invece di un approccio unico per tutti, i pazienti potrebbero essere classificati in base al rischio, assicurando che gli individui ad alta priorità vengano trattati prontamente. Questa prioritizzazione può risparmiare tempo e risorse, migliorando potenzialmente i risultati complessivi per i pazienti.
Efficienza dei Costi
Utilizzando i dati EHR già disponibili, il carico finanziario sui sistemi sanitari può essere ridotto notevolmente. L'adattabilità del metodo rende più facile per le cliniche con vari tipi e completezza di dati implementarlo, creando un panorama sanitario più equo.
Direzioni Future di Ricerca
Sebbene i risultati attuali siano promettenti, ulteriori progressi potrebbero aumentare la potenza predittiva del metodo. Alcuni ambiti per future esplorazioni includono l'integrazione di dataset più diversificati, il perfezionamento dei modelli algoritmici e la facilitazione dei processi di addestramento end-to-end.
Il percorso verso il perfezionamento dei metodi di rilevazione del cancro attraverso le EHR è in corso, con il potenziale affinché l'IA rimodelli il modo in cui i clinici affrontano la valutazione del rischio e la cura dei pazienti.
Conclusione
In sintesi, il nostro lavoro dimostra che utilizzare una combinazione di tecniche di apprendimento automatico e analisi della sopravvivenza con i dati EHR può migliorare significativamente la previsione del rischio di cancro. I risultati suggeriscono che ci sono implicazioni pratiche per migliorare la rilevazione precoce, ottimizzare la gestione dei pazienti e utilizzare le risorse sanitarie in modo più efficace.
Concentrandoci su dati accessibili e modelli semplici, poniamo le basi per un sistema sanitario più efficace in grado di adattarsi alle esigenze di diverse cliniche e pazienti. Questo approccio innovativo mira a migliorare la rilevazione precoce del cancro e, in ultima analisi, i risultati per i pazienti in vari contesti sanitari.
Titolo: Can-SAVE: Mass Cancer Risk Prediction via Survival Analysis Variables and EHR
Estratto: Specific medical cancer screening methods are often costly, time-consuming, and weakly applicable on a large scale. Advanced Artificial Intelligence (AI) methods greatly help cancer detection but require specific or deep medical data. These aspects prevent the mass implementation of cancer screening methods. For this reason, it is a disruptive change for healthcare to apply AI methods for mass personalized assessment of the cancer risk among patients based on the existing Electronic Health Records (EHR) volume. This paper presents a novel Can-SAVE cancer risk assessment method combining a survival analysis approach with a gradient-boosting algorithm. It is highly accessible and resource-efficient, utilizing only a sequence of high-level medical events. We tested the proposed method in a long-term retrospective experiment covering more than 1.1 million people and four regions of Russia. The Can-SAVE method significantly exceeds the baselines by the Average Precision metric of 22.8%$\pm$2.7% vs 15.1%$\pm$2.6%. The extensive ablation study also confirmed the proposed method's dominant performance. The experiment supervised by oncologists shows a reliable cancer patient detection rate of up to 84 out of 1000 selected. Such results surpass the medical screening strategies estimates; the typical age-specific Number Needed to Screen is only 9 out of 1000 (for colorectal cancer). Overall, our experiments show a 4.7-6.4 times improvement in cancer detection rate (TOP@1k) compared to the traditional healthcare risk estimation approach.
Autori: Petr Philonenko, Vladimir Kokh, Pavel Blinov
Ultimo aggiornamento: 2024-09-27 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.15039
Fonte PDF: https://arxiv.org/pdf/2309.15039
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/lppl.txt
- https://doi.org/10.3322/caac.21660
- https://doi.org/10.3322/caac.21708
- https://doi.org/10.3322/caac.21632
- https://doi.org/10.7554/eLife.73380
- https://doi.org/10.1186/s12916-020-01826-0
- https://doi.org/10.1038/sj.bjc.6601118
- https://doi.org/10.1002/9781118558072.fmatter
- https://www.jstor.org/stable/2241756
- https://www.jstor.org/stable/2958919
- https://doi.org/10.3310/hta7270