Analizzare i dati sulla salute per una migliore assistenza ai pazienti
La ricerca usa le cartelle cliniche elettroniche per migliorare le previsioni sui risultati di salute dei pazienti con più condizioni.
― 6 leggere min
Indice
- L'importanza delle EHR
- Panoramica dello studio
- Metodi di creazione delle rappresentazioni dei pazienti
- Analisi dettagliata delle prestazioni
- Previsione di vari risultati sanitari
- Punti di forza del nostro studio
- Limitazioni della nostra ricerca
- Implicazioni pratiche
- Direzioni future
- Conclusione
- Fonte originale
- Link di riferimento
Man mano che le persone invecchiano e gestiscono meglio problemi di salute a lungo termine, sempre più individui vivono con più condizioni croniche (MLTC). Questo significa che hanno due o più problemi di salute in corso contemporaneamente. Ignorare le connessioni tra queste condizioni può portare a effetti negativi sulla salute. I ricercatori stanno iniziando a concentrarsi su come questi problemi di salute interagiscono invece di considerarli solo singolarmente.
Per aiutare a studiare queste interazioni, i medici usano le Cartelle Cliniche Elettroniche (EHR), in particolare quelle della medicina generale. Questi registri tengono traccia della storia sanitaria di una persona, comprese le malattie che ha avuto nel tempo. I ricercatori stanno iniziando a utilizzare metodi informatici avanzati per analizzare questa grande quantità di dati sanitari. Tecniche di Elaborazione del linguaggio naturale (NLP), spesso usate per capire il testo, possono essere applicate anche ai dati delle EHR.
L'importanza delle EHR
Le EHR memorizzano informazioni dettagliate sulle malattie dei pazienti. Trattando la sequenza delle condizioni diagnosticate come simile alla sequenza delle parole in una frase, i ricercatori possono creare modelli che rappresentano i pazienti sulla base della loro storia sanitaria. Questi modelli possono poi essere utilizzati per prevedere risultati clinici, come quali pazienti potrebbero sviluppare nuovi problemi di salute.
Un obiettivo principale della ricerca in questo campo è creare una singola rappresentazione del paziente che funzioni bene per diversi risultati clinici. Ad esempio, se riusciamo a raggruppare efficacemente i pazienti in base alla loro storia di malattie, potrebbe essere possibile ridurre la complessità della previsione dei rischi per la salute.
Tuttavia, non ci sono stati molti studi che confrontano diversi modi di creare queste Rappresentazioni dei pazienti usando l'NLP. C'è anche incertezza sulle migliori strategie per utilizzare efficacemente i dati delle EHR.
Panoramica dello studio
Nella nostra ricerca, abbiamo confrontato diversi metodi per creare rappresentazioni dei pazienti utilizzando tecniche comuni di NLP come l'Allocazione di Dirichlet Latente (LDA), doc2vec e due approcci basati su modelli transformer. Abbiamo anche introdotto un nuovo modello chiamato EHR-BERT, che include informazioni demografiche. Abbiamo osservato come questi modelli si sono comportati nel prevedere vari risultati sanitari, come visite ospedaliere e nuove diagnosi.
Abbiamo lavorato con un ampio dataset di oltre sei milioni di pazienti registrati presso medici di base. I pazienti avevano due o più condizioni di salute a lungo termine. Questo dataset grande e diversificato ci ha dato una buona opportunità di analizzare i dati sulla salute nel tempo.
Metodi di creazione delle rappresentazioni dei pazienti
Per confrontare diversi metodi di creazione delle rappresentazioni delle malattie dei pazienti, abbiamo valutato diversi approcci. Ad esempio, con l'LDA, abbiamo determinato il miglior numero di argomenti per rappresentare i dati. Con il metodo doc2vec, abbiamo scoperto che un algoritmo specifico funzionava meglio nel riconoscere pazienti simili in base alla loro storia di malattie.
Abbiamo anche testato le prestazioni dei modelli transformer, che possono catturare relazioni più complesse nei dati. Mediando i dati delle parti più rilevanti dei modelli transformer, siamo riusciti a creare rappresentazioni dettagliate della storia medica di ogni paziente.
Analisi dettagliata delle prestazioni
Abbiamo testato le prestazioni di ciascun modello creato utilizzandoli per prevedere risultati sanitari rilevanti nel corso di un anno. Abbiamo confrontato i risultati dei diversi modelli con metodi più semplici che considerano se i pazienti avessero malattie specifiche.
I nostri risultati hanno mostrato che gli embeddings creati dal modello EHR-BERT si sono comportati meglio nel prevedere i risultati, mentre indicatori binari semplici hanno funzionato in modo adeguato per alcune previsioni, ma generalmente sono risultati meno efficaci dei metodi più complessi.
Previsione di vari risultati sanitari
La nostra valutazione ha incluso la previsione di eventi come mortalità dei pazienti, visite al pronto soccorso e ricoveri ospedalieri. Gli embeddings prodotti da EHR-BERT hanno superato altri modelli nella maggior parte dei casi, evidenziando l'efficacia dell'uso di rappresentazioni dettagliate dei pazienti.
Tuttavia, abbiamo notato che prevedere le visite al pronto soccorso era particolarmente difficile. Questa difficoltà potrebbe essere legata a fattori esterni che influenzano il comportamento dei pazienti, come quanto sono vicini a un ospedale e quanto facilmente possono accedere alle cure.
Prevedere nuove diagnosi si è rivelato difficile per tutti i modelli. Anche se i nostri modelli erano bravi a prevedere se i pazienti avrebbero avuto contatti con condizioni esistenti, erano meno efficaci nel prevedere nuove condizioni.
Punti di forza del nostro studio
Uno dei punti di forza della nostra ricerca è stata l'uso di un ampio dataset che rappresenta una vasta gamma di pazienti. Questo ha permesso un'analisi più completa dei modelli di malattia dei pazienti e di come si relazionano con i risultati sanitari. A differenza degli studi che utilizzano solo dati ospedalieri, il nostro approccio ha incorporato dati della medicina generale, fornendo un quadro completo della storia sanitaria di un paziente.
Confrontando vari metodi fianco a fianco, siamo stati in grado di identificare i punti di forza e di debolezza di ciascun approccio nella creazione delle rappresentazioni delle malattie. Questo confronto aiuta a chiarire quali metodi potrebbero funzionare meglio per specifiche applicazioni cliniche.
Limitazioni della nostra ricerca
Sebbene il nostro studio avesse punti di forza, ha anche affrontato limitazioni. Ad esempio, il modo in cui abbiamo selezionato le impostazioni ottimali per i nostri modelli potrebbe introdurre variazioni nelle prestazioni. Abbiamo dovuto fare affidamento su metriche esistenti per determinare le migliori configurazioni per alcuni algoritmi.
Inoltre, il focus sulla performance media sull'intera popolazione potrebbe nascondere differenze in come i modelli funzionano per diversi gruppi di pazienti. Futuri studi potrebbero esplorare come i fattori demografici, come etnia o stato socioeconomico, influenzino le prestazioni del modello.
Implicazioni pratiche
I risultati del nostro studio hanno implicazioni reali per la sanità. Per la modellazione predittiva, metodi più semplici, come l'uso di indicatori binari per le malattie, possono comunque dare risultati soddisfacenti. Tuttavia, metodi che utilizzano rappresentazioni più complesse delle malattie possono fornire intuizioni più profonde, specialmente quando si tiene conto delle informazioni sequenziali nella storia sanitaria di un paziente.
L'uso di modelli più avanzati come le architetture transformer potrebbe aiutare a migliorare significativamente la previsione dei risultati sanitari. Inoltre, i risultati suggeriscono che non c'è un grande vantaggio nell'utilizzare categorie più piccole di malattie quando vocabolari più ampi forniscono un livello simile di accuratezza predittiva.
Direzioni future
La nostra ricerca apre diverse strade per ulteriori esplorazioni. Ad esempio, migliorare gli algoritmi per potenziare le loro capacità predittive potrebbe essere un passo successivo prezioso. Aggiungere altri fattori alle rappresentazioni dei pazienti, come informazioni sulla salute comportamentale, potrebbe fornire anche migliori intuizioni sul comportamento dei pazienti.
Inoltre, indagare su come questi modelli si comportano in diverse impostazioni sanitarie e con popolazioni di pazienti variegate potrebbe portare a soluzioni più su misura.
Conclusione
Man mano che sempre più persone vivono con più condizioni di lungo termine, comprendere le loro interazioni sanitarie diventa cruciale. L'uso delle cartelle cliniche elettroniche e dei metodi NLP avanzati ha un grande potenziale per migliorare la cura dei pazienti. Continuando a perfezionare questi modelli ed esplorare le loro applicazioni, possiamo migliorare la nostra capacità di prevedere i risultati sanitari e soddisfare meglio le esigenze dei pazienti.
Titolo: Comparing natural language processing representations of disease sequences for prediction in the electronic healthcare record
Estratto: Natural language processing (NLP) is increasingly being applied to obtain unsupervised representations of electronic healthcare record (EHR) data, but their performance for the prediction of clinical endpoints remains unclear. Here we use primary care EHRs from 6,286,233 people with Multiple Long-Term Conditions in England to generate vector representations of sequences of disease development using two input strategies (212 disease categories versus 9,462 diagnostic codes) and different NLP algorithms (Latent Dirichlet Allocation, doc2vec and two transformer models designed for EHRs). We also develop a new transformer architecture, named EHR-BERT, which incorporates socio-demographic information. We then compare use of each of these representations to predict mortality, healthcare use and new disease diagnosis. We find that representations generated using disease categories perform similarly to those using diagnostic codes, suggesting models can equally manage smaller or larger vocabularies. Sequence-based algorithms perform consistently better than bag-of-words methods, with the highest performance for EHR-BERT.
Autori: Thomas Beaney, S. Jha, A. Alaa, A. Smith, J. Clarke, T. Woodcock, A. Majeed, P. Aylin, M. Barahona
Ultimo aggiornamento: 2023-11-17 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2023.11.16.23298640
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.11.16.23298640.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.