Simple Science

Scienza all'avanguardia spiegata semplicemente

# Scienze della salute# Informatica sanitaria

Migliorare la sanità con l'analisi dei dati EHR

Esplorando l'impatto dell'analisi dei dati EHR sulla cura dei pazienti.

― 7 leggere min


Analisi dei dati EHRAnalisi dei dati EHRnella sanitàtecniche di dati avanzate.Migliorare la cura dei pazienti con
Indice

I registri sanitari elettronici (EHR) sono versioni digitali delle cartelle cliniche cartacee dei pazienti. Contengono la storia medica di un paziente, diagnosi, piani di trattamento, farmaci e risultati di esami. I sistemi EHR sono diventati popolari nella sanità perché facilitano l'accesso e la condivisione delle informazioni sui pazienti tra dottori e altri operatori sanitari. Questo ha aperto nuove strade per condurre studi clinici e ricerche che possono migliorare l'assistenza ai pazienti.

Vantaggi dei Dati EHR

Gli EHR catturano una vasta gamma di informazioni su un paziente. Questi dati possono essere classificati come codificati e non strutturati. I dati codificati includono elementi standardizzati, come codici diagnostici e risultati di laboratorio, che sono facili da analizzare. I Dati non strutturati provengono da appunti scritti da medici o infermieri che descrivono i pazienti in modo più dettagliato. Questi dati sono più difficili da analizzare direttamente perché non sono in un formato standard.

Quando i ricercatori combinano entrambi i tipi di dati, possono avere una migliore comprensione della salute e della storia medica di un paziente. Ad esempio, i dati codificati possono indicare che un paziente ha una malattia cardiaca, mentre le note non strutturate potrebbero rivelare che il paziente presenta anche sintomi come affaticamento o dolore al petto. Insieme, queste intuizioni possono portare a previsioni più accurate sui rischi per la salute di un paziente.

Sfide nell'Analisi dei Dati EHR

Una delle principali sfide che i ricercatori affrontano è trovare modi per combinare dati codificati e non strutturati. Ogni tipo ha il proprio set di informazioni che deve essere integrato e rappresentato correttamente per l'analisi. Inoltre, i ricercatori vogliono valutare statisticamente come diversi fattori di salute si relazionano tra loro, il che può diventare complicato quando si tratta di centinaia di migliaia di pezzi unici di informazione.

Un'altra sfida è che molti dettagli rilevanti sulla salute di un paziente si trovano spesso solo nelle note non strutturate. Ad esempio, quando i medici riportano effetti collaterali dei farmaci, molte di queste informazioni potrebbero non essere codificate formalmente nel sistema EHR. Infatti, studi mostrano che oltre il 90% degli eventi avversi da farmaci non è elencato nei dati codificati.

Importanza dei Dati Non Strutturati

I dati non strutturati sono cruciali per diversi motivi. Possono fornire informazioni sugli effetti collaterali dei farmaci che potrebbero non essere catturati attraverso sistemi di codifica standard. Ad esempio, quando si monitorano infezioni acquisite in contesti sanitari, le note non strutturate rivelano di più sull'esperienza di un paziente rispetto agli ingressi codificati. Quindi, basarsi solo sui dati codificati potrebbe portare a significativi vuoti nella comprensione della salute del paziente.

Uso del Natural Language Processing

Per affrontare il problema dei dati non strutturati, i ricercatori spesso si rivolgono al Natural Language Processing (NLP). L'NLP è una tecnologia che consente ai computer di comprendere il linguaggio umano. Applicando tecniche di NLP alle note cliniche, i ricercatori possono estrarre informazioni utili su malattie, trattamenti e caratteristiche dei pazienti. Questo migliora il processo di ricerca fornendo un contesto aggiuntivo che non sarebbe disponibile solo con i dati strutturati.

Il Valore dei Dati Combinati

Molti studi hanno dimostrato che utilizzare entrambi i tipi di dati-codificati e non strutturati-migliora le performance dei modelli predittivi utilizzati nella sanità. Ad esempio, quando si predicono condizioni come l'obesità infantile o l'insufficienza cardiaca, combinare dati da note cliniche e codici standardizzati porta a risultati migliori.

Inoltre, questa combinazione è essenziale per identificare condizioni associate all'invecchiamento, dove i codici diagnostici tradizionali potrebbero non catturare appieno la vasta gamma di sintomi che un paziente anziano potrebbe sperimentare. Usare dati non strutturati permette ai ricercatori di rilevare schemi in condizioni come difficoltà a camminare o perdita di peso improvvisa che spesso vengono ignorati guardando solo le informazioni codificate.

Creazione di un Knowledge Graph

Per comprendere meglio le relazioni tra codici medici e termini clinici, i ricercatori stanno sviluppando qualcosa chiamato knowledge graph. Un knowledge graph è una rappresentazione strutturata della conoscenza che mostra come diversi pezzi di informazione si relazionano tra loro. Creando un knowledge graph clinico su larga scala, i ricercatori possono ottenere intuizioni sulle connessioni tra diversi concetti di salute.

Questo grafo può essere costruito utilizzando embedding, che sono rappresentazioni matematiche di concetti medici in uno spazio di dimensione inferiore. Analizzando come questi concetti si relazionano tra loro, i ricercatori possono migliorare l'efficienza in vari compiti, come trovare informazioni rilevanti o prevedere rischi per la salute.

Sfide nella Costruzione dei Knowledge Graphs

Sebbene creare knowledge graph possa essere utile, non è privo di sfide. La gigantesca quantità di dati nei sistemi EHR-unita alla complessità delle relazioni tra concetti-rende spesso difficile formare grafi accurati. I metodi esistenti di solito si basano su associazioni note, il che significa che hanno bisogno di molti dati per funzionare in modo efficace. Quando sono disponibili solo dati limitati, questi metodi potrebbero non catturare accuratamente l'intera gamma di relazioni.

Introduzione all'Analisi degli ARCH Records

Per affrontare queste sfide, i ricercatori hanno proposto un nuovo metodo chiamato analisi dei registri Aggregated naRrative Codified Health (ARCH). Questo metodo offre un approccio statistico per creare knowledge graph fornendo anche misure di incertezza sulle relazioni catturate nel grafo. L'obiettivo dell'ARCH è combinare i concetti EHR in un framework coeso che aiuti la ricerca e la modellazione predittiva.

Il metodo ARCH funziona contando prima quanto spesso i diversi concetti si verificano insieme negli EHR. Questi conteggi di co-occorrenza aiutano a determinare la forza della loro relazione. I ricercatori possono quindi utilizzare questi conteggi per costruire embedding a bassa dimensione per ogni concetto, catturando le informazioni essenziali mentre riducono la complessità.

Validazione del Knowledge Graph ARCH

Una volta generato il knowledge graph ARCH, i ricercatori ne validano l'efficacia attraverso vari compiti. Ad esempio, controllano quanto bene il grafo può identificare relazioni note tra termini medici o prevedere effetti collaterali dei farmaci. Testano anche il grafo nella fenotipizzazione delle malattie, che comporta la categorizzazione dei pazienti in base alle loro condizioni di salute.

Il metodo ARCH ha dimostrato di superare le tecniche di embedding esistenti, rendendo più facile rilevare relazioni complesse che i metodi tradizionali potrebbero perdere. Permette anche ai ricercatori di catturare efficacemente informazioni sia da fonti di dati codificati che non strutturati.

Applicazioni degli Embedding ARCH

Gli embedding ARCH hanno numerose applicazioni nella sanità e nella ricerca biomedica. Possono migliorare il profiling dei pazienti, potenziare la rilevazione di relazioni importanti e fornire intuizioni sugli effetti avversi dei farmaci. Utilizzando entrambi i tipi di dati degli EHR, i ricercatori possono avere un quadro più chiaro della salute del paziente.

Ad esempio, quando applicati alla ricerca sulla malattia di Alzheimer, gli embedding ARCH possono aiutare a raggruppare i pazienti in base alle loro caratteristiche di salute e monitorare la progressione della malattia. Questo consente agli operatori sanitari di comprendere meglio le esigenze dei pazienti e di personalizzare potenzialmente le interventi in modo più efficace.

Il Futuro dell'Analisi dei Dati EHR

Guardando al futuro, l'integrazione dei dati EHR utilizzando metodi come l'ARCH ha un grande potenziale per far avanzare la ricerca sanitaria. Combinando e analizzando diversi tipi di dati, i ricercatori possono identificare tendenze di salute sia conosciute che emergenti. Possono anche migliorare il modo in cui l'assistenza sanitaria viene fornita utilizzando intuizioni raccolte da analisi su larga scala.

Tuttavia, ci sono ancora sfide, soprattutto in termini di standardizzazione dei dati tra i diversi sistemi sanitari. Man mano che le istituzioni lavorano per allineare i loro sistemi di codifica, c'è potenziale per studi più coordinati che sfruttano dati condivisi.

Inoltre, gli sforzi futuri potrebbero anche beneficiare dell'incorporazione di informazioni descrittive sui concetti EHR, sfruttando la ricchezza dei dati linguistici. Combinando modelli di occorrenza e descrizioni, i ricercatori possono creare modelli ancora più completi che migliorano la nostra comprensione della salute e della malattia.

Conclusione

In conclusione, l'evoluzione dei sistemi EHR e i metodi sviluppati per analizzarli spianano la strada a una ricerca sanitaria e assistenza ai pazienti migliorate. Man mano che tecniche come l'ARCH diventano più diffuse, offrono la possibilità di sbloccare intuizioni preziose dai vasti quantitativi di dati contenuti negli EHR. Colmando il divario tra dati codificati e non strutturati, possiamo avvicinarci a una comprensione più completa della salute del paziente e, alla fine, migliorare i risultati nel sistema sanitario.

Fonte originale

Titolo: ARCH: Large-scale Knowledge Graph via Aggregated Narrative Codified Health Records Analysis

Estratto: ObjectiveElectronic health record (EHR) systems contain a wealth of clinical data stored as both codified data and free-text narrative notes, covering hundreds of thousands of clinical concepts available for research and clinical care. The complex, massive, heterogeneous, and noisy nature of EHR data imposes significant challenges for feature representation, information extraction, and uncertainty quantification. To address these challenges, we proposed an efficient Aggregated naRrative Codified Health (ARCH) records analysis to generate a large-scale knowledge graph (KG) for a comprehensive set of EHR codified and narrative features. MethodsThe ARCH algorithm first derives embedding vectors from a co-occurrence matrix of all EHR concepts and then generates cosine similarities along with associated p-values to measure the strength of relatedness between clinical features with statistical certainty quantification. In the final step, ARCH performs a sparse embedding regression to remove indirect linkage between entity pairs. We validated the clinical utility of the ARCH knowledge graph, generated from 12.5 million patients in the Veterans Affairs (VA) healthcare system, through downstream tasks including detecting known relationships between entity pairs, predicting drug side effects, disease phenotyping, as well as sub-typing Alzheimers disease patients. ResultsARCH produces high-quality clinical embeddings and KG for over 60, 000 EHR concepts, as visualized in the R-shiny powered web-API (https://celehs.hms.harvard.edu/ARCH/). The ARCH embeddings attained an average area under the ROC curve (AUC) of 0.926 and 0.861 for detecting pairs of similar EHR concepts when the concepts are mapped to codified data and to NLP data; and 0.810 (codified) and 0.843 (NLP) for detecting related pairs. Based on the p-values computed by ARCH, the sensitivity of detecting similar and related entity pairs are 0.906 and 0.888 under false discovery rate (FDR) control of 5%. For detecting drug side effects, the cosine similarity based on the ARCH semantic representations achieved an AUC of 0.723 while the AUC improved to 0.826 after few-shot training via minimizing the loss function on the training data set. Incorporating NLP data substantially improved the ability to detect side effects in the EHR. For example, based on unsupervised ARCH embeddings, the power of detecting drug-side effects pairs when using codified data only was 0.15, much lower than the power of 0.51 when using both codified and NLP concepts. Compared to existing large-scale representation learning methods including PubmedBERT, BioBERT and SAPBERT, ARCH attains the most robust performance and substantially higher accuracy in detecting these relationships. Incorporating ARCH selected features in weakly supervised phenotyping algorithms can improve the robustness of algorithm performance, especially for diseases that benefit from NLP features as supporting evidence. For example, the phenotyping algorithm for depression attained an AUC of 0.927 when using ARCH selected features but only 0.857 when using codified features selected via the KESER network[1]. In addition, embeddings and knowledge graphs generated from the ARCH network were able to cluster AD patients into two subgroups, where the fast progression subgroup had a much higher mortality rate. ConclusionsThe proposed ARCH algorithm generates large-scale high-quality semantic representations and knowledge graph for both codified and NLP EHR features, useful for a wide range of predictive modeling tasks.

Autori: Junwei Lu, Z. Gan, D. Zhou, E. Rush, V. A. Panickan, Y.-L. Ho, G. Ostrouchov, Z. Xu, S. Shen, X. Xiong, K. F. Greco, C. Hong, C.-L. Bonzel, J. Wen, L. Costa, T. Cai, E. Begoli, Z. Xia, J. M. Gaziano, K. Liao, K. Cho

Ultimo aggiornamento: 2023-05-21 00:00:00

Lingua: English

URL di origine: https://www.medrxiv.org/content/10.1101/2023.05.14.23289955

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.05.14.23289955.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili