Améliorer la santé avec l'analyse des données EHR
Explorer l'impact de l'analyse des données EHR sur les soins aux patients.
― 9 min lire
Table des matières
- Avantages des données DSE
- Défis de l'analyse des données DSE
- Utilisation du Traitement du langage naturel
- La valeur des données combinées
- Création d'un graphe de connaissances
- Défis de la création de Graphes de connaissances
- Introduction à l'analyse des dossiers ARCH
- Validation du graphe de connaissances ARCH
- Applications des embeddings ARCH
- L'avenir de l'analyse des données DSE
- Conclusion
- Source originale
- Liens de référence
Les dossiers de santé électroniques (DSE) sont des versions numériques des dossiers papier des patients. Ils incluent l'historique médical d'un patient, ses diagnostics, ses plans de traitement, ses médicaments et ses résultats de tests. Les systèmes DSE sont devenus populaires dans le domaine de la santé car ils facilitent l'accès et le partage des informations sur les patients pour les médecins et autres professionnels de santé. Ça a ouvert de nouvelles manières de mener des études cliniques et des recherches qui peuvent améliorer les soins aux patients.
Avantages des données DSE
Les DSE capturent une large gamme d'informations sur un patient. Ces données peuvent être classées en données codifiées et non structurées. Les données codifiées incluent des éléments standardisés, comme des codes de diagnostic et des résultats de laboratoire, qui sont faciles à analyser. Les Données non structurées proviennent des notes écrites par les médecins ou les infirmières qui décrivent les patients de manière plus détaillée. Ces données sont plus difficiles à analyser directement car elles ne sont pas dans un format standard.
Quand les chercheurs combinent ces deux types de données, ils peuvent mieux comprendre la santé et l'historique médical d'un patient. Par exemple, les données codifiées peuvent indiquer qu'un patient a une maladie cardiaque, tandis que des notes non structurées pourraient révéler que le patient ressent aussi des symptômes comme de la fatigue ou des douleurs thoraciques. Ensemble, ces infos peuvent mener à des prédictions plus précises sur les risques pour la santé d'un patient.
Défis de l'analyse des données DSE
Un des principaux défis auxquels les chercheurs font face est de trouver des moyens de combiner les données codifiées et non structurées. Chaque type a son propre ensemble d'informations qui doit être intégré et représenté correctement pour l'analyse. De plus, les chercheurs veulent évaluer statistiquement comment différents facteurs de santé se rapportent les uns aux autres, ce qui peut devenir compliqué quand on traite des centaines de milliers de données uniques.
Un autre défi c'est que beaucoup de détails pertinents sur la santé d'un patient se trouvent souvent uniquement dans des notes non structurées. Par exemple, quand les médecins rapportent des effets indésirables des médicaments, beaucoup de ces infos peuvent ne pas être codées formellement dans le système DSE. En fait, des études montrent que plus de 90 % des événements indésirables à des médicaments ne figurent pas dans les données codifiées.
Importance des données non structurées
Les données non structurées sont cruciales pour plusieurs raisons. Elles peuvent fournir des informations sur les effets secondaires des médicaments qui pourraient ne pas être capturés par les systèmes de codage standard. Par exemple, en surveillant les infections contractées dans les milieux de soins de santé, les notes non structurées révèlent plus sur l'expérience d'un patient que les entrées codées. Donc, se fier uniquement aux données codifiées pourrait mener à des lacunes significatives dans la compréhension de la santé des patients.
Utilisation du Traitement du langage naturel
Pour s'attaquer au problème des données non structurées, les chercheurs se tournent souvent vers le traitement du langage naturel (TLP). Le TLP est une technologie qui permet aux ordinateurs de comprendre le langage humain. En appliquant des techniques de TLP aux notes cliniques, les chercheurs peuvent extraire des informations utiles sur les maladies, les traitements et les caractéristiques des patients. Cela améliore le processus de recherche en fournissant un contexte supplémentaire qui ne serait pas disponible uniquement à partir des données structurées.
La valeur des données combinées
De nombreuses études ont montré que l'utilisation des deux types de données-codifiées et non structurées-améliore la performance des modèles prédictifs utilisés dans le domaine de la santé. Par exemple, quand il s'agit de prédire des conditions comme l'obésité infantile ou l'insuffisance cardiaque, combiner des données provenant de notes cliniques et de codes standardisés mène à de meilleurs résultats.
De plus, cette combinaison est essentielle pour identifier les conditions associées au vieillissement, où les codes de diagnostic traditionnels peuvent ne pas capturer entièrement la vaste gamme de symptômes qu'un patient âgé pourrait rencontrer. Utiliser des données non structurées permet aux chercheurs de détecter des schémas de conditions comme les difficultés à marcher ou la perte de poids soudaine qui sont souvent ratées en ne regardant que les informations codifiées.
Création d'un graphe de connaissances
Pour mieux comprendre les relations entre les codes médicaux et les termes cliniques, les chercheurs développent ce qu'on appelle un graphe de connaissances. Un graphe de connaissances est une représentation structurée du savoir qui montre comment différentes pièces d'information se rapportent les unes aux autres. En créant un graphe de connaissances clinique à grande échelle, les chercheurs peuvent obtenir des aperçus sur les connexions entre divers concepts de santé.
Ce graphe peut être construit en utilisant des embeddings, qui sont des représentations mathématiques des concepts médicaux dans un espace de dimension inférieure. En analysant comment ces concepts se rapportent les uns aux autres, les chercheurs peuvent améliorer l'efficacité dans diverses tâches, comme trouver des informations pertinentes ou prédire des risques pour la santé.
Défis de la création de Graphes de connaissances
Bien que créer des graphes de connaissances puisse être bénéfique, ce n'est pas sans défis. La quantité de données dans les systèmes DSE-combinée à la complexité des relations entre les concepts-rend souvent difficile la formation de graphes précis. Les méthodes existantes s'appuient généralement sur des associations connues, ce qui signifie qu'elles ont besoin de beaucoup de données pour fonctionner efficacement. Quand seules des données limitées sont disponibles, ces méthodes peuvent ne pas capturer avec précision l'ensemble des relations.
Introduction à l'analyse des dossiers ARCH
Pour relever ces défis, les chercheurs ont proposé une nouvelle méthode appelée analyse des dossiers de santé codifiée par récits agrégés (ARCH). Cette méthode offre une approche statistique pour créer des graphes de connaissances tout en fournissant également des mesures d'incertitude sur les relations capturées dans le graphe. L'objectif de l'ARCH est de combiner les concepts DSE dans un cadre cohérent qui aide à la recherche et à la modélisation prédictive.
La méthode ARCH fonctionne d'abord en comptant à quelle fréquence différents concepts se produisent ensemble dans les DSE. Ces comptes de cooccurrence aident à déterminer la force de leur relation. Les chercheurs peuvent ensuite utiliser ces comptes pour construire des embeddings de faible dimension pour chaque concept, capturant les informations essentielles tout en réduisant la complexité.
Validation du graphe de connaissances ARCH
Une fois le graphe de connaissances ARCH généré, les chercheurs valident son efficacité à travers diverses tâches. Par exemple, ils vérifient comment bien le graphe peut identifier des relations connues entre des termes médicaux ou prédire des effets secondaires des médicaments. Ils testent également le graphe dans le phénotypage des maladies, qui consiste à catégoriser les patients en fonction de leurs conditions de santé.
La méthode ARCH a montré qu'elle surpasse les techniques d'embedding existantes, rendant plus facile la détection de relations complexes que les méthodes traditionnelles pourraient manquer. Elle permet aussi aux chercheurs de capturer efficacement des informations provenant à la fois des sources de données codifiées et non structurées.
Applications des embeddings ARCH
Les embeddings ARCH ont de nombreuses applications dans le domaine de la santé et de la recherche biomédicale. Ils peuvent améliorer le profilage des patients, renforcer la détection de relations importantes et fournir des informations sur les réactions indésirables aux médicaments. En utilisant les deux types de données DSE, les chercheurs peuvent obtenir une vision plus claire de la santé des patients.
Par exemple, appliqués à la recherche sur la maladie d'Alzheimer, les embeddings ARCH peuvent aider à grouper les patients en fonction de leurs caractéristiques de santé et à suivre la progression de la maladie. Cela permet aux prestataires de soins de mieux comprendre les besoins des patients et potentiellement d'adapter les interventions plus efficacement.
L'avenir de l'analyse des données DSE
En regardant vers l'avenir, l'intégration des données DSE en utilisant des méthodes comme ARCH tient beaucoup de promesses pour faire avancer la recherche en santé. En combinant et en analysant différents types de données, les chercheurs peuvent identifier à la fois des tendances de santé connues et émergentes. Ils peuvent aussi améliorer la manière dont les soins de santé sont délivrés en utilisant les informations recueillies à partir d'analyses à grande échelle.
Cependant, des défis existent encore, notamment en ce qui concerne la standardisation des données à travers différents systèmes de santé. À mesure que les institutions s'efforcent d'aligner leurs systèmes de codage, il y a un potentiel pour des études plus coordonnées tirant parti de données partagées.
De plus, les efforts futurs pourraient également bénéficier de l'incorporation d'informations descriptives sur les concepts DSE, exploitant la richesse des données linguistiques. En combinant à la fois les modèles d'occurrence et les descriptions, les chercheurs peuvent créer des modèles encore plus complets qui enrichissent notre compréhension de la santé et de la maladie.
Conclusion
En conclusion, l'évolution des systèmes DSE et les méthodes développées pour les analyser ouvrent la voie à une meilleure recherche en santé et des soins aux patients améliorés. À mesure que des techniques comme ARCH deviennent plus répandues, elles offrent le potentiel de débloquer des aperçus précieux des vastes quantités de données contenues dans les DSE. En comblant le fossé entre les données codifiées et non structurées, nous pouvons nous rapprocher d'une compréhension plus complète de la santé des patients et, en fin de compte, améliorer les résultats dans le système de santé.
Titre: ARCH: Large-scale Knowledge Graph via Aggregated Narrative Codified Health Records Analysis
Résumé: ObjectiveElectronic health record (EHR) systems contain a wealth of clinical data stored as both codified data and free-text narrative notes, covering hundreds of thousands of clinical concepts available for research and clinical care. The complex, massive, heterogeneous, and noisy nature of EHR data imposes significant challenges for feature representation, information extraction, and uncertainty quantification. To address these challenges, we proposed an efficient Aggregated naRrative Codified Health (ARCH) records analysis to generate a large-scale knowledge graph (KG) for a comprehensive set of EHR codified and narrative features. MethodsThe ARCH algorithm first derives embedding vectors from a co-occurrence matrix of all EHR concepts and then generates cosine similarities along with associated p-values to measure the strength of relatedness between clinical features with statistical certainty quantification. In the final step, ARCH performs a sparse embedding regression to remove indirect linkage between entity pairs. We validated the clinical utility of the ARCH knowledge graph, generated from 12.5 million patients in the Veterans Affairs (VA) healthcare system, through downstream tasks including detecting known relationships between entity pairs, predicting drug side effects, disease phenotyping, as well as sub-typing Alzheimers disease patients. ResultsARCH produces high-quality clinical embeddings and KG for over 60, 000 EHR concepts, as visualized in the R-shiny powered web-API (https://celehs.hms.harvard.edu/ARCH/). The ARCH embeddings attained an average area under the ROC curve (AUC) of 0.926 and 0.861 for detecting pairs of similar EHR concepts when the concepts are mapped to codified data and to NLP data; and 0.810 (codified) and 0.843 (NLP) for detecting related pairs. Based on the p-values computed by ARCH, the sensitivity of detecting similar and related entity pairs are 0.906 and 0.888 under false discovery rate (FDR) control of 5%. For detecting drug side effects, the cosine similarity based on the ARCH semantic representations achieved an AUC of 0.723 while the AUC improved to 0.826 after few-shot training via minimizing the loss function on the training data set. Incorporating NLP data substantially improved the ability to detect side effects in the EHR. For example, based on unsupervised ARCH embeddings, the power of detecting drug-side effects pairs when using codified data only was 0.15, much lower than the power of 0.51 when using both codified and NLP concepts. Compared to existing large-scale representation learning methods including PubmedBERT, BioBERT and SAPBERT, ARCH attains the most robust performance and substantially higher accuracy in detecting these relationships. Incorporating ARCH selected features in weakly supervised phenotyping algorithms can improve the robustness of algorithm performance, especially for diseases that benefit from NLP features as supporting evidence. For example, the phenotyping algorithm for depression attained an AUC of 0.927 when using ARCH selected features but only 0.857 when using codified features selected via the KESER network[1]. In addition, embeddings and knowledge graphs generated from the ARCH network were able to cluster AD patients into two subgroups, where the fast progression subgroup had a much higher mortality rate. ConclusionsThe proposed ARCH algorithm generates large-scale high-quality semantic representations and knowledge graph for both codified and NLP EHR features, useful for a wide range of predictive modeling tasks.
Auteurs: Junwei Lu, Z. Gan, D. Zhou, E. Rush, V. A. Panickan, Y.-L. Ho, G. Ostrouchov, Z. Xu, S. Shen, X. Xiong, K. F. Greco, C. Hong, C.-L. Bonzel, J. Wen, L. Costa, T. Cai, E. Begoli, Z. Xia, J. M. Gaziano, K. Liao, K. Cho
Dernière mise à jour: 2023-05-21 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2023.05.14.23289955
Source PDF: https://www.medrxiv.org/content/10.1101/2023.05.14.23289955.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.