Données manquantes dans les DSE : enseignements tirés du COVID-19
Une étude montre des liens entre les données de laboratoire manquantes et les résultats pour les patients pendant la pandémie.
― 10 min lire
Table des matières
Les dossiers de santé électroniques (DSE) sont des versions numériques des charts papeterie des patients. Ils ont surtout été utilisés dans les hôpitaux pour la facturation et la gestion des opérations de santé. Mais récemment, les données des DSE commencent à être utilisées pour mieux comprendre les résultats des patients, suivre les maladies et vérifier l’efficacité des traitements. Pendant la pandémie de COVID-19, les chercheurs ont utilisé les DSE pour étudier le nouveau Coronavirus, aussi connu sous le nom de SARS-CoV-2.
Malgré leur utilité, analyser les DSE n’est pas toujours facile. Ces dossiers nécessitent souvent beaucoup de préparation pour produire un dataset propre qui montre clairement la santé d’un patient. Par exemple, les DSE peuvent avoir des formats différents, conduire à des biais dans la manière dont les données sont collectées, et peuvent comporter des erreurs de diagnostic. Il y a aussi un souci avec la compatibilité entre les systèmes DSE. En plus, certaines régions ou hôpitaux n’ont peut-être pas la technologie ou les fonds pour utiliser les DSE efficacement. Un problème important souvent signalé est les Données manquantes – des infos qui auraient dû être collectées mais qui ne l’ont pas été.
Des données manquantes ne signifient pas toujours que les soins étaient absents. Par exemple, chez les patients hospitalisés, les tests de laboratoire sont souvent effectués régulièrement, mais la fréquence peut dépendre de la gravité de l’état du patient. Les patients avec des problèmes plus sérieux sont surveillés de plus près, ce qui peut conduire à moins de résultats de tests manquants, tandis que ceux avec des cas moins graves peuvent avoir plus de lacunes dans leurs données.
Certaines tendances de données manquantes peuvent nous donner des infos importantes. Si un groupe de tests est souvent manquant ensemble, cela pourrait indiquer des maladies spécifiques qui sont surveillées. Si des tests de laboratoire qui sont normalement non liés commencent à montrer des manques ensemble, cela pourrait signifier qu'un nouveau souci est apparu, comme une infection. Ces tendances de données manquantes peuvent aussi aider à identifier des problèmes de santé existants et à suivre l’état des patients hospitalisés.
Des recherches ont montré que prendre en compte les données manquantes peut aider à améliorer les modèles prédictifs pour les résultats des patients. Par exemple, certaines études ont examiné comment les données manquantes peuvent être utilisées pour mieux comprendre les maladies chroniques et d'autres conditions de santé.
Pendant la pandémie, les médecins ont appris à mieux gérer le COVID-19, et les changements entre 2020 et 2021 peuvent refléter de nouvelles façons de comprendre et de traiter la maladie. Les infos sur d'autres problèmes de santé des patients et les pratiques de surveillance sont cruciales pour améliorer les soins et réduire la pression sur le système de santé. Cette recherche vise à examiner les données manquantes pendant la pandémie pour mieux comprendre les patients à long terme, en particulier ceux avec des problèmes respiratoires sévères, et pour évaluer des risques comme la Mortalité à 90 jours chez ces patients.
Détails de l'étude
Cette étude observe des patients dans des hôpitaux et a été approuvée par les comités d'éthique appropriés. Les données ont été collectées dans des hôpitaux en Pennsylvanie impliqués dans un groupe de recherche clinique sur le COVID-19. Les hôpitaux avaient presque 2 500 lits et traitaient plus de 100 000 patients par an. Pour faire partie de cette étude, les patients devaient tester positif au COVID-19 et rester à l'hôpital pendant au moins 14 jours. Seules les données de leur première visite à l'hôpital ont été analysées, en se concentrant sur 16 tests de laboratoire spécifiques qui ont été liés à de mauvais résultats chez les patients COVID-19.
Comme l'étude ne comprend que des patients hospitalisés à long terme, les personnes âgées, surtout celles de plus de 70 ans, étaient moins susceptibles d'être incluses. C'est parce que les patients plus âgés avec un COVID-19 sévère sont souvent moins susceptibles de se rétablir suffisamment pour rester à l'hôpital pendant 14 jours.
Dans cette recherche, les données manquantes sont définies comme le fait de ne pas avoir effectué un test de laboratoire à un jour donné. La quantité de données manquantes est calculée en fonction de la fréquence à laquelle le test n'a pas été effectué. Il est important de noter que ces données manquantes ne signifient pas nécessairement que de mauvais soins ont été donnés. Certains tests peuvent être réalisés régulièrement tous les quelques jours, ce qui peut créer de grandes quantités de données manquantes lorsqu'on les examine dans le temps.
Les chercheurs ont défini deux périodes pour observer les patients : Phase 1 (2020) et Phase 2 (2021). Ils ont seulement examiné les 14 premiers jours des séjours des patients à l'hôpital pour assurer une comparaison équitable lors de l'étude des données manquantes.
Trouver des schémas dans les résultats de laboratoire
Au début, les chercheurs ont cherché à comprendre les relations entre les résultats de laboratoire basés sur les schémas de données manquantes. L'objectif était de regrouper les tests qui montraient une similarité de données manquantes pour simplifier l'analyse. Pour cela, une méthode statistique appelée Latent Dirichlet Allocation (LDA) a été utilisée. Cette méthode est généralement appliquée à des données textuelles, mais ici, elle a été utilisée pour les résultats de laboratoire.
L'analyse visait à trouver des groupes de tests de laboratoire qui étaient souvent manquants ensemble. En utilisant cette méthode, les chercheurs ont identifié des thèmes basés sur les schémas de données manquantes. Ils ont créé différents modèles pour 2020 et 2021, en évaluant quel nombre de thèmes offrait la meilleure compréhension des données.
En regardant les données de probabilité des tests de laboratoire, les chercheurs pouvaient évaluer comment les tests étaient liés. Si deux tests montraient constamment de fortes probabilités d'être manquants ensemble, cela indiquait qu'ils pouvaient être liés.
À partir de cette analyse, les chercheurs ont identifié des clusters de tests de laboratoire qui sont biologiquement significatifs. Ces clusters comprenaient des tests liés à l'inflammation, aux infections, à la fonction rénale et à la fonction hépatique, montrant des schémas dans les données manquantes au cours des deux années. Ils ont aussi noté certains tests de laboratoire autonomes qui ne s'intégraient pas dans ces clusters, comme le Prothrombine.
Lier les données de tests manquants aux conditions des patients
L'équipe de recherche s'est particulièrement intéressée à savoir si les données de tests de laboratoire manquantes pourraient être liées au syndrome de détresse respiratoire aiguë (SDRA). Le SDRA est une condition pulmonaire grave qui peut survenir chez les patients COVID-19. En utilisant les résultats de leur précédente analyse, ils ont calculé des scores de manque pour chaque cluster et test de laboratoire pour voir comment ces scores étaient liés au SDRA.
Un patient était considéré comme ayant un SDRA basé sur des codes de diagnostic spécifiques. Pour s'assurer que leurs résultats étaient fiables, les chercheurs ont utilisé des méthodes statistiques pour tenir compte de facteurs comme l'âge, la race et les conditions de santé existantes. Cela a aidé à affiner les effets des données manquantes.
En 2020, avoir un SDRA était lié à moins de données manquantes pour presque tous les tests de laboratoire, sauf pour ceux liés aux infections et à la fonction rénale. En 2021, la relation a changé, et plus de données manquantes dans les tests liés aux reins sont devenues significatives pour les patients atteints de SDRA.
Examiner les taux de mortalité parmi les patients
Les chercheurs voulaient déterminer s'ils pouvaient utiliser les données de tests de laboratoire manquantes pour prédire les résultats, en particulier la mortalité à 90 jours chez les patients atteints de SDRA. Un patient était marqué comme ayant connu une mortalité à 90 jours s'il décédait dans les trois mois suivant son séjour à l'hôpital.
Encore une fois, les chercheurs ont noté si les données manquantes de certains tests de laboratoire étaient liées à la mortalité. En 2020, ils n'ont pas trouvé de connexions fortes. Cependant, en 2021, plus de données manquantes dans les tests liés au foie semblaient corrélées à un risque plus élevé de mortalité.
Ils ont aussi observé certains schémas concernant les niveaux de Prothrombine et de procalcitonine, bien que les résultats étaient moins significatifs. Ils ont constaté que plus de patients qui ont survécu à 90 jours avaient un antécédent d’événements thrombotiques.
À travers cette recherche, l'équipe a souligné l'importance de surveiller les données manquantes des tests de laboratoire pour les patients atteints de SDRA. Cela pourrait offrir de meilleurs résultats si les tests de fonction hépatique et d'autres laboratoires pertinents sont surveillés de près. Cependant, ils ont reconnu la nécessité de nouvelles analyses avec des échantillons plus larges pour confirmer les tendances observées.
Limitations et directions futures
Cette étude a certaines limites. L'exigence de longs séjours à l'hôpital peut avoir biaisé la population de patients. Ceux qui survivent assez longtemps pour être inclus peuvent ne pas représenter l’ensemble des patients atteints de COVID-19.
Une autre limitation est le calendrier de l'étude. Avoir des données plus récentes pourrait éclairer comment les données manquantes sont liées au SDRA et prédire la mortalité. De plus, le petit nombre de patients atteints de SDRA dans l'étude pourrait limiter la signification des résultats.
Les chercheurs ont exprimé leur intérêt à intégrer des données d'autres hôpitaux pour élargir leur analyse. Ils prévoient d'explorer d'autres années et d'examiner de près d'autres conditions de santé qui pourraient coexister avec le COVID-19.
En conclusion, l'étude met en lumière les liens entre les données manquantes dans les tests de laboratoire et les résultats des patients pendant la pandémie de COVID-19. En regroupant les résultats de laboratoire et en examinant leurs relations, les chercheurs espèrent obtenir des informations qui pourraient améliorer les soins et informer de futures recherches. Comprendre comment utiliser les données manquantes pourrait jouer un rôle significatif dans l'amélioration de la gestion des soins aux patients à l'avenir.
Titre: Leveraging informative missing data to learn about acute respiratory distress syndrome and mortality in long-term hospitalized COVID-19 patients throughout the years of the pandemic
Résumé: Electronic health records (EHRs) contain a wealth of information that can be used to further precision health. One particular data element in EHRs that is not only under-utilized but oftentimes unaccounted for is missing data. However, missingness can provide valuable information about comorbidities and best practices for monitoring patients, which could save lives and reduce burden on the healthcare system. We characterize patterns of missing data in laboratory measurements collected at the University of Pennsylvania Hospital System from long-term COVID-19 patients and focus on the changes in these patterns between 2020 and 2021. We investigate how these patterns are associated with comorbidities such as acute respiratory distress syndrome (ARDS), and 90-day mortality in ARDS patients. This work displays how knowledge and experience can change the way clinicians and hospitals manage a novel disease. It can also provide insight into best practices when it comes to patient monitoring to improve outcomes.
Auteurs: Emily J Getzen, A. L. Tan, G. Brat, G. S. Omenn, Z. Strasser, The Consortium for Clinical Characterization of COVID-19 by EHR (4CE), Q. Long, J. H. Holmes, D. Mowery
Dernière mise à jour: 2023-12-19 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2023.12.18.23300181
Source PDF: https://www.medrxiv.org/content/10.1101/2023.12.18.23300181.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.