Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Informatique de santé

Gérer les manques de données dans la santé numérique

Une nouvelle méthode aide à résoudre le problème des données manquantes dans les dossiers de santé numériques.

― 10 min lire


Gestion des données enGestion des données ensanté numériquedonnées de santé manquantes.Nouvelles stratégies pour gérer les
Table des matières

La transition vers des soins de santé numériques génère une quantité énorme de données au quotidien. Ces données offrent des aperçus précieux sur les patients, ce qui peut aider dans la recherche, l'amélioration des services et le suivi de la santé publique. Cependant, l'analyse de ces données pose ses propres défis, qui sont assez différents de ceux rencontrés lors de l'utilisation de données spécifiquement recueillies pour la recherche.

Un des principaux problèmes est qu'à mesure que les soins de santé deviennent plus numériques, les données peuvent changer fréquemment en termes de ce qui est disponible, de leur format et des informations incluses. Cette incohérence peut rendre difficile la réalisation d'études à long terme impliquant plusieurs hôpitaux, car les données collectées dans différents environnements peuvent ne pas correspondre.

Pour faire face à ces problèmes, certains chercheurs ont suggéré des outils pour repérer les changements soudains dans les données, tandis que d'autres ont cherché des moyens de normaliser les données avant de les analyser. Même avec ces premières étapes, de nombreux défis nécessitent encore de l'attention.

D'abord, les changements dans les données au fil du temps pourraient être dus à de nouvelles technologies ou à d'autres facteurs. Il est crucial de séparer les changements causés par les mises à jour technologiques de ceux qui résultent des évolutions des pratiques de soins ou des changements dans la démographie des patients.

Ensuite, les changements technologiques impliqués deviennent de plus en plus compliqués. Par exemple, les systèmes de données peuvent impliquer plusieurs hôpitaux et départements, chacun ayant ses propres pratiques. Les types de données analysées deviennent également plus variés, incluant des codes de diagnostic, des résumés cliniques, des résultats de tests, des images et des médicaments. Suivre tous ces changements juste en regardant les données visuellement nécessiterait une quantité significative de ressources, ce qui souligne le besoin d'automatisation.

Dans cette étude, une nouvelle méthode a été développée pour gérer automatiquement les données manquantes en raison de la digitalisation en cours dans les hôpitaux. La recherche s'est concentrée sur les données des Hôpitaux Universitaires de Paris. L'étude a spécifiquement examiné comment l'utilisation progressive de nouvelles fonctionnalités pour collecter différents types de dossiers entraîne des données manquantes. En analysant la rapidité avec laquelle ces fonctionnalités ont été adoptées au niveau de l'hôpital, du département et de l'unité, l'efficacité de ce modèle a été évaluée en utilisant divers Indicateurs de qualité et de santé.

La recherche visait à répondre à ces questions :

  • Peut-on modéliser automatiquement la digitalisation progressive des dossiers de santé ?
  • Peut-on utiliser ce modèle pour ajuster les données manquantes qui accompagnent ce processus lors de la réalisation d'études d'observation spécifiques ?

Processus de recherche

L'étude a reçu l'approbation éthique du conseil concerné. Conformément aux lois locales, le consentement des patients pour ce type de recherche n'était pas requis. Les patients ont été informés de l'étude, et ceux qui ne souhaitaient pas que leurs données soient utilisées ont été exclus.

Source des données

Les Hôpitaux Universitaires de Paris se composent de 38 hôpitaux dans la région parisienne, qui gèrent environ 1,5 million d'Hospitalisations chaque année. Un système de dossier santé électronique commun a été progressivement introduit à partir de 2012. Les différents types de données dans l'étude sont collectés à l'aide de diverses fonctionnalités de ce système, telles que les dossiers liés aux hospitalisations, les visites aux services d'urgence, les codes de diagnostic, les prescriptions de sortie et les rapports de consultation. Les données sont traitées quotidiennement, et l'étude a été menée en juillet 2023.

Comprendre l'adoption du DSE

La mise en œuvre du système commun de dossier santé électronique dans ces hôpitaux se fait à travers diverses fonctionnalités, la collecte de chaque type de donnée dépendant de fonctions spécifiques. Par exemple, les fonctionnalités de suivi des dossiers d'hospitalisation sont adoptées au niveau de l'hôpital, tandis que d'autres sont adoptées par des départements ou unités spécifiques, comme les services d'urgence ou les unités de soins intensifs.

Rassembler des données précises sur l'utilisation de ces fonctionnalités n'a pas été facile, car il n'existe actuellement aucune base de connaissances centralisée. Par conséquent, une méthode basée sur les données a été employée pour analyser cela. Le processus d'exploration des données est compliqué par le fait que de nouvelles fonctionnalités peuvent entraîner des augmentations immédiates des données disponibles, mais l'utilisation progressive par les prestataires de soins de santé peut atténuer l'effet. Parfois, les données des systèmes précédents sont copiées dans le nouveau système électronique, compliquant encore plus l'image des données.

Pour identifier automatiquement quand les fonctionnalités du dossier santé électronique ont été adoptées, nous avons calculé une mesure de complétude pour chaque fonctionnalité à chaque site de soins de santé et utilisé des fonctions de pas pour analyser les données au fil du temps.

Deux façons de mesurer la complétude ont été utilisées, selon la fonctionnalité : l’une regardait le pourcentage de dossiers d'hospitalisation avec au moins un point de donnée, tandis que l’autre utilisait le nombre mensuel d'entrées de données normalisé au plus grand nombre enregistré pendant l'étude. Cette technique de modélisation a permis d'estimer la date d'adoption et la stabilité moyenne de la complétude après cette date.

Les indicateurs de qualité et de santé peuvent être analysés en utilisant les données des Dossiers de santé électroniques pour évaluer la qualité des soins ou pour suivre les épidémies de maladies. Cependant, les données manquantes au fil du temps peuvent conduire à des estimations inexactes. Les indicateurs de qualité étaient définis comme le pourcentage mensuel d'hospitalisations avec des résultats enregistrés, tandis que les indicateurs épidémiologiques étaient le nombre hebdomadaire d'hospitalisations liées à des maladies saisonnières.

Analyse statistique

Les données continues ont été rapportées sous forme de médianes et d'intervalles, tandis que les données catégorielles ont été montrées en nombres et en pourcentages. Les indicateurs de qualité et épidémiologiques ont été calculés à partir d'une date de début définie jusqu'en mai 2022, lorsque certains problèmes ont limité l'intégration des rapports cliniques.

Les changements dans les indicateurs de qualité ont été modélisés à l'aide de fonctions linéaires. Les coefficients du modèle et leurs intervalles de confiance ont été estimés par analyse de régression. Les changements dépendants du temps dans les indicateurs ont été discutés, en se concentrant sur la façon dont la pandémie de COVID-19 a affecté les maladies saisonnières comme la bronchiolite et la grippe.

Deux méthodes ont été utilisées pour l'analyse : une approche naïve, qui ne prenait pas en compte le processus de digitalisation progressive, et une nouvelle approche (méthode complète uniquement) qui s'appuyait sur le modèle établi précédemment pour filtrer les données utilisées pour évaluer les résultats.

On s'attendait à ce que l'utilisation de la méthode naïve montre des valeurs croissantes pour les indicateurs, reflétant la détection améliorée des résultats au fil du temps. En revanche, la méthode complète uniquement était censée stabiliser la source de données utilisée pour analyser les résultats, empêchant ainsi des résultats trompeurs.

Une analyse de sensibilité a été réalisée pour examiner les indicateurs de qualité en variant la date de début et en effectuant une analyse par sous-groupe des hôpitaux.

Modélisation de l'adoption du DSE

L'entrepôt de données du système hospitalier comprend des dossiers de plus de 14 millions de patients. La quantité de données collectées a augmenté régulièrement, avec des différences notables observées entre les différentes catégories de données.

L'adoption des fonctionnalités du dossier santé électronique variait selon le site de soins de santé et était modélisée à l'aide de fonctions de pas qui correspondaient à la manière dont les fonctionnalités étaient intégrées. Certains dossiers, comme ceux des hospitalisations et des visites aux services d'urgence, ont montré une adoption rapide, tandis que d'autres, comme les rapports de consultation et de prescription, ont été adoptés de manière plus progressive.

Les estimations de complétude pour certains hôpitaux et départements ont montré les différences dans la disponibilité des données à mesure que de nouvelles fonctionnalités étaient déployées.

Indicateurs de qualité

L'étude a observé des variations dans les indicateurs de qualité, comparant les résultats des approches naïve et complète uniquement selon différentes dates de début. Bien que les deux approches aient montré des résultats similaires pour certains indicateurs, des divergences ont émergé pour d'autres. La méthode naïve a montré une augmentation pour certains indicateurs de qualité au fil du temps, tandis que l'approche complète uniquement a réduit les valeurs car elle a filtré les données pour atteindre la stabilité.

Cela s'est également vérifié dans l'analyse de sensibilité, qui a indiqué un effet stabilisateur de la méthode complète uniquement dans divers hôpitaux, bien que cette méthode ait généralement conduit à des valeurs plus basses pour les indicateurs.

Indicateurs épidémiologiques

L'étude a également suivi le nombre hebdomadaire d'hospitalisations pour bronchiolite et grippe en utilisant les deux approches. L'impact de la COVID-19 sur ces tendances a été identifié dans les deux cas, mais il était plus difficile d'interpréter les résultats de la méthode naïve, car elle ne tenait pas compte des changements dans les processus de collecte de données.

En se concentrant sur la méthode complète uniquement, les épidémies saisonnières pouvaient être analysées plus précisément, sans être entravées par les distorsions créées par la digitalisation.

Conclusion

La recherche vise à fournir une solution pour surmonter les fluctuations de la qualité et de la disponibilité des données causées par le passage à la digitalisation dans les soins de santé. La méthode complète uniquement permet de filtrer les points de données qui pourraient fausser les résultats en raison de l'adoption incomplète des dossiers de santé électroniques.

Bien que la méthode ne soit pas une solution parfaite, elle aide à minimiser l'influence des biais qui pourraient découler des systèmes de données en évolution. L'étude met en lumière certains des défis rencontrés lors de l'utilisation de plates-formes de données réelles, y compris les préoccupations en matière de confidentialité qui limitent l'accès aux données et la nécessité de coordination entre les fournisseurs de données et les chercheurs.

Malgré ses limites, ce travail avance vers la création d'outils et de méthodes pour analyser efficacement les données de santé. Le paysage technologique en constante évolution exige que les recherches futures continuent de s'adapter et d'innover pour garantir une évaluation précise des services de santé au fil du temps.

Source originale

Titre: Adjusting for the progressive digitization of health records: working examples on a multi-hospital clinical data warehouse

Résumé: AO_SCPLOWBSTRACTC_SCPLOWO_ST_ABSObjectivesC_ST_ABSTo propose a new method to account for time-dependent data missingness caused by the increasing digitization of health records in the analysis of large-scale clinical data. Materials and MethodsFollowing a data-driven approach we modeled the progressive adoption of a common electronic health record in 38 hospitals. To this end, we analyzed data collected between 2013 and 2022 and made available in the clinical data warehouse of the Greater Paris University Hospitals. Depending on the category of data, we worked either at the hospital, department or unit level. We evaluated the performance of this model with a retrospective cohort study. We measured the temporal variations of some quality and epidemiological indicators by successively applying two methods, either a naive analysis or a novel complete-source-only analysis that accounts for digitization-induced missingness. ResultsUnrealistic temporal variations of quality and epidemiological indicators were observed when a naive analysis was performed, but this effect was either greatly reduced or disappeared when the complete-source-only method was applied. DiscussionWe demonstrated that a data-driven approach can be used to account for missingness induced by the progressive digitization of health records. This work focused on hospitalization, emergency department and intensive care units records, along with diagnostic codes, discharge prescriptions and consultation reports. Other data categories may require specific modeling of their associated data sources. ConclusionsElectronic health records are constantly evolving and new methods should be developed to debias studies that use these unstable data sources.

Auteurs: Adam Remaki, B. Playe, P. J. Bernard, S. Vittoz, M. Doutreligne, G. Chatellier, E. Audureau, E. Kempf, R. Porcher, R. Bey

Dernière mise à jour: 2023-08-21 00:00:00

Langue: English

Source URL: https://www.medrxiv.org/content/10.1101/2023.08.17.23294220

Source PDF: https://www.medrxiv.org/content/10.1101/2023.08.17.23294220.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires