Faire avancer les soins aux patients avec des modèles basés sur des graphes
Des GCNNs innovants améliorent la précision des prévisions dans le secteur de la santé en utilisant des dossiers de santé électroniques.
― 8 min lire
Table des matières
- Défis de l'utilisation des données DSE entre institutions
- Le besoin de meilleurs modèles de prédiction
- Approches actuelles et leurs limitations
- Introduction des Réseaux de Neurones Convolutionnels Basés sur des Graphes (GCNN)
- Comment ça marche un GCNN
- Applications cliniques des GCNN
- Étude de cas 1 : Prédictions pour les patients COVID-19
- Étude de cas 2 : Prédictions pour les transfusions sanguines
- Avantages de l'utilisation des GCNN
- Limitations et orientations futures
- Conclusion
- Source originale
Les centres de santé suivent les infos de santé des patients grâce à des systèmes numériques appelés Dossiers de santé électroniques (DSE). Ces dossiers contiennent plein de données comme les infos démographiques des patients, les ordonnances, les diagnostics, les résultats de labos et les plans de traitement. Le format structuré des DSE fait que les données sont organisées, ce qui les rend plus faciles à analyser.
Par exemple, les données des DSE structurées peuvent inclure des codes médicaux, des médicaments, des signes vitaux et des résultats de labos. Avec l'avènement de la technologie numérique, utiliser les données des DSE pour créer des modèles avancés qui prédisent des Événements cliniques devient de plus en plus courant. Mais, il y a des défis quand on essaie d'appliquer des modèles entraînés sur des données d'une institution à une autre qui peut avoir des populations de patients différentes.
Défis de l'utilisation des données DSE entre institutions
Quand les modèles de santé sont entraînés avec des données d'une seule institution, ils ont souvent du mal à performer ailleurs. C'est parce que les caractéristiques des patients, comme l'âge, le sexe et les conditions de santé, peuvent varier énormément d'un endroit à l'autre. En plus, différentes institutions peuvent avoir des façons différentes d'enregistrer et de coder les données, ce qui peut affecter la performance des modèles.
Par exemple, les modèles peuvent apprendre les pratiques spécifiques d'une institution plutôt que de se concentrer sur les éléments qui prédisent vraiment les résultats de santé. Certaines études ont même montré que le timing et la fréquence des tests de labos comptent plus que les résultats eux-mêmes. Ça soulève des questions sur l'efficacité des modèles d'apprentissage machine pour prédire des événements cliniques.
Le besoin de meilleurs modèles de prédiction
Malgré les avancées en apprentissage machine, beaucoup de modèles ont mal performé quand on les teste avec des données provenant d'autres institutions. La recherche a montré que certains modèles, même bien entraînés, ne pouvaient pas surpasser des Prédictions simples basées sur une seule mesure, comme les niveaux d'oxygène à l'hôpital.
Un exemple est un modèle spécifique utilisé pour évaluer le risque de sepsis, qui a montré une performance insuffisante quand il a été validé avec des données d'autres institutions. De plus, même les modèles déployés dans la même institution peuvent perdre en précision avec le temps alors que les populations de patients et les pratiques changent.
Vu ces limitations, les chercheurs cherchent de meilleures façons de rendre les modèles basés sur les DSE plus généralisables et efficaces dans différents environnements de santé.
Approches actuelles et leurs limitations
En ce moment, les chercheurs raffinent souvent les caractéristiques cliniques pour standardiser les prédictions de risque. Cela implique d'éliminer les variations causées par la manière dont différentes institutions de santé enregistrent les données. Mais ce processus est lourd et peut mener à des erreurs. Ça limite la taille des ensembles de données et peut faire manquer d'autres caractéristiques importantes qui pourraient améliorer la performance des modèles.
Une autre approche consiste à harmoniser les données DSE en utilisant des modèles standard, mais ces modèles ont des limites en termes d'adaptabilité à différentes bases de données.
Ces défis soulignent le besoin de meilleurs cadres qui peuvent s'adapter à différentes populations de patients et pratiques de santé sans nécessiter une refonte complète du modèle d'entraînement.
Introduction des Réseaux de Neurones Convolutionnels Basés sur des Graphes (GCNN)
Pour répondre aux défis de généralisation et d'adaptabilité dans les modèles de santé, une nouvelle solution implique l'utilisation des réseaux de neurones convolutionnels basés sur des graphes (GCNN). Les GCNN permettent aux chercheurs d'intégrer différents types de données-comme des images et des infos patient-dans un réseau structuré comme un graphe, où chaque patient est représenté comme un nœud et leurs relations (similarités) avec d'autres sont représentées par des arêtes.
Le design innovant des GCNN permet une flexibilité dans la définition de comment les similarités entre patients sont établies. En se concentrant sur les similarités basées sur les données DSE, les GCNN peuvent apprendre des relations entre les patients, ce qui aide à rendre les prédictions plus robustes.
Comment ça marche un GCNN
Dans un GCNN, chaque patient est un nœud avec des caractéristiques spécifiques, tandis que les arêtes connectent des nœuds similaires selon des critères choisis. Le modèle traite à la fois les caractéristiques des nœuds et les informations qui connectent les nœuds pour en tirer des insights. Ce double traitement permet au GCNN d'apprendre à partir des données des patients tout en utilisant les connexions entre eux.
La structure des arêtes dans le graphe est adaptable, c'est-à-dire qu'elle peut s'ajuster en fonction des caractéristiques spécifiques aux données de différentes institutions sans avoir besoin de réentraîner le modèle lui-même. Cette adaptabilité est cruciale, surtout lorsqu'on passe des données d'une institution à une autre.
Applications cliniques des GCNN
L'adaptabilité et la robustesse des GCNN peuvent être testées dans divers scénarios cliniques. Par exemple, une application explore la prédiction d'événements cliniques clés, comme les sorties d'hôpital ou les taux de mortalité pour les patients hospitalisés avec COVID-19. Une autre application évalue le besoin de transfusions sanguines chez les patients hospitalisés.
Dans ces cas d'utilisation, les données d'une institution peuvent être utilisées pour entraîner le modèle, tandis que les prédictions peuvent être validées avec des données d'autres institutions, assurant une applicabilité et une efficacité plus larges.
Étude de cas 1 : Prédictions pour les patients COVID-19
Pour le premier cas d'utilisation, les chercheurs ont examiné les patients qui ont été testés positifs pour COVID-19 et qui ont été hospitalisés. Les données internes incluaient des patients d'un réseau de santé, tandis que les données externes provenaient de divers autres sites. Le modèle visait à prédire deux résultats clés : si les patients seraient sortis ou feraient face à la mortalité.
Les résultats ont révélé que les GCNN ont significativement surpassé les modèles traditionnels lorsqu'ils ont été testés sur des ensembles de données externes. L'adaptabilité des fonctions de formation des arêtes-où le modèle ajuste sa compréhension des connexions entre les patients-était un facteur clé de ce succès.
Étude de cas 2 : Prédictions pour les transfusions sanguines
Le deuxième cas s'est concentré sur la prédiction des besoins en transfusions sanguines chez les patients hospitalisés. L'entraînement a eu lieu en utilisant des données internes de deux sites de santé, tandis que la validation externe incluait des données provenant de différents systèmes de santé.
Les modèles ont obtenu des résultats impressionnants en combinant plusieurs types de données, comme les résultats de labos, les signes vitaux et les infos démographiques des patients. La nature flexible du GCNN lui a permis de gérer les variations dans les données entre différents hôpitaux, menant à une meilleure précision des prédictions.
Avantages de l'utilisation des GCNN
Le cadre GCNN présente plusieurs avantages. D'abord, il ne nécessite pas de réentraînement lors du passage des ensembles de données internes aux externes. Cette fonctionnalité fait gagner du temps et des ressources. Ensuite, le modèle est conçu pour refléter les similarités des patients telles qu'elles se produiraient dans de vraies décisions cliniques. Ça veut dire qu'il est plus aligné avec la façon dont les prestataires de santé travaillent réellement.
En plus, la capacité d'incorporer des données multi-modales-comme des images et diverses formes de DSE-en fait une solution polyvalente pour des environnements cliniques complexes.
Limitations et orientations futures
Malgré ses avantages, l'étude présente certaines limitations, y compris la dépendance aux données rétrospectives et l'absence d'horodatages pour certains codes dans les ensembles de données externes. Ces facteurs peuvent affecter les évaluations globales de performance.
En regardant vers l'avenir, la recherche devrait continuer à affiner l'approche GCNN, explorer son potentiel dans des environnements de santé plus diversifiés, et adresser les limitations restantes pour renforcer encore ses capacités prédictives.
Conclusion
Les GCNN présentent une manière prometteuse de surmonter les défis rencontrés dans l'utilisation des dossiers de santé électroniques pour la modélisation prédictive en santé. En permettant une flexibilité dans la définition des relations de données, ces modèles offrent de meilleures capacités de généralisation lorsqu'ils sont appliqués à diverses populations de patients. La capacité d'intégrer différents types de données tout en restant adaptable distingue les GCNN comme un outil important pour les applications cliniques futures.
Titre: Generalizable Model Design for Clinical Event Prediction using Graph Neural Networks
Résumé: While many machine learning and deep learning-based models for clinical event prediction leverage various data elements from electronic healthcare records such as patient demographics and billing codes, such models face severe challenges when tested outside of their institution of training. These challenges are rooted in differences in patient population characteristics and medical practice patterns of different institutions. We propose a solution to this problem through systematically adaptable design of graph-based convolutional neural networks (GCNN) for clinical event prediction. Our solution relies on unique property of GCNN where data encoded as graph edges is only implicitly used during prediction process and can be adapted after model training without requiring model re-training. Our adaptable GCNN-based prediction models outperformed all comparative models during external validation for two different clinical problems, while supporting multimodal data integration. These results support our hypothesis that carefully designed GCNN-based models can overcome generalization challenges faced by prediction models.
Auteurs: Amara Tariq, G. Kaur, L. Su, J. W. Gicchoya, B. Patel, I. Banerjee
Dernière mise à jour: 2023-03-25 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2023.03.22.23287599
Source PDF: https://www.medrxiv.org/content/10.1101/2023.03.22.23287599.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.