Traiter le bruit dans les dossiers de santé électroniques pour le machine learning
Notre étude utilise des techniques de vision par ordinateur pour améliorer la précision des étiquettes dans les données des DSE.
― 13 min lire
Table des matières
Ces dernières années, la santé a vu une grosse montée des données numériques. Un type de données majeur, ce sont les dossiers de santé électroniques (DSE). Les DSE incluent des détails importants sur les patients comme leur historique médical, leurs diagnostics, leurs médicaments et leurs résultats de tests. Ce passage aux dossiers numériques a amélioré la sécurité des patients et a rendu le système de santé plus efficace. L'augmentation des données offre aussi de nouvelles opportunités pour l'apprentissage machine (AM) dans le domaine de la santé. En utilisant ces données, l'AM peut aider à créer de meilleurs plans de traitement et à prédire les résultats de santé, ce qui améliore les soins aux patients.
Cependant, même si les DSE fournissent une ressource précieuse pour l'AM, ils présentent aussi des défis. Des problèmes comme des erreurs de saisie, des informations manquantes, des incohérences, des erreurs systèmes et des résultats de tests incorrects peuvent introduire du bruit et des erreurs dans les données. Des études ont montré que de nombreux patients ont signalé des erreurs dans leurs DSE, certaines étant jugées graves. Les erreurs dans les dossiers de santé peuvent avoir un impact négatif sur les soins aux patients et la recherche. Donc, garantir que les données des DSE soient précises et complètes reste un défi important.
Malgré la prise de conscience de ces potentielles erreurs, de nombreux modèles d'AM existants supposent que les données sont propres et précises. Cette hypothèse ne s'applique pas vraiment aux données du monde réel, qui peuvent être bruyantes et défectueuses. La recherche a montré que les modèles d'AM, en particulier les modèles d'apprentissage profond (AD), peuvent facilement s'adapter trop à ces données bruyantes. S'adapter trop signifie que le modèle apprend le bruit dans les données d'entraînement plutôt que les véritables motifs. Cela entraîne une mauvaise performance lorsque de nouvelles données, jamais vues auparavant, sont présentées, ce qui est problématique pour les soins aux patients.
Pour relever ces défis, on se concentre sur l'amélioration des méthodes d'AM pour traiter les données bruyantes, spécifiquement dans le contexte des DSE. Notre étude met l'accent sur des cas où les étiquettes attachées aux données posent problème, inspirés par des approches en vision par ordinateur (VP) qui ont montré leur efficacité dans le traitement des Étiquettes bruyantes. Il est important de noter que les données des DSE sont très différentes des données d'images. Alors que les images reposent sur des valeurs de pixels, les DSE contiennent une variété d'informations, y compris des dossiers patients, des codes et différents détails cliniques.
En apportant des changements simples pour adapter les techniques de VP aux données des DSE, on a constaté que ces méthodes peuvent significativement réduire les risques associés aux étiquettes bruyantes. Notre recherche examine également la combinaison de plusieurs approches pour améliorer davantage la performance des modèles d'AM sur les données des DSE.
Travaux reliés
Différentes stratégies ont été utilisées dans divers domaines pour gérer les défis posés par les étiquettes bruyantes pour les tâches d'AM. Ces méthodes peuvent généralement être classées en deux types principaux : 1) correction des étiquettes et 2) régularisation.
La correction des étiquettes vise à trouver et corriger les points de données mal étiquetés. Une technique courante est le nettoyage des données, qui implique de retirer les données manifestement incorrectes. Cela peut être fait manuellement ou par le biais d'algorithmes qui identifient les valeurs aberrantes. Cependant, le travail manuel est long et coûteux, et retirer des échantillons peut entraîner la perte d'informations utiles. D'autres méthodes basées sur des algorithmes, comme le auto-apprentissage et le co-apprentissage, mettent à jour les étiquettes en fonction des prédictions du modèle.
Cependant, ces approches s'appuient sur le fait d'avoir des étiquettes initiales propres, ce qui n'est souvent pas le cas dans les milieux cliniques réels. En conséquence, on a recentré notre attention sur les méthodes de régularisation, qui ajustent la façon dont les modèles apprennent pour tenir compte du bruit. Celles-ci incluent l'utilisation de fonctions de perte robustes, le Lissage des étiquettes et des techniques promouvant la cohérence dans les prédictions.
Les fonctions de perte robustes visent à réduire l'influence des valeurs aberrantes et des étiquettes bruyantes. Bien qu'elles puissent aider, elles peuvent aussi faire perdre des informations précieuses, notamment dans les données de santé où les valeurs aberrantes peuvent être importantes. Le lissage des étiquettes, quant à lui, ajoute un peu d'incertitude aux étiquettes cibles pendant l'entraînement. Cette technique a montré qu'elle aide les modèles à mieux généraliser sans devenir trop confiants dans leurs prédictions.
Une autre technique pertinente est le Mix-up, qui crée de nouveaux exemples en mélangeant différents points de données. Cette approche peut aider à éviter que les modèles apprennent à se fier uniquement aux relations entre les caractéristiques et leurs étiquettes. Il existe aussi des méthodes qui imposent la cohérence parmi les prédictions pour des points de données similaires, ce qui aide les modèles à apprendre des motifs robustes même en présence d'étiquettes bruyantes.
Bien qu'il existe des options pour gérer les étiquettes bruyantes, très peu d'études de recherche se sont concentrées spécifiquement sur les données des DSE. Certaines études récentes ont traité du bruit d'étiquettes dans le secteur de la santé, mais souvent avec la nécessité d'avoir des ensembles de données séparés propres et bruyants. Notre approche ne dépend pas de la connaissance des points de données correctement étiquetés ; on montre que des techniques comme la Régularisation de Cohérence de Voisinage (RCV), le Mix-up et le lissage des étiquettes peuvent être appliquées efficacement aux DSE avec des modifications minimes.
Données et Méthodes
Notre étude utilise des données du monde réel d'une étude de cas sur la COVID-19. L'objectif est de classifier les patients comme positifs ou négatifs à la COVID en fonction de leurs DSE. À cette époque, le test était obligatoire, ce qui signifiait qu'il y avait beaucoup de données disponibles pour l'analyse. Cependant, la fiabilité des résultats des tests variait, surtout au début de la pandémie, créant de l'incertitude sur le statut viral réel des patients. Cela a rendu notre étude de cas idéale pour tester le développement de modèles en présence d'étiquettes bruyantes.
On a utilisé les ensembles de données CURIAL, qui contiennent des données DSE anonymisées de patients visitant des services d'urgence dans divers hôpitaux. Avec l'approbation du NHS au Royaume-Uni pour utiliser des modèles d'IA pour détecter la COVID-19, ces ensembles de données offrent une base solide pour l'analyse.
Dans des études précédentes, les modèles d'AM formés sur les caractéristiques des DSE ont montré des diagnostics plus rapides pour la COVID-19 par rapport aux tests traditionnels. On visait à construire des modèles similaires en utilisant des tests de laboratoire de routine et des signes vitaux collectés lors des visites aux urgences. Les données incluaient diverses caractéristiques, que l'on a standardisées avant l'analyse.
Pour gérer la présence de valeurs manquantes, on a utilisé une méthode connue sous le nom d'imputation par la médiane de population. On a traité le bruit d'étiquettes dans nos ensembles de données en changeant aléatoirement certaines étiquettes de diagnostic à des valeurs incorrectes. Cela comprenait la simulation de faux négatifs et de faux positifs basés sur l'exactitude estimée des tests.
Pour notre modèle de référence, on a utilisé une architecture de réseau de neurones qui avait déjà été efficace dans des tâches de classification COVID-19. De plus, on a aussi utilisé XGBoost, une méthode d'ensemble qui combine les prédictions de plusieurs modèles pour améliorer la performance globale.
Techniques inspirées de la VP pour traiter les étiquettes bruyantes
Dans notre recherche, on a examiné l'efficacité des techniques qui ont été initialement développées pour les tâches de VP mais qui pouvaient être adaptées aux données des DSE. Trois méthodes clés ont été analysées : le lissage des étiquettes, le Mix-up et la Régularisation de Cohérence de Voisinage (RCV).
Lissage des Étiquettes
Le lissage des étiquettes ajoute une petite quantité d'incertitude aux étiquettes cibles pendant l'entraînement. Au lieu d'utiliser un 0 ou un 1 parfait pour l'étiquette correcte, on ajuste légèrement les valeurs, en fonction du nombre de classes. Cela aide le modèle à éviter de devenir trop confiant dans ses prédictions, ce qui peut être particulièrement utile dans des environnements bruyants.
Mix-up
Le Mix-up crée de nouveaux exemples d'entraînement en combinant les caractéristiques et les étiquettes de points de données existants. En prenant des moyennes pondérées de deux échantillons, le modèle apprend à interpréter les relations entre les caractéristiques et les étiquettes d'une manière plus générale. Cela aide à construire une résilience au bruit présent dans les données.
Régularisation de Cohérence de Voisinage (RCV)
La RCV impose le principe selon lequel des exemples similaires, même mal classés, devraient mener à des prédictions similaires. Au lieu de s'appuyer uniquement sur des étiquettes bruyantes, le modèle est encouragé à produire des sorties cohérentes pour des points de données similaires. Cela signifie que la classification devrait être basée sur les informations partagées plutôt que juste sur les étiquettes potentiellement incorrectes.
On a combiné la RCV avec notre fonction de perte principale pour créer une nouvelle fonction objective à optimiser pendant l'entraînement.
Mesures d'Évaluation
L'efficacité des modèles a été évaluée à l'aide de mesures de classification courantes. Celles-ci comprenaient l'aire sous la courbe caractéristique de fonctionnement du récepteur (AUROC), l'aire sous la courbe de précision-rappel (AUPRC), la sensibilité et la spécificité. On a aussi veillé à rapporter des intervalles de confiance pour nos résultats.
Pour choisir les meilleurs paramètres du modèle, on a effectué une optimisation d'hyperparamètres en utilisant une recherche par grille et une validation croisée classique. Une fois l'entraînement terminé, on a ajusté les seuils pour garantir une sensibilité cliniquement acceptable pour identifier les cas positifs de COVID-19.
Comparaison des Méthodes
Notre analyse comparative a évalué la performance de chaque méthode sous différentes quantités de bruit d'étiquettes. Les résultats ont montré que les techniques adaptées de la VP amélioraient significativement les modèles de référence. Les méthodes Mix-up et RCV se sont démarquées comme particulièrement efficaces pour gérer les étiquettes bruyantes.
De plus, on a constaté que la combinaison des deux méthodes donnait souvent de meilleurs résultats que de les utiliser séparément. Les modèles entraînés avec la RCV ont montré une performance plus cohérente à travers divers niveaux de bruit. Cela indique que mettre en œuvre la RCV est bénéfique pour généraliser sur différents ensembles de données.
Le lissage des étiquettes, cependant, n'a pas bien performé. L'ajout de bruit à la fois sur les bonnes et les mauvaises étiquettes a diminué son efficacité, surtout lorsque les données étaient déjà bruyantes.
Analyse Étendue avec la Régularisation de Cohérence de Voisinage
Après avoir déterminé les meilleurs hyperparamètres, on a effectué une étude d'ablation pour analyser l'impact de différents facteurs sur la performance de la RCV à divers niveaux de bruit.
Impact des Hyperparamètres
On a exploré comment divers hyperparamètres influençaient la capacité du modèle à gérer le bruit. Cela incluait le point de départ pour la RCV, le poids de la régularisation de la RCV, ainsi que le nombre de voisins les plus proches considérés durant l'entraînement. On a noté que fournir une phase d'entraînement initiale en utilisant seulement la perte d'entropie croisée standard avant d'introduire la RCV améliorait les résultats.
Analyse des Embeddings de Caractéristiques
En examinant les embeddings de caractéristiques, on a pu évaluer à quel point les modèles capturaient les motifs sous-jacents des données. La séparation entre les classes dans l'espace des caractéristiques s'est améliorée avec l'utilisation de la RCV, indiquant que le modèle a appris des distinctions significatives malgré les étiquettes bruyantes.
Analyse de la Confiance des Prédictions
Une analyse de la confiance des prédictions a révélé que la RCV aidait le modèle à attribuer une confiance plus élevée aux échantillons correctement étiquetés. En revanche, le modèle formé sans RCV avait tendance à mal classer de nombreux échantillons corrects, illustrant que la RCV joue un rôle clé dans la prévention du surajustement.
Conclusion
En résumé, notre investigation met en lumière l'efficacité d'intégrer des méthodes de VP pour faire face aux défis présentés par les étiquettes bruyantes dans les données des DSE. En adaptant des techniques comme le lissage des étiquettes, le Mix-up et la RCV, on peut améliorer la robustesse et la fiabilité des modèles d'AM dans les milieux de santé.
Les résultats démontrent que les modèles entraînés sans techniques d'atténuation du bruit ont souvent du mal à généraliser et montrent une mauvaise performance avec de nouvelles données. En revanche, nos trouvailles affirment que des méthodes comme le Mix-up et la RCV conduisent à de meilleurs résultats, en particulier face à des niveaux élevés de bruit d'étiquettes.
De plus, la combinaison de ces techniques génère encore plus d'améliorations, montrant le potentiel d'utiliser plusieurs approches pour combattre efficacement le bruit d'étiquettes.
Tout en se concentrant sur le bruit des étiquettes, il est important de prendre en compte que d'autres aspects, comme le bruit des caractéristiques et les données manquantes, peuvent également impacter la performance du modèle. De futures recherches devraient explorer ces domaines plus en profondeur et examiner des techniques supplémentaires pour améliorer la qualité des données des DSE.
En conclusion, cette étude ouvre la voie à une analyse plus efficace des données des DSE, offrant de nouvelles avenues pour améliorer les résultats en santé et la recherche dans ce domaine vital.
Titre: Addressing Label Noise for Electronic Health Records: Insights from Computer Vision for Tabular Data
Résumé: The analysis of extensive electronic health records (EHR) datasets often calls for automated solutions, with machine learning (ML) techniques, including deep learning (DL), taking a lead role. One common task involves categorizing EHR data into predefined groups. However, the vulnerability of EHRs to noise and errors stemming from data collection processes, as well as potential human labeling errors, poses a significant risk. This risk is particularly prominent during the training of DL models, where the possibility of overfitting to noisy labels can have serious repercussions in healthcare. Despite the well-documented existence of label noise in EHR data, few studies have tackled this challenge within the EHR domain. Our work addresses this gap by adapting computer vision (CV) algorithms to mitigate the impact of label noise in DL models trained on EHR data. Notably, it remains uncertain whether CV methods, when applied to the EHR domain, will prove effective, given the substantial divergence between the two domains. We present empirical evidence demonstrating that these methods, whether used individually or in combination, can substantially enhance model performance when applied to EHR data, especially in the presence of noisy/incorrect labels. We validate our methods and underscore their practical utility in real-world EHR data, specifically in the context of COVID-19 diagnosis. Our study highlights the effectiveness of CV methods in the EHR domain, making a valuable contribution to the advancement of healthcare analytics and research.
Auteurs: Jenny Yang, H. Triendl, A. A. S. Soltan, M. Prakash, D. A. Clifton
Dernière mise à jour: 2023-10-17 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2023.10.17.23297136
Source PDF: https://www.medrxiv.org/content/10.1101/2023.10.17.23297136.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.