Avancées dans la détection du cancer du poumon grâce aux DSE
De nouvelles méthodes visent à améliorer la détection précoce du cancer du poumon grâce aux dossiers de santé électroniques.
― 8 min lire
Table des matières
Les modèles prédictifs sont des outils qui aident les docs à prendre de meilleures décisions pour diagnostiquer et traiter les maladies. Un domaine où ces modèles sont super utiles, c'est pour détecter tôt le cancer du poumon, surtout quand les médecins tombent sur des petits spots dans les poumons, appelés nodules pulmonaires. Les chercheurs bossent dur pour créer des modèles qui peuvent vraiment aider à identifier qui est à risque de cancer du poumon à partir de ces nodules.
Créer des modèles prédictifs fiables nécessite d'étudier de gros groupes de gens. Plus les chercheurs ont de données, mieux ils peuvent s'assurer que leurs modèles marchent bien pour un large éventail de personnes. Les essais cliniques prospectifs, où on suit des participants dans le temps, ont fourni des données utiles. Mais ces essais peuvent coûter cher et se concentrent souvent seulement sur des personnes à haut risque de cancer du poumon. Du coup, les chercheurs se tournent vers les dossiers de santé électroniques (DSE) comme source précieuse d'infos sur une population plus large.
Récupérer des données à partir des dossiers de santé électroniques
Utiliser les DSE, c'est un processus en deux étapes. D'abord, les chercheurs doivent définir des conditions de santé spécifiques pour distinguer les patients avec cancer du poumon de ceux sans. Ce processus nécessite une sélection soignée des patients en fonction de leur historique médical. La deuxième étape, c'est de fouiller dans les données pour collecter des infos pertinentes sur ces patients au fil du temps.
Un défi avec l'utilisation des DSE, c'est que tous les patients avec des nodules pulmonaires suspects n'ont pas forcément un passé de cancer. Les médecins ont souvent du mal à déterminer à quel point ces nodules sont susceptibles d'être cancéreux chez les patients sans antécédents de cancer. Par contre, les patients récemment diagnostiqués avec un cancer subissent généralement des tests plus complets, car ils ont plus de chances d'avoir des nodules malins. Pour améliorer les modèles prédictifs, les chercheurs se concentrent sur les personnes avec des nodules pulmonaires indéterminés qui n'ont pas d'antécédents récents de cancer.
Codes CIM
Le rôle desLes codes de la Classification Internationale des Maladies (CIM) aident à identifier diverses conditions médicales et sont souvent utilisés pour la facturation aux États-Unis. Cependant, l'un des problèmes auxquels sont confrontés les chercheurs est le manque d'accord sur quels codes CIM utiliser pour définir un problème de santé spécifique, comme le cancer du poumon. Certaines infos sur les nodules cancéreux peuvent se trouver uniquement dans des données non structurées, comme des notes cliniques et des rapports de biopsie.
Pour y remédier, les chercheurs proposent d'utiliser un ensemble spécifique de termes médicaux connus sous le nom de SNOMED-CT pour définir le cancer du poumon et les nodules associés. En analysant le timing des diagnostics et en les liant aux cas identifiés, les chercheurs peuvent créer des catégories de patients plus claires.
Une fois que les patients sont regroupés en cas (patients avec cancer du poumon) et témoins (patients sans cancer du poumon), la prochaine étape est d'extraire des données pertinentes. Ces données proviennent souvent d'études d'imagerie, principalement des scans CT thoraciques. Idéalement, les chercheurs regarderaient plusieurs scans dans le temps pour voir comment les nodules évoluent.
Défis dans la collecte de données
Collecter les données nécessaires est souvent cher et chronophage. Les revues manuelles d'images et de notes cliniques peuvent demander beaucoup d'efforts. Donc, les chercheurs explorent des méthodes automatisées pour collecter des informations sur les images médicales des patients et les données cliniques afin de rendre le processus plus efficient.
Développer des méthodes standardisées pour rassembler des données aide à s'assurer que les groupes de patients étudiés peuvent être comparés entre différentes institutions et zones géographiques. Pourtant, les DSE varient d'une institution à l'autre, créant des défis uniques pour l'extraction des données. Les chercheurs visent à créer des méthodes qui fonctionnent peu importe les différences dans les structures de données, leur permettant de se concentrer uniquement sur les codes CIM pertinents pour leur étude.
SPNs
Cohortes définies par lesDans cette recherche, l'objectif était de créer des cohortes de patients ayant des Nodules pulmonaires solitaires (SPNs) sans diagnostic de cancer antérieur. Une cohorte, c'est juste un groupe d'individus utilisé pour une étude. Les chercheurs ont identifié des individus avec des SPNs grâce à des codes CIM spécifiques et ont énoncé des critères pour leur inclusion dans leur étude. Cela impliquait d'identifier des cas de cancer du poumon qui se sont développés dans un certain laps de temps après la découverte des SPNs.
Pour séparer les cas des témoins, les chercheurs ont utilisé des délais spécifiques. Par exemple, si un SPN était stable pendant trois ans, il était probablement non malin. Cette info a aidé à créer des définitions plus claires de quels patients devraient être inclus dans l'étude.
Extraction de données et assurance qualité
Les chercheurs ont collecté des infos démographiques, des résultats de labos et des ordonnances de médicaments pour les patients entrant dans leurs fenêtres d'observation définies. Ils ont aussi effectué un contrôle qualité des scans CT pour s'assurer que les images représentaient fidèlement les conditions médicales pertinentes. En agissant ainsi, ils ont voulu s'assurer que les données collectées étaient à la fois de haute qualité et pertinentes pour l'étude.
Une partie critique du processus consistait à classer les images en fonction de leur timing par rapport aux événements de cancer du poumon des patients. Les chercheurs voulaient s'assurer qu'ils incluaient des images qui donneraient les informations les plus utiles pour comprendre la progression de la maladie.
Validation des cohortes
Pour valider leurs groupes de patients, les chercheurs ont comparé leurs résultats avec des infos d'un registre de cancer. Ce registre collecte des données sur les patients diagnostiqués avec un cancer et donne aux chercheurs un point de référence plus fiable. En examinant un échantillon de patients dans leur étude et dans le registre, les chercheurs visaient à évaluer à quel point ils avaient correctement identifié les cas et les témoins.
Grâce à ce processus de révision, ils ont découvert que leur méthode était efficace pour identifier les patients avec et sans cancer du poumon. Ils ont constaté que leur approche proposée avait un faible taux de faux positifs, ce qui signifie que la plupart des patients étiquetés comme ayant un cancer du poumon l'avaient vraiment.
Résultats et conclusions
Les chercheurs ont trouvé un nombre significatif de sujets uniques qui répondaient à leurs critères d'inclusion dans l'étude. Beaucoup de ces participants n'avaient pas d'historique de cancer avant de développer des SPNs. En appliquant leurs critères d'inclusion, les chercheurs ont réussi à identifier à la fois des cas de cancer du poumon et des témoins parmi les participants.
Dans les cohortes d'imagerie, les chercheurs ont collecté des milliers de scans CT et vérifié leur qualité. Ils ont aussi catégorisé les scans pour s'assurer qu'ils incluaient les images les plus pertinentes pour diagnostiquer le cancer du poumon. Cet effort a impliqué de revoir attentivement les données d'imagerie disponibles et de sélectionner uniquement celles qui répondaient à leurs standards.
Conclusion
L'étude a souligné l'importance d'utiliser des règles bien définies autour des codes CIM pour constituer des groupes de patients pour la recherche sur le cancer du poumon. En se concentrant sur les patients avec des SPNs et en s'assurant de l'identification précise des cas et des témoins, les chercheurs visaient à apporter des infos précieuses sur le diagnostic et l'évaluation des risques de cancer du poumon.
Pour l'avenir, les chercheurs ont souligné le besoin de considérer des données au-delà des fenêtres d'observation immédiates lorsqu'ils génèrent des hypothèses ou développent des modèles prédictifs. Bien que l'approche ait des limites, elle offre une méthode prometteuse pour relier les dossiers de santé électroniques aux résultats des patients dans le monde réel.
En résumé, en utilisant les dossiers de santé électroniques et des systèmes de codage standardisés, les chercheurs espèrent améliorer la compréhension et la détection du cancer du poumon. Leur travail est une étape importante pour s'assurer que les pros de la santé peuvent mieux identifier et gérer les patients à risque de cette grave maladie.
Titre: Curating Retrospective Multimodal and Longitudinal Data for Community Cohorts at Risk for Lung Cancer.
Résumé: Large community cohorts are useful for lung cancer research, allowing for the development and validation of predictive models. A robust methodology for (1) identifying lung cancer and pulmonary nodules from electronic health record (EHRs) as well as (2) associating longitudinal data with these conditions is needed to optimally curate cohorts at scale from clinical data. Both objectives present the challenge of labeling noisy multimodal data while minimizing assumptions about the data structure specific to any institution. In this study, we leveraged (1) SNOMED concepts to develop ICD-based decision rules for building a cohort that captured lung cancer and pulmonary nodules and (2) clinical knowledge to define time windows for collecting longitudinal imaging and clinical concepts. We curated three cohorts with clinical concepts and repeated imaging for subjects with pulmonary nodules from our Vanderbilt University Medical Center. Our approach achieved an estimated sensitivity 0.930 (95% CI: [0.879, 0.969]), specificity of 0.996 (95% CI: [0.989, 1.00]), positive predictive value of 0.979 (95% CI: [0.959, 1.000]), and negative predictive value of 0.987 (95% CI: [0.976, 0.994]). for distinguishing lung cancer from subjects with SPNs. This work represents a strategy for high-throughput curation of multi-modal longitudinal cohorts at risk for lung cancer from routinely collected EHRs.
Auteurs: Thomas Z Li, K. Xu, N. C. Chada, H. Chen, M. Knight, S. Antic, K. L. Sandler, F. Maldonado, B. Landman, T. A. Lasko
Dernière mise à jour: 2023-11-04 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2023.11.03.23298020
Source PDF: https://www.medrxiv.org/content/10.1101/2023.11.03.23298020.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.