Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Informatique de santé

Utiliser l'IA pour améliorer le phénotypage des patients

Des chercheurs explorent les LLMs pour améliorer le phénotypage des DSE pour les problèmes de santé.

― 7 min lire


IA dans le phénotypageIA dans le phénotypagedes DSEalgorithmes de condition de santé.Les LLM peuvent aider à développer des
Table des matières

Les Dossiers de santé électroniques (DSE) sont des versions numériques des dossiers papier des patients. Un élément clé des DSE est le Phénotypage, qui consiste à identifier les patients en fonction de leurs caractéristiques observables en utilisant les données de ces dossiers. Ces infos sont cruciales pour la recherche sur la santé et la médecine.

Le phénotypage nécessite de créer des Algorithmes complexes qui peuvent classer avec précision les informations des patients. Ces algorithmes aident les chercheurs à identifier les patients avec des problèmes de santé spécifiques et à sélectionner des groupes de contrôle appropriés pour des comparaisons significatives. Cependant, créer des phénotypes DSE efficaces est un processus long qui demande beaucoup d'expertise en médecine clinique et en gestion des données.

Approches actuelles du phénotypage

Il existe différentes méthodes pour développer des algorithmes de phénotypage. Une approche repose sur des règles établies par des experts cliniques qui choisissent des critères spécifiques, comme des codes de diagnostic, des médicaments et des tests de laboratoire, pour définir le phénotype d'intérêt. Ces algorithmes fonctionnent généralement mieux quand ils sont soigneusement affinés et validés par rapport aux méthodes automatisées utilisant l'apprentissage machine. Cependant, la nature détaillée de ce processus limite sa mise en œuvre à grande échelle.

De plus, quand ces algorithmes sont utilisés par différents systèmes de santé, ils nécessitent souvent des ajustements supplémentaires pour s'adapter à différentes bases de données et systèmes DSE, ce qui ajoute à la charge de travail.

Le rôle des grands modèles de langage (GML)

Récemment, des chercheurs ont commencé à explorer l'utilisation de grands modèles de langage (GML), qui sont des outils d'IA avancés capables de traiter et de générer du texte ressemblant à du texte humain. Ces modèles ont montré qu'ils peuvent extraire des informations et résumer du contenu, ce qui pourrait aider au phénotypage en accélérant le processus de revue de la littérature.

Des études se sont concentrées sur la façon dont les GML peuvent extraire des informations phénotypiques à partir de notes cliniques non structurées. Par exemple, une étude a trouvé qu'un modèle open-source spécifique pouvait extraire efficacement des concepts pertinents des résumés de sortie liés à une condition médicale connue sous le nom d'hémorragie du postpartum.

L'étude

Dans cette étude, les chercheurs ont testé si les GML pouvaient aider à créer des algorithmes pour trois problèmes de santé courants : le diabète de type 2, la démence et l'hypothyroïdie. Ils ont examiné quatre GML : GPT-4, GPT-3.5, Claude 2 et Bard.

Les GML ont été évalués en fonction de leur capacité à générer des algorithmes destinés à identifier des cas de ces conditions dans des données DSE structurées. Les chercheurs ont créé un processus pour l'étude qui comprenait deux parties principales : inciter les modèles à produire des algorithmes et ensuite évaluer la qualité de ces algorithmes.

Incitation des GML

Pour commencer, les chercheurs ont incité les GML à générer des requêtes SQL, un langage de codage utilisé pour interagir avec des bases de données. Ils se sont concentrés spécifiquement sur l'utilisation de codes pour les diagnostics et les tests de laboratoire pertinents pour chaque phénotype.

Ils ont utilisé deux stratégies pour inciter les modèles : α-incitation et β-incitation. L'α-incitation impliquait de créer une version initiale de l'algorithme puis de la convertir en requête SQL fonctionnelle. La β-incitation impliquait de prendre les requêtes SQL initiales et de demander aux modèles d'évaluer leur qualité, itérant sur les résultats précédents pour les améliorer.

Évaluation des algorithmes

Pour évaluer les algorithmes produits, des experts cliniques les ont examinés selon trois critères :

  1. À quel point le GML a suivi les instructions de demande.
  2. La capacité du GML à synthétiser des infos pertinentes en un algorithme cohérent.
  3. L'efficacité de l'algorithme à être présenté d'une manière qui pourrait être exécutée dans une base de données.

Après l'évaluation, les chercheurs ont comparé les algorithmes générés par les GML à des algorithmes établis reconnus par la communauté médicale. Ils ont analysé à quel point les concepts dans les algorithmes des GML correspondaient à ceux des algorithmes précédemment validés.

Résultats de l'étude

L'étude a révélé que GPT-4 et GPT-3.5 ont beaucoup mieux performé que Claude 2 et Bard pour produire des algorithmes utilisables. La raison principale de cette différence était la capacité des modèles GPT à spécifier quels critères cliniques étaient nécessaires, alors que les autres modèles ont souvent mal représenté des concepts ou même échoué à suivre la structure requise.

Les deux modèles, GPT-4 et GPT-3.5, ont pu générer des algorithmes incluant des codes de diagnostic pertinents, des tests de laboratoire et des médicaments. Ils étaient généralement précis mais incluaient aussi quelques critères incorrects, ce qui est préoccupant pour une utilisation pratique.

Observations clés

Pour le diabète de type 2, les deux modèles ont identifié les codes et tests de laboratoire pertinents associés à la condition. Cependant, ils ont raté certains médicaments importants et il y avait quelques inexactitudes dans les critères qu'ils ont utilisés.

Pour la démence, les deux modèles ont inclus des codes diagnostics pertinents et des symptômes mais n'étaient pas entièrement alignés avec les normes établies. Ils ont aussi inclus des médicaments qui ne faisaient pas partie des algorithmes précédemment validés.

Dans le cas de l'hypothyroïdie, les modèles ont correctement identifié divers codes de diagnostic et tests mais différaient dans le nombre de médicaments et de critères qu'ils utilisaient par rapport à l'algorithme établi.

Mise en œuvre et évaluation pratique

Les algorithmes créés par les GML ont été testés sur un grand ensemble de données dans un vrai cadre de santé. Bien que les algorithmes GPT-4 et GPT-3.5 aient bien performé, certains nécessitaient des ajustements pour fonctionner correctement en pratique. Certains modèles ont mal géré les données de manière à rendre difficile l'identification correcte des patients.

La performance des algorithmes a été mesurée à l'aide de métriques comme la valeur prédictive positive et le rappel, qui indiquent à quel point les algorithmes ont correctement identifié des cas et combien de cas ils ont ratés.

Conclusion

L'étude a conclu que les GML comme GPT-4 et GPT-3.5 ont le potentiel d'aider à créer des premiers jets d'algorithmes pour identifier des problèmes de santé basés sur les DSE. Ces modèles peuvent repérer des critères cliniques pertinents et pourraient réduire considérablement le temps que les experts passent sur la revue de la littérature et la synthèse des données.

Cependant, malgré ces résultats prometteurs, l'expertise en médecine clinique et en gestion des données reste essentielle pour examiner et améliorer les algorithmes produits par les GML. Les modèles ne peuvent actuellement pas créer des algorithmes entièrement prêts à l'emploi sans un affinement supplémentaire.

À l'avenir, les chercheurs prévoient d'explorer d'autres capacités des GML et comment ils pourraient être ajustés pour de meilleures performances. Il y a aussi de l'intérêt à examiner leur efficacité pour générer des algorithmes d'identification de contrôles, pas juste de cas, et d'élargir l'étude pour inclure une plus grande variété de maladies et de scénarios.

Dans l'ensemble, même si les GML montrent du potentiel pour accélérer le processus de phénotypage DSE, une collaboration entre outils IA et expertise humaine reste essentielle pour réussir dans ce domaine.

Source originale

Titre: Large Language Models Facilitate the Generation of Electronic Health Record Phenotyping Algorithms

Résumé: ObjectivesPhenotyping is a core task in observational health research utilizing electronic health records (EHRs). Developing an accurate algorithm demands substantial input from domain experts, involving extensive literature review and evidence synthesis. This burdensome process limits scalability and delays knowledge discovery. We investigate the potential for leveraging large language models (LLMs) to enhance the efficiency of EHR phenotyping by generating high-quality algorithm drafts. Materials and MethodsWe prompted four LLMs--GPT-4 and GPT-3.5 of ChatGPT, Claude 2, and Bard--in October 2023, asking them to generate executable phenotyping algorithms in the form of SQL queries adhering to a common data model (CDM) for three phenotypes (i.e., type 2 diabetes mellitus, dementia, and hypothyroidism). Three phenotyping experts evaluated the returned algorithms across several critical metrics. We further implemented the top-rated algorithms and compared them against clinician-validated phenotyping algorithms from the Electronic Medical Records and Genomics (eMERGE) network. ResultsGPT-4 and GPT-3.5 exhibited significantly higher overall expert evaluation scores in instruction following, algorithmic logic, and SQL executability, when compared to Claude 2 and Bard. Although GPT-4 and GPT-3.5 effectively identified relevant clinical concepts, they exhibited immature capability in organizing phenotyping criteria with the proper logic, leading to phenotyping algorithms that were either excessively restrictive (with low recall) or overly broad (with low positive predictive values). ConclusionGPT versions 3.5 and 4 are capable of drafting phenotyping algorithms by identifying relevant clinical criteria aligned with a CDM. However, expertise in informatics and clinical experience is still required to assess and further refine generated algorithms.

Auteurs: Wei-Qi Wei, C. Yan, H. Ong, M. Grabowska, M. Krantz, W.-C. Su, A. Dickson, J. F. Peterson, Q. Feng, D. M. Roden, C. M. Stein, V. E. Kerchberger, B. A. Malin

Dernière mise à jour: 2024-02-26 00:00:00

Langue: English

Source URL: https://www.medrxiv.org/content/10.1101/2023.12.19.23300230

Source PDF: https://www.medrxiv.org/content/10.1101/2023.12.19.23300230.full.pdf

Licence: https://creativecommons.org/licenses/by-nc/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires