IA en Médecine d'Urgence : Le Potentiel de ChatGPT
Une étude montre que ChatGPT peut évaluer l'acuité des patients efficacement.
― 7 min lire
En novembre 2022, un nouvel outil appelé ChatGPT a été lancé. Cet outil peut comprendre et générer du langage humain. Il a plein d'infos stockées, ce qui lui permet de faire diverses tâches liées au langage. Des études récentes montrent qu'il se débrouille bien sur certaines tâches, comme écrire des résumés pour des articles scientifiques et passer des examens médicaux. Mais bon, ces études se sont surtout faites dans des environnements contrôlés, et on ne savait pas vraiment comment ça marcherait avec de vrais dossiers et situations médicales.
Une partie importante du travail médical, surtout dans les urgences, c'est de déterminer à quel point la condition d'un patient est sérieuse. C'est ce qu'on appelle l'acuité clinique. Ça aide les médecins à décider du niveau de soin dont un patient a besoin. Dans cet article, on va voir si ChatGPT peut correctement identifier le patient le plus sérieux quand on lui donne des paires de patients avec des niveaux d'acuité différents.
Méthodologie
Pour réaliser cette étude, on s'est concentré sur les visites au service des urgences de l'Université de Californie à San Francisco de 2012 à 2023. On a regardé les dossiers de patients adultes qui avaient un niveau d'acuité défini quand ils venaient aux urgences. Les niveaux d'acuité allaient de Immédiat (le plus sérieux) à Non-Urgent (le moins sérieux). On a aussi examiné les notes des médecins écrites pendant ces visites en enlevant toutes les infos identifiables.
À partir de cette collection d'infos, on a extrait des détails clés sur l'état de chaque patient. On s'est concentré sur trois domaines principaux : la Plaine de plainte, qui est le problème principal mentionné par le patient ; l'Histoire de la maladie actuelle, qui explique pourquoi le patient a cherché de l'aide ; et la Révision des systèmes, qui couvre d'autres problèmes de santé que le patient pourrait avoir rencontrés.
Ensuite, on a sélectionné un échantillon de 10 000 paires de patients, en s'assurant que chaque paire avait des scores d'acuité différents. On a utilisé une méthode sécurisée pour demander à ChatGPT de regarder ces paires de patients et de déterminer lequel avait un niveau d'acuité plus élevé. Pour comparer ses performances, on a aussi demandé à un médecin d'examiner manuellement un groupe plus petit de 500 paires.
Le processus a été approuvé par le comité d'éthique de l'institution, confirmant que notre utilisation de ces données, sans détails personnels, ne nécessitait pas de permission supplémentaire.
Résultats
À partir du total des visites d'adultes, on a créé notre échantillon de paires de patients, en s'assurant que les paires avaient des évaluations d'acuité différentes. On a ensuite demandé à ChatGPT d'identifier quel patient était le plus sérieux selon son historique médical.
Dans ce groupe de patients appariés, ChatGPT a correctement identifié le patient ayant une acuité plus élevée 8 354 fois sur 10 000 essais. Ça signifie que sa précision était d'environ 84 %. La performance de l'outil était même meilleure quand les niveaux d'acuité étaient plus éloignés. Par exemple, quand il s'agissait de distinguer entre les patients les plus urgents et ceux qui avaient besoin de moins d'urgence, la précision atteignait 98 %.
Pour le groupe de 500 paires que le médecin a également examinées, ChatGPT a maintenu un niveau de précision similaire, obtenant 84 % contre 86 % pour le médecin. Ça montre que la performance de ChatGPT est proche de celle d'un médecin formé utilisant juste les infos du premier passage du patient.
Discussion
Cette étude marque une étape significative dans l'évaluation des capacités de ChatGPT à évaluer des situations médicales réelles. Les résultats montrent que ChatGPT peut efficacement déterminer à quel point la condition d'un patient est sérieuse en se basant sur les infos fournies dans les notes médicales.
Quand on a comparé les performances de ChatGPT à celles d'un médecin, les deux ont obtenu des niveaux de précision similaires. Ça suggère que des modèles linguistiques comme ChatGPT pourraient jouer un rôle utile en médecine d'urgence, aidant les médecins à prendre des décisions rapides et éclairées basées sur les antécédents des patients.
Cependant, il y a quelques limitations à considérer. Par exemple, on n'a pas essayé de changer la façon dont on posait les questions à ChatGPT pour potentiellement améliorer encore sa précision. De plus, même si les scores d'acuité donnent une bonne idée de l'état d'un patient, ils ne capturent peut-être pas tous les aspects de la santé d'un patient. En outre, on n'a pas tous les détails sur la façon dont ChatGPT a été entraîné, ce qui pourrait influencer sa performance.
Malgré ces limites, les résultats sont prometteurs. Ils suggèrent qu'après tout, avec les différences entre le langage clinique et l'utilisation générale du langage, ChatGPT peut bien fonctionner dans des contextes médicaux réels.
Conclusion
La capacité de ChatGPT à identifier les patients avec différents niveaux d'acuité est encourageante pour l'avenir de la médecine d'urgence. Cet outil peut soutenir les professionnels de santé en aidant à des évaluations rapides des conditions des patients. Avec les progrès technologiques continus et plus d'études, on pourrait voir une intégration même meilleure des modèles linguistiques dans la pratique médicale.
En explorant les usages futurs de l'IA en santé, c'est important de continuer à évaluer comment ces outils fonctionnent dans des situations réelles. Ça aidera à garantir qu'ils peuvent fournir le meilleur soutien aux professionnels médicaux et, en fin de compte, améliorer les soins aux patients.
En résumé, les résultats de cette étude indiquent que ChatGPT est un outil capable de déterminer l'acuité des patients en se basant sur des infos cliniques. En regardant vers l'avenir, il pourrait y avoir des possibilités excitantes d'utiliser l'IA pour améliorer les pratiques médicales et les résultats des patients.
Directions Futures
Pour l'avenir, plus de recherches pourraient se concentrer sur comment optimiser l'utilisation de l'IA dans les contextes d'urgence. Ça pourrait inclure l'exploration de différentes manières de poser des questions, tester les capacités de ChatGPT à travers divers spécialités médicales et comprendre les implications de ses décisions dans différents contextes.
De plus, former des modèles d'IA avec des données cliniques plus spécifiques pourrait affiner leur précision dans des situations réelles. À mesure que la technologie IA progresse, cela pourrait mener à de meilleurs outils pouvant aider dans l'évaluation des patients, le triage et d'autres tâches médicales, rendant les soins de santé encore plus efficaces et efficients.
Avec une exploration continue, on pourrait voir l'IA devenir une partie standard de la pratique médicale, aidant à combler le fossé entre la technologie et les soins aux patients. Le potentiel de l'IA pour transformer la médecine d'urgence est vaste, et les études en cours seront cruciales pour façonner son rôle dans les soins de santé à l'avenir.
En conclusion, cette étude représente juste une des nombreuses étapes d'un plus grand parcours vers l'intégration de l'IA dans les soins de santé. La relation entre la technologie et la médecine évolue, et comprendre comment mieux utiliser des outils comme ChatGPT sera essentiel alors qu'on avance vers un avenir où l'IA joue un rôle clé dans le domaine médical.
Titre: Assessing clinical acuity in the Emergency Department using the GPT-3.5 Artificial Intelligence Model
Résumé: This paper evaluates the performance of the Chat Generative Pre-trained Transformer (ChatGPT; GPT-3.5) in accurately identifying higher acuity patients in a real-world clinical context. Using a dataset of 10,000 pairs of patient Emergency Department (ED) visits with varying acuity levels, we demonstrate that GPT-3.5 can successfully determine the patient with higher acuity based on clinical history sections extracted from ED physician notes. The model achieves an accuracy of 84% and an F1 score of 0.83, with improved performance for more disparate acuity scores. Among the 500 pair subsample that was also manually classified by a resident physician, GPT-3.5 achieved similar performance (Accuracy = 0.84; F1 score = 0.85) compared to the physician (Accuracy = 0.86, F1 score = 0.87). Our results suggest that, in real-world settings, GPT-3.5 can perform comparably to physicians on the clinical reasoning task of ED acuity determination.
Auteurs: Christopher Y.K. Williams, T. Zack, B. Y. Miao, M. Sushil, M. Wang, A. J. Butte
Dernière mise à jour: 2023-08-13 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2023.08.09.23293795
Source PDF: https://www.medrxiv.org/content/10.1101/2023.08.09.23293795.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.