Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Éducation médicale

L'IA dans l'éducation médicale : Une étude des LLMs

Une étude compare les capacités de l'IA à celles des étudiants en médecine lors des évaluations.

― 6 min lire


IA contre les étudiantsIA contre les étudiantsen médecine dans lestestsdans les évaluations médicales.Une étude révèle la performance des LLM
Table des matières

Les grands modèles de langage (LLMs) comme ChatGPT et GPT-4 ont montré des compétences impressionnantes pour comprendre et générer du langage humain. Ils peuvent répondre à des questions, engager des conversations et même raisonner sur des problèmes complexes. Récemment, il y a eu un intérêt croissant pour l'utilisation de ces LLMs dans l'éducation, surtout dans la formation médicale.

Cet article se concentre sur une étude comparant les performances de deux LLMs, ChatGPT et GPT-4, par rapport à des Étudiants en médecine lors d'un test de progression formel à l'Université de Toronto. Le but de cette comparaison est de voir à quel point ces outils IA peuvent performer dans un cadre académique et ce que cela signifie pour l'avenir de l'éducation médicale.

Contexte de l'étude

L'étude a impliqué au total 1 057 étudiants en médecine qui ont passé un test de progression complet dans le cadre de leur formation. Ce test consistait en 100 Questions à choix multiples conçues pour évaluer les connaissances médicales et les compétences en prise de décision. Les questions couvraient divers sujets pertinents pour un étudiant en médecine en fin de cycle, comme la présentation clinique, les diagnostics, et les aspects juridiques et éthiques de la médecine.

ChatGPT et GPT-4 ont reçu le même ensemble de questions exactement telles qu'elles apparaissaient dans le test. Les réponses de chaque modèle ont ensuite été évaluées par un médecin formé pour déterminer si elles étaient correctes ou non. L'étude a également examiné le temps que chaque IA a mis pour fournir des réponses, la longueur de ces réponses, et si l'IA donnait des raisons pour soutenir ses choix.

Résultats de l'étude

La performance des étudiants en médecine s'est améliorée chaque année de leur formation. Les étudiants en première année ont répondu correctement à 36,3 % des questions en moyenne, tandis que les étudiants de quatrième année ont répondu correctement à 58,5 %. En comparaison, GPT-4 a obtenu un score de 79 %, tandis que ChatGPT a marqué 68 %. La performance de GPT-4 était remarquablement similaire à celle de l’étudiant en médecine le plus performant.

Les deux chatbots avaient des temps de réponse similaires, mais les réponses de ChatGPT étaient généralement plus longues. ChatGPT a aussi fourni des raisonnements pour ses réponses plus fréquemment que GPT-4.

En analysant les types d'erreurs commises par chaque IA, on a découvert que les deux systèmes faisaient plus souvent des Erreurs logiques que des erreurs d'information ou statistiques. Les erreurs logiques se produisaient quand l'IA avait les bonnes informations mais ne les appliquait pas correctement, tandis que les erreurs d'information étaient dues à l'absence de faits nécessaires, et les erreurs statistiques étaient liées à des calculs incorrects.

Observations détaillées

En passant en revue les réponses incorrectes, trois thèmes principaux concernant les processus de raisonnement de l'IA ont émergé :

  1. L'IA manquait souvent des détails importants dans les questions, comme des points clés de l'historique médical ou des résultats de laboratoire critiques.
  2. L'IA ne privilégiait pas les étapes d'investigation ou de gestion essentielles requises pour les questions.
  3. L'IA échouait parfois à choisir les réponses les plus pratiques ou cliniquement pertinentes.

Ces observations soulignent que, bien que les LLMs puissent générer des réponses basées sur des schémas appris à partir de leurs données d'entraînement, ils ont encore du mal avec certains aspects de la pensée critique qui sont vitaux pour la prise de décision médicale.

Discussion

Les résultats montrent que les LLMs peuvent performer à un niveau comparable à celui des étudiants en médecine humains dans certains domaines, notamment en répondant à des questions à choix multiples. La recherche souligne les avantages potentiels de l'utilisation de l'IA dans l'éducation médicale. Ces outils pourraient aider les étudiants à se préparer pour les examens en fournissant des questions pratiques et des retours, améliorant ainsi leurs expériences d'apprentissage.

Alors que l'éducation médicale continue d'évoluer, les LLMs pourraient potentiellement jouer un rôle dans le développement de nouvelles méthodes d'enseignement. Certains chercheurs proposent que l'IA pourrait aider à créer des Scénarios cliniques simulés, à générer des dossiers de cas patients, et à fournir des plans d'étude personnalisés.

Cependant, il y a des défis à prendre en compte. Les limites de l'étude incluent l'évaluation d'un seul test dans une seule institution. À l'avenir, il faut davantage de recherches pour évaluer la performance des LLMs dans divers examens et environnements éducatifs. Il est aussi important d'établir des méthodes sécurisées et transparentes pour évaluer les réponses de l'IA.

Directions futures

Avec l'extension de l'utilisation de l'IA dans l'éducation, son application en médecine pourrait bouleverser la façon dont la formation est conduite. Il faut explorer comment les LLMs peuvent améliorer les expériences d'apprentissage des étudiants et contribuer à de meilleurs résultats éducatifs. D'autres études pourraient se concentrer sur l'intégration de ces outils dans les programmes de médecine, en évaluant leur impact sur la rétention des connaissances, et en déterminant les meilleures pratiques pour leur utilisation.

Alors que la technologie LLM continue de s'améliorer, son potentiel pour aider dans l'éducation médicale grandit. Les éducateurs doivent rester informés des avancées en cours dans l'IA et considérer comment ces outils peuvent être utilisés efficacement dans l'enseignement. Il est crucial de traiter les implications éthiques et pratiques de l'utilisation de l'IA dans un domaine aussi sensible que la santé.

Conclusion

Cette étude contribue à la compréhension croissante de la façon dont les LLMs peuvent performer dans des environnements académiques à enjeux élevés, spécifiquement dans l'éducation médicale. Bien que ces outils IA montrent des promesses pour répondre aux questions avec précision, il reste encore de la place pour l'amélioration. La performance de GPT-4 au niveau des meilleurs étudiants en médecine indique que les LLMs pourraient servir de ressources précieuses pour former les futurs professionnels de la santé.

Alors que la recherche continue, il est essentiel d'explorer comment les LLMs peuvent être intégrés efficacement dans l'éducation et quel rôle ils pourraient jouer dans la formation médicale future. En abordant à la fois les avantages et les défis, nous pouvons créer une approche équilibrée pour incorporer l'IA dans l'éducation qui soutient l'apprentissage des étudiants et améliore l'ensemble des méthodes d'enseignement.

Source originale

Titre: Comparing the Performance of ChatGPT and GPT-4 versus a Cohort of Medical Students on an Official University of Toronto Undergraduate Medical Education Progress Test

Résumé: AO_SCPLOWBSTRACTC_SCPLOWO_ST_ABSBackgroundC_ST_ABSLarge language model (LLM) based chatbots have recently received broad social uptake; demonstrating remarkable abilities in natural language understanding, natural language generation, dialogue, and logic/reasoning. ObjectiveTo compare the performance of two LLM-based chatbots, versus a cohort of medical students, on a University of Toronto undergraduate medical progress test. MethodsWe report the mean number of correct responses, stratified by year of training/education, for each cohort of undergraduate medical students. We report counts/percentages of correctly answered test questions for each of ChatGPT and GPT-4. We compare the performance of ChatGPT versus GPT-4 using McNemars test for dependent proportions. We compare whether the percentage of correctly answered test questions for ChatGPT or GPT-4 fall within/outside the confidence intervals for the mean number of correct responses for each of the cohorts of undergraduate medical education students. ResultsA total of N=1057 University of Toronto undergraduate medical students completed the progress test during the Fall-2022 and Winter-2023 semesters. Student performance improved with increased training/education levels: UME-Year1 mean=36.3%; UME-Year2 mean=44.1%; UME-Year3 mean=52.2%; UME-Year4 mean=58.5%. ChatGPT answered 68/100 (68.0%) questions correctly; whereas, GPT-4 answered 79/100 (79.0%) questions correctly. GPT-4 performance was statistically significantly greater than ChatGPT (P=0.034). GPT-4 performed at a level equivalent to the top performing undergraduate medical student (79/100 questions correctly answered). ConclusionsThis study adds to a growing body of literature demonstrating the remarkable performance of LLM-based chatbots on medical tests. GPT-4 performed at a level comparable to the best performing undergraduate medical student who attempted the progress test in 2022/2023. Future work will investigate the potential application of LLM-chatbots as tools for assisting learners/educators in medical education.

Auteurs: Christopher Meaney, R. S. Huang, K. Lu, A. W. Fischer, F.-H. Leung, K. Kulasegaram, K. Tzanetos, A. Punnett

Dernière mise à jour: 2023-09-14 00:00:00

Langue: English

Source URL: https://www.medrxiv.org/content/10.1101/2023.09.14.23295571

Source PDF: https://www.medrxiv.org/content/10.1101/2023.09.14.23295571.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires