Les chatbots évaluent les performances aux examens médicaux
Une étude évalue l'efficacité des chatbots IA dans les examens de licence médicale.
― 7 min lire
Table des matières
- Premières Observations sur la Performance des Chatbots
- Inquiétudes et Potentiel
- Aperçu de l'Étude
- Méthodologie
- Évaluation de la Performance
- Résultats de la Performance de l'Examen
- Raisons des Erreurs
- Questions Faibles Identifiées
- Comparaison des Réponses des Bots
- Conclusions
- Recommandations pour une Utilisation Future
- Considérations Futures
- Source originale
L'intelligence artificielle (IA) est en train de transformer plein de domaines, y compris la médecine et la façon dont les Étudiants en médecine apprennent. Un outil intéressant, c'est les Chatbots IA, qui peuvent aider à la formation et à l'éducation. Ces chatbots peuvent offrir des pratiques simulées, donner des retours personnalisés et aider dans la formation clinique. Mais avant de les utiliser dans les programmes médicaux, faut voir comment ils fonctionnent vraiment.
Premières Observations sur la Performance des Chatbots
Quand les chatbots ont débarqué, les écoles de médecine ont commencé à les tester avec des simulations d'Examens. Les résultats ont montré que certains chatbots donnaient des réponses correctes et sensées, tandis que d'autres faisaient des erreurs claires ou sortaient des réponses confiantes mais fausses. Ces problèmes peuvent venir des données utilisées pour entraîner les bots, qui peuvent être biaisées ou contenir de fausses infos. Globalement, les chatbots ont généralement eu une note autour de la moyenne, avec certains qui surpassaient les étudiants. Leur performance était souvent meilleure sur des questions plus simples et quand les examens étaient en anglais. À mesure que les examens devenaient plus difficiles, les scores des chatbots tombaient. Cela dit, les nouvelles versions de ces bots ont tendance à mieux performer que les anciennes, ce qui montre qu'ils s'améliorent avec le temps.
Inquiétudes et Potentiel
Les écoles commencent à craindre le potentiel de triche aux examens avec ces chatbots. Mais ils peuvent aussi être utiles pour créer des tests en identifiant des questions floues ou mal formulées. Il n'y a pas eu beaucoup de recherches comparant différents chatbots, et les études existantes se concentrent souvent sur quelques bots sans mesurer la fréquence de leurs erreurs.
Aperçu de l'Étude
Cette étude s'est concentrée sur un examen théorique majeur que tous les étudiants en médecine doivent réussir pour obtenir leur diplôme. L'examen s'est déroulé en 2021 en Belgique et est similaire aux examens de licence dans d'autres pays. Six chatbots différents ont été testés sur cet examen, en regardant comment chaque bot a performé. L'étude visait à mesurer leur performance, évaluer la fréquence de leurs erreurs et voir si certaines questions de l'examen étaient faibles.
Méthodologie
L'étude a reçu l'approbation du comité d'éthique de l'université. Les étudiants en médecine doivent passer un examen composé de 102 questions à choix multiples couvrant divers sujets avant de devenir médecins. Cette étude a examiné l'examen tel qu'il avait été présenté aux étudiants pendant leur formation. Les questions n'étaient pas disponibles en ligne, donc elles n'ont pas influencé l'entraînement des chatbots.
Sélection des Chatbots
Six chatbots disponibles au public ont été choisis pour les tests. Les chatbots gratuits les plus populaires incluent ChatGPT, Bard et Bing. Deux versions payantes, Claude Instant et Claude+, ainsi que GPT-4, ont également été incluses pour voir comment ils se comparent aux versions gratuites. Bien que Bing utilise la même technologie que GPT-4, il tire ses infos d'autres sources, ce qui en fait une version personnalisée.
Collecte des Données
Les questions de l'examen ont été traduites en anglais à l'aide d'un service de traduction tout en conservant le style d'écriture original. Quelques questions qui étaient locales à la Belgique ou contenant des images ont été retirées pour garantir la clarté. Les bots ont été testés sur leur capacité à répondre à ces questions, et les chercheurs ont dû relancer Bard plusieurs fois pour obtenir des réponses pour certaines questions.
Évaluation de la Performance
Le principal objectif était de voir comment bien les chatbots pouvaient répondre aux questions de l'examen. Ils ont été notés en fonction du proportion de bonnes réponses. Si un chatbot choisissait une deuxième meilleure réponse, il recevait des crédits partiels, tandis que choisir une réponse nuisible entraînait une perte de points. Les questions ont été classées en différentes catégories selon leur difficulté, type et si elles incluaient des réponses dangereuses.
L'étude a également regardé la fréquence des erreurs de chaque chatbot, y compris l'identification des problèmes avec des questions spécifiques de l'examen.
Résultats de la Performance de l'Examen
En résumé, Bing et GPT-4 ont été les meilleurs sur l'examen avec un score de 76%, tandis que la moyenne pour tous les bots était de 68%. Même si tous les bots ont mal répondu à certaines questions, Bard n'a sélectionné aucune réponse incorrecte ou dangereuse. Bing a eu quelques secondes meilleures réponses, tandis que d'autres bots en avaient plus. Bard a eu du mal à répondre à plusieurs questions et avait souvent besoin d'être relancé.
En regardant les questions difficiles, les bots ont fait mieux que les étudiants, qui avaient une moyenne de score nettement plus basse. L'étude a trouvé que Bing et GPT-4 étaient particulièrement forts sur les questions faciles mais galéraient sur les plus complexes.
Raisons des Erreurs
Pour les réponses incorrectes, l'étude a examiné à quelle fréquence les bots ont donné des réponses qui n'avaient pas de sens ou qui étaient fausses. Bing a eu moins de réponses absurdes que Bard et Claude Instant mais a quand même fait quelques erreurs. Ces erreurs surgissaient souvent à cause d'un malentendu du contexte des questions.
Questions Faibles Identifiées
Pendant l'analyse, quelques questions ont été identifiées comme faibles ou floues. Par exemple, une question sur quand commencer une thérapie de remplacement rénal avait des options trompeuses qui pouvaient embrouiller aussi bien les bots que les étudiants.
Comparaison des Réponses des Bots
Parmi tous les bots, certains ont performé de manière similaire, tandis que d'autres avaient de plus grandes différences en précision. Les chercheurs ont également regardé à quel point les bots étaient d'accord entre eux sur les réponses. Globalement, il y avait un niveau d'accord modéré.
Conclusions
L'étude a mis en avant des différences significatives entre les chatbots en termes de performance sur l'examen de licence médicale. Bing a été reconnu pour sa fiabilité, car il a fait moins d'erreurs par rapport aux autres bots. Bien que les améliorations de la performance des chatbots soient encourageantes, il est essentiel de rester prudent quant à leur utilisation pour des connaissances médicales. Les résultats soulèvent aussi des questions sur l'efficacité des examens à choix multiples pour évaluer les compétences dont les futurs médecins ont besoin, surtout quand il s'agit d'interaction humaine.
Recommandations pour une Utilisation Future
Bing pourrait être un outil utile pour identifier les questions mal formulées dans les examens, économisant du temps et des efforts aux enseignants. Les résultats suggèrent également que les chatbots pourraient être particulièrement utiles dans les domaines où les étudiants ont du mal, surtout sur les questions difficiles.
L'étude appelle à plus de recherches pour explorer comment les chatbots performent sur différents types de questions et dans divers contextes éducatifs. Il est clair que bien que les chatbots puissent être des outils utiles, ils ne doivent pas être confondus avec de vrais professionnels de la médecine.
Considérations Futures
À mesure que l'utilisation de l'IA dans l'éducation se développe, des questions éthiques et juridiques doivent être abordées, y compris la consommation d'énergie, la confidentialité des données et l'utilisation appropriée du matériel protégé par le droit d'auteur. Avant de mettre en œuvre l'IA de manière plus large dans l'éducation médicale, il est crucial de mieux comprendre ces questions.
Dans l'ensemble, même si six chatbots IA ont réussi un examen Médical important, Bing et GPT-4 se sont révélés être les plus efficaces. Cependant, les faiblesses des bots, surtout sur les questions difficiles, soulignent la nécessité de plus de recherches et d'améliorations avant qu'ils puissent être pleinement fiables dans un cadre médical.
Titre: Microsoft Bing outperforms five other generative artificial intelligence chatbots in the Antwerp University multiple choice medical license exam
Résumé: Recently developed chatbots based on large language models (further called bots) have promising features which could facilitate medical education. Several bots are freely available, but their proficiency has been insufficiently evaluated. In this study the authors have tested the current performance on the multiple-choice medical licensing exam of University of Antwerp (Belgium) of six widely used bots: ChatGPT (OpenAI), Bard (Google), New Bing (Microsoft), Claude instant (Anthropic), Claude+ (Anthropic) and GPT-4 (OpenAI). The primary outcome was the performance on the exam expressed as a proportion of correct answers. Secondary analyses were done for a variety of features in the exam questions: easy versus difficult questions, grammatically positive versus negative questions, and clinical vignettes versus theoretical questions. Reasoning errors and untruthful statements (hallucinations) in the bots answers were examined. All bots passed the exam; Bing and GPT-4 (both 76% correct answers) outperformed the other bots (62-67%, p= 0.03) and students (61%). Bots performed worse on difficult questions (62%, p= 0.06), but outperformed students (32%) on those questions even more (p
Auteurs: Stefan Morreel, V. Verhoeven, D. Mathysen
Dernière mise à jour: 2023-08-21 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2023.08.18.23294263
Source PDF: https://www.medrxiv.org/content/10.1101/2023.08.18.23294263.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.