Modèles de langage IA dans les examens médicaux : une étude
Cette étude évalue la performance des modèles GPT lors de l'examen final médical polonais.
― 9 min lire
Table des matières
L'intelligence artificielle (IA) est en train de transformer plein de domaines, et la médecine ne fait pas exception. L'un des développements les plus intéressants, c'est la création de grands modèles de langage (LLM). Ces modèles peuvent analyser et créer du texte qui ressemble vraiment à l'écriture humaine. Ils ont montré une super capacité à comprendre les émotions dans un texte, traduire des langues, résumer des infos, et répondre à des questions.
Avec toutes ces compétences, y'a un intérêt croissant à utiliser ces modèles en médecine et dans les soins de santé. Récemment, l'IA a encore plus fait parler d'elle avec le lancement de ChatGPT, un chatbot développé par OpenAI. ChatGPT est rapidement devenu populaire, attirant des millions d'utilisateurs peu de temps après sa sortie.
Qu'est-ce que ChatGPT ?
ChatGPT, c'est un des grands modèles de langage développés par OpenAI, sorti fin 2022. Ce modèle est basé sur la version GPT-3.5 d'un type d'IA qu'on appelle générateur de transformer pré-entraîné. Il a été entraîné avec une méthode appelée apprentissage par renforcement basé sur les retours humains. Ce processus d'entraînement a trois étapes principales :
- D'abord, des entraîneurs ont montré au modèle quelles réponses étaient souhaitées.
- Ensuite, un modèle de récompense a été créé en fonction de la capacité du modèle à bien classer différentes réponses.
- Enfin, le modèle a été amélioré grâce à ce modèle de récompense.
En mars 2023, une version mise à jour, appelée GPT-4, a été lancée, mais l'accès à ce nouveau modèle était limité aux abonnés payants. Les deux modèles, GPT-3.5 et GPT-4, ont été entraînés avec des données disponibles seulement jusqu'en septembre 2021, donc ils n'avaient pas d'infos sur des développements plus récents.
Ces modèles ont été testés sur un examen assez large, le Massive Multitask Language Understanding test, avec GPT-4 qui a mieux performé que d'autres modèles dans plusieurs langues.
Le rôle des modèles de langage dans les examens médicaux
Pour voir à quel point ces modèles de langage peuvent bien fonctionner en milieu médical, ils doivent être évalués à travers des tests médicaux spécifiques. En médecine, l'expertise des professionnels formés est cruciale pour poser des diagnostics précis, proposer des traitements efficaces et garantir la sécurité des patients. Des examens rigoureux, comme les tests de licence médicale, évaluent les connaissances et compétences des diplômés en médecine avant qu'ils ne commencent à pratiquer de manière autonome. Ces tests couvrent divers sujets médicaux, ce qui en fait une bonne manière d’évaluer des modèles de langage comme GPT-3.5 et GPT-4.
Récemment, des études ont montré que GPT-3.5 a été testé sur des examens médicaux importants comme l'examen de licence médicale des États-Unis, ainsi que sur des tests au Japon et en Chine. La performance de GPT-3.5 a également été examinée sur plusieurs bases de données médicales. Notamment, GPT-3.5 a bien performé dans une enquête sur le dépistage du cancer du sein, atteignant un haut niveau de précision. Cependant, aucune recherche n'a encore été faite pour voir comment GPT-3.5 et GPT-4 se débrouillent sur des examens médicaux en Europe.
Évaluation des modèles GPT sur l'examen médical polonais
Cette étude avait pour but de tester les performances de GPT-3.5 et GPT-4 sur l'examen final médical polonais. Cet examen est requis pour quiconque souhaite pratiquer la médecine en Pologne et consiste en 200 questions, chacune avec cinq choix de réponses. Pour réussir, les candidats doivent répondre correctement à au moins 56 % des questions.
Pour l'évaluation, les deux modèles ont été testés sur trois éditions de cet examen : printemps 2022, automne 2022, et printemps 2023. Toutes les questions et leurs réponses correctes étaient disponibles en ligne, de même que les scores moyens des véritables diplômés en médecine.
Pour chaque question, GPT-4 a reçu les questions et les choix de réponses en entrée. GPT-3.5 a été accessible via une API pour accélérer le processus de réponse. La précision pour chaque version du modèle a été calculée en divisant le nombre de bonnes réponses par le nombre total de questions. Certaines questions jugées obsolètes ou invalides, ainsi que celles contenant des images, ont été exclues de l'évaluation.
Des méthodes statistiques, comme l'analyse de corrélation, ont ensuite été utilisées pour explorer la relation entre la précision des réponses et la difficulté des questions.
Résultats des examens
Les résultats ont montré que GPT-3.5 a réussi deux des trois versions de l'examen, tandis que GPT-4 a réussi les trois. Les scores détaillés et les pourcentages de précision ont montré comment les deux modèles se comparent aux scores moyens des diplômés en médecine. GPT-4 a surpassé GPT-3.5 en termes de nombre de bonnes réponses et de précision globale dans ces examens.
Un point important à retenir est que GPT-4 a montré une amélioration significative des Connaissances médicales par rapport à GPT-3.5. Les deux modèles ont affiché un lien entre leur précision et la difficulté des questions médicales, indiquant qu'ils manquent encore de profondeur dans ce domaine. Fait intéressant, ils ont aussi montré une relation négative entre la justesse des réponses et l'indice de pouvoir discriminant, ce qui suggère que certaines questions ont pu mener à des résultats trompeurs.
Alors que GPT-4 a obtenu des scores légèrement inférieurs à ceux des étudiants en médecine en moyenne, il a mieux performé que ceux ayant obtenu leur diplôme il y a plus de deux ans. Les résultats globaux suggèrent que GPT-4, même s'il est impressionnant, a encore des zones à améliorer par rapport aux diplômés en médecine plus récents.
Comparaisons avec d'autres études
Les résultats de cette étude s'alignent avec des recherches précédentes venant d'autres pays, notamment en Amérique du Nord et en Asie. Par exemple, GPT-3.5 a bien réussi l'USMLE, montrant une amélioration par rapport aux modèles précédents. Des études ont indiqué que GPT-4 a aussi surpassé GPT-3.5 sur d'autres examens médicaux importants.
Plusieurs raisons expliquent pourquoi les modèles de langage n'ont pas réussi à 100 %. D'abord, ces modèles sont généralistes et ne sont pas spécifiquement conçus pour la médecine. Aussi, la langue utilisée dans les tests était le polonais, donc il y a moins de données d'entraînement disponibles par rapport à des langues comme l'anglais. La performance peut être améliorée si ces modèles sont ajustés avec des données médicales plus spécifiques et des ressources linguistiques.
L'avenir de l'IA en médecine
L'émergence de puissants modèles de langage pourrait vraiment influencer l'avenir de la médecine. Ces modèles pourraient aider les étudiants en médecine à apprendre en créant des matériaux éducatifs personnalisés, aider les médecins à mieux communiquer avec les patients, et soutenir la prise de décision clinique avec des explications détaillées des cas médicaux.
De plus, l'IA a le potentiel d'améliorer la manière dont les notes médicales sont prises, de résumer les résultats de tests, et d'assister dans les processus de prise de décision. Des découvertes récentes montrent que les réponses de l'IA peuvent être préférées à celles des médecins humains dans certains contextes, indiquant que l'IA pourrait améliorer la qualité de l'assistance médicale en ligne.
Cependant, il reste essentiel de vérifier l'exactitude de toutes les réponses générées par ces modèles d'IA, car ils peuvent parfois fournir des informations ou des références incorrectes. Il est crucial d'aborder ces outils avec prudence, en reconnaissant que, même s'ils peuvent être précieux, le jugement humain est toujours nécessaire dans les milieux médicaux.
Limites de l'étude
Bien que cette étude mette en lumière le potentiel de l'IA en médecine, elle a quelques limites. Elle s'est concentrée uniquement sur l'examen final médical polonais, ce qui peut restreindre l'application des résultats à d'autres scénarios de tests médicaux. De plus, le format de l'examen permet la possibilité de répondre correctement à des questions par chance, et non seulement par connaissance.
Bien que GPT-4 ait mieux performé que GPT-3.5, les deux modèles ont encore des marges d'amélioration en précision par rapport aux scores moyens des étudiants en médecine. Les futures recherches devraient viser à ajuster ces modèles et évaluer leurs utilisations possibles dans divers domaines médicaux, y compris l'aide au diagnostic, la prise de décision clinique, et l'éducation médicale.
En testant les LLM avec des questions plus complexes et ouvertes et en faisant réaliser des évaluations par des professionnels de la santé, on pourrait obtenir une image plus claire de leurs capacités potentielles. Cela aiderait à déterminer comment mieux intégrer l'IA dans les pratiques médicales actuelles, en s'assurant que ces outils puissent fournir un soutien fiable tant pour l'éducation que pour les applications cliniques.
Titre: Evaluation of the performance of GPT-3.5 and GPT-4 on the Medical Final Examination
Résumé: IntroductionThe rapid progress in artificial intelligence, machine learning, and natural language processing has led to the emergence of increasingly sophisticated large language models (LLMs) enabling their use in various applications, including medicine and healthcare. ObjectivesThe study aimed to evaluate the performance of two LLMs: ChatGPT (based on GPT-3.5) and GPT-4, on the Medical Final Examination (MFE). MethodsThe models were tested on three editions of the MFE from: Spring 2022, Autumn 2022, and Spring 2023 in two language versions - English and Polish. The accuracies of both models were compared and the relationships between the correctness of answers with the index of difficulty and discrimination power index were investigated. ResultsThe study demonstrated that GPT-4 outperformed GPT-3.5 in all three examinations regardless of the language used. GPT-4 achieved mean accuracies of 80.7% for Polish and 79.6% for English, passing all MFE versions. GPT-3.5 had mean accuracies of 56.6% for Polish and 58.3% for English, passing 2 of 3 Polish versions and all 3 English versions of the test. GPT-4 score was lower than the average score of a medical student. There was a significant positive and negative correlation between the correctness of the answers and the index of difficulty and discrimination power index, respectively, for both models in all three exams. ConclusionsThese findings contribute to the growing body of literature on the utility of LLMs in medicine. They also suggest an increasing potential for the usage of LLMs in terms of medical education and decision-making support. Whats new?Recent advancements in artificial intelligence and natural language processing have resulted in the development of sophisticated large language models (LLMs). This study focused on the evaluation of the performance of two LLMs, ChatGPT (based on GPT-3.5) and GPT-4, on the Medical Final Examination across English and Polish versions from three editions. This study, to the best of our knowledge, presents the first validation of those models on the European-based medical final examinations. The GPT-4 outperformed GPT-3.5 in all exams, achieving mean accuracy of 80.7% (Polish) and 79.6% (English), while GPT-3.5 attained 56.6% (Polish) and 58.3% (English) respectively. However, GPT-4s scores fell short of typical medical student performance. These findings contribute to understanding LLMs utility in medicine and hint at their potential in medical education and decision-making support.
Auteurs: Maciej Rosol, J. S. Gasior, J. Laba, K. Korzeniewski, M. Mlynczak
Dernière mise à jour: 2023-08-16 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2023.06.04.23290939
Source PDF: https://www.medrxiv.org/content/10.1101/2023.06.04.23290939.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.