Évaluation des modèles d'IA en radiologie : Une étude
Évaluer la précision diagnostique des modèles d'IA dans les examens de radiologie.
― 6 min lire
Table des matières
Ces dernières années, l'intelligence artificielle (IA) a fait des progrès de ouf, surtout avec les grands modèles de langage (GML). Des modèles comme ChatGPT et Claude comprennent et créent des textes qui ressemblent à l'écriture humaine. Ils ont montré de bonnes performances dans divers domaines, y compris la médecine. Des études ont examiné comment ces GML fonctionnent en Radiologie, un domaine qui utilise des images médicales pour diagnostiquer des maladies.
Le rôle de l'IA en radiologie
Les recherches montrent que les GML peuvent diagnostiquer des conditions avec précision grâce à leurs connaissances en radiologie, surtout dans des spécialités comme l'imagerie thoracique et cérébrale. Récemment, de nouveaux modèles sont arrivés, capables non seulement de traiter du texte mais aussi de comprendre des images, comme GPT-4 avec des capacités visuelles. Ces modèles peuvent analyser des images médicales, offrant des infos qui pourraient aider les radiologues dans leur boulot.
Un des nouveaux modèles, GPT-4 omni, attire l'attention par sa capacité à gérer plusieurs langues et à comprendre les images efficacement. Malgré l’excitation autour de ces modèles, peu d'études ont exploré leur précision diagnostique pour des tests de radiologie spécifiques ou des examens de certification. En plus, il n'y a pas eu d'évaluation de GPT-4o, surtout en radiologie, ou de sa performance comparée à d'autres modèles vision-langage.
Besoin d'évaluation
Étant donné que des spécialités en radiologie comme la médecine nucléaire et la radiologie interventionnelle nécessitent une analyse d'images minutieuse, c'est important de vérifier comment l'IA peut gérer ces tâches. À mesure que ces technologies sont adoptées de plus en plus dans le secteur de la santé, il est vital d'évaluer leurs forces et faiblesses dans différents aspects de la radiologie.
Le but de cette étude était de comparer différents modèles vision-langage, y compris GPT-4V, GPT-4o, Claude-3 Sonnet, et Claude-3 Opus, en examinant leur précision diagnostique sur des tests de certification de conseil japonais en radiologie diagnostique, en médecine nucléaire et en radiologie interventionnelle. L’objectif était de voir comment ces modèles s'en sortent dans des diagnostics avancés dans des domaines spécialisés.
Collecte de données
Les tests utilisés pour l'étude ont été rassemblés pendant cinq ans à partir de diverses sources officielles. Cela incluait les examens de radiologie diagnostique japonais (JDR), de médecine nucléaire japonaise (JNM) et de radiologie interventionnelle japonaise (JIR). Les questions répétées pendant la collecte de données n'ont pas été incluses. L'étude a respecté des lignes directrices éthiques et utilisé des données accessibles au public, donc aucun consentement n'était nécessaire.
Comment les modèles ont été testés
L’étude a impliqué de fournir aux modèles des scénarios de cas, des historiques de patients et des images disponibles. Chaque modèle a reçu des questions et des options formulées comme le ferait un prof chevronné en radiologie. Les modèles d’IA ont traité ces entrées pour générer des réponses. Les réponses ont été collectées sur une période donnée, et chaque modèle avait des capacités différentes concernant les questions avec ou sans images.
Par exemple, certains modèles ne répondaient qu'à des questions textuelles, tandis que d'autres pouvaient gérer à la fois texte et images. Tous les modèles ont répondu à chaque question trois fois, et la réponse la plus commune a été retenue comme réponse finale. Si le modèle fournissait des réponses différentes, la question était considérée comme incorrecte. Les bonnes réponses ont été déterminées par des radiologues expérimentés qui ont examiné chaque cas et atteint un consensus en cas de désaccord.
Analyse des résultats
La précision de chaque modèle a été mesurée sur toutes les questions, ainsi que lorsqu'il y avait des images ou non. Les résultats ont montré que GPT-4o avait la meilleure précision sur tous les tests, tandis que Claude-3 Opus se classait constamment deuxième. La plupart des modèles ont mieux performé sur des questions sans images, indiquant une difficulté à traiter efficacement les images radiologiques.
Performance dans des tests spécifiques
Le test JDR contenait des questions de formats variés, y compris celles avec plusieurs bonnes réponses. Les modèles avaient tendance à mieux gérer les questions plus simples, probablement à cause d'une complexité plus faible dans la prise de décision. Les différences de performance des modèles n'étaient pas aussi claires dans les tests JIR, qui contenaient des questions plus complexes et des inquiries liées aux traitements.
Limitations de l'étude
L'étude a rencontré plusieurs défis. Il y avait une possibilité que certaines questions utilisées aient fait partie des données d'entraînement des modèles, créant un biais potentiel dans les résultats. De plus, utiliser seulement trois réponses pour tirer une conclusion finale pourrait ne pas capter toute la variabilité des réponses. L'accent mis sur les tests japonais pourrait également limiter l'applicabilité des résultats à d'autres langues, comme l'anglais. Enfin, comme les bonnes réponses officielles n'étaient pas disponibles, l'évaluation dépendait fortement de l'accord d'experts, ce qui ne reflète pas toujours la meilleure interprétation.
Conclusion
Cette étude a évalué la précision diagnostique de divers modèles d'IA dans des tests de radiologie, révélant que GPT-4o avait les taux de précision les plus élevés tandis que Claude-3 Opus le suivait de près. La forte performance de GPT-4o semble provenir de son vaste ensemble de données d'entraînement actuel, ainsi que de ses capacités avancées de reconnaissance d'images.
Malgré ces avancées, les modèles actuels peinent à traiter efficacement les images radiologiques. Les résultats soulignent les avantages potentiels d'intégrer ces modèles dans les soins médicaux, surtout dans des domaines spécialisés. Cependant, des améliorations et évaluations supplémentaires sont nécessaires pour renforcer leur capacité à gérer des tâches d'imagerie complexes et à soutenir avec précision les professionnels de la santé.
Titre: Diagnostic Accuracy of Vision-Language Models on Japanese Diagnostic Radiology, Nuclear Medicine, and Interventional Radiology Specialty Board Examinations
Résumé: PurposeThe performance of vision-language models (VLMs) with image interpretation capabilities, such as GPT-4 omni (GPT-4o), GPT-4 vision (GPT-4V), and Claude-3, has not been compared and remains unexplored in specialized radiological fields, including nuclear medicine and interventional radiology. This study aimed to evaluate and compare the diagnostic accuracy of various VLMs, including GPT-4 + GPT-4V, GPT-4o, Claude-3 Sonnet, and Claude-3 Opus, using Japanese diagnostic radiology, nuclear medicine, and interventional radiology (JDR, JNM, and JIR, respectively) board certification tests. MethodsIn total, 383 questions from the JDR test (358 images), 300 from the JNM test (92 images), and 322 from the JIR test (96 images) from 2019 to 2023 were consecutively collected. The accuracy rates of the GPT-4 + GPT-4V, GPT-4o, Claude-3 Sonnet, and Claude-3 Opus were calculated for all questions or questions with images. The accuracy rates of the VLMs were compared using McNemars test. ResultsGPT-4o demonstrated the highest accuracy rates across all evaluations with the JDR (all questions, 49%; questions with images, 48%), JNM (all questions, 64%; questions with images, 59%), and JIR tests (all questions, 43%; questions with images, 34%), followed by Claude-3 Opus with the JDR (all questions, 40%; questions with images, 38%), JNM (all questions, 51%; questions with images, 43%), and JIR tests (all questions, 40%; questions with images, 30%). For all questions, McNemars test showed that GPT-4o significantly outperformed the other VLMs (all P < 0.007), except for Claude-3 Opus in the JIR test. For questions with images, GPT-4o outperformed the other VLMs in the JDR and JNM tests (all P < 0.001), except Claude-3 Opus in the JNM test. ConclusionThe GPT-4o had the highest success rates for questions with images and all questions from the JDR, JNM, and JIR board certification tests. Secondary abstractThis study compared the diagnostic accuracy of vision-language models, including the GPT-4V, GPT-4o, and Claude-3, in Japanese radiological certification tests. GPT-4o demonstrated superior performance across diagnostic radiology, nuclear medicine, and interventional radiology tests, including image-based questions, highlighting its potential for medical image interpretation.
Auteurs: Hiroyuki Tatekawa, T. Oura, D. Horiuchi, S. Matsushita, H. Takita, N. Atsukawa, Y. Mitsuyama, A. Yoshida, K. Murai, R. Tanaka, T. Shimono, A. Yamamoto, Y. Miki, D. Ueda
Dernière mise à jour: 2024-05-31 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2024.05.31.24308072
Source PDF: https://www.medrxiv.org/content/10.1101/2024.05.31.24308072.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.