Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Informatique de santé

Évaluation de GPT-4V en imagerie médicale

Une critique de la place de GPT-4V dans les milieux cliniques.

― 6 min lire


GPT-4V : Un défi médicalGPT-4V : Un défi médicalpratiques cliniques.Évaluer l'efficacité de GPT-4V dans les
Table des matières

Les grands modèles de langage (LLMs) ont montré qu'ils s'en sortaient vraiment bien avec plein de tâches liées à la langue. Ces avancées impactent le domaine médical, surtout pour donner des recommandations, résumer les visites des patients et créer des notes cliniques. Mais la médecine, c'est pas que des mots ; les images sont super importantes dans la prise de décision. Pour ça, ils ont développé de nouveaux modèles appelés modèles multimodaux larges (LMMs), qui peuvent traiter à la fois du texte et des images. Quelques exemples de ces modèles incluent GPT-4V, LLaVA-Med et Med-Flamingo.

Défis des LMMs en Médecine

Même avec toutes les avancées des LMMs, les utiliser en milieu clinique, surtout dans des domaines qui dépendent beaucoup des images comme la Radiologie et la Dermatologie, pose pas mal de problèmes. Les principaux enjeux incluent la garantie de précision, de fiabilité et de pertinence par rapport aux situations cliniques réelles. Un autre gros souci, c'est à quel point il est facile d'interpréter les résultats de ces modèles et si leur raisonnement peut être en phase avec ce que les médecins attendent.

Évaluation de GPT-4V en Milieu Clinique

Cet article examine l'utilisation de GPT-4V, un modèle multimodal spécifique, dans divers domaines médicaux comme la Gastro-entérologie, la radiologie et la dermatologie. On évalue sa capacité à générer des rapports cliniques, à prédire des diagnostics et même à évaluer les tons de peau. On vérifie aussi sa performance par rapport à des datasets établis contenant des milliers d'images et on observe comment il gère les prédictions pour différents tons de peau. Enfin, on compare sa performance à celle des experts médicaux.

Résultats en Gastroentérologie

La performance de GPT-4V en gastro-entérologie montre certaines limitations significatives. L'évaluation s'est faite sur un dataset appelé Gastrovision, qui contient des images d'endoscopie pour juger des maladies gastrointestinales. Dans ce test, GPT-4V a obtenu une précision macro de seulement 11,15% et un rappel macro de 9,12%, ce qui montre qu'il a du mal à prédire avec précision diverses conditions. Au final, sa capacité prédictive était moins précise comparée à des modèles plus anciens comme DenseNet-121.

Résultats en Radiologie

Ensuite, on a évalué la performance de GPT-4V avec le dataset CheXpert, qui contient des images de radiographies thoraciques pour interpréter diverses conditions. Le modèle a montré une sensibilité de 0,56 et une spécificité de 0,34 pour détecter l'atélectasie, tandis qu'il a un peu mieux réussi avec la détection de la cardiomégalie, atteignant une sensibilité de 0,94. Globalement, les résultats de GPT-4V n'étaient pas du tout à la hauteur des modèles précédents, prouvant qu'il reste encore beaucoup de chemin à parcourir avant d'être prêt à aider les radiologistes.

Résultats en Dermatologie

En dermatologie, GPT-4V s'est un peu mieux débrouillé pour générer des rapports basés sur des images, mais il avait une forte tendance à prédire des conditions malignes. Par exemple, il prédisait souvent des cas comme le mélanome in situ à un taux beaucoup plus élevé que ce que les vraies données montraient. Ça peut refléter un biais vers des diagnostics plus graves, probablement à cause de la façon dont le modèle a été formé. De plus, GPT-4V avait du mal à identifier correctement les teintes de peau plus foncées, ce qui est un problème connu tant pour les modèles spécialisés que pour les modèles généraux.

En comparant les prédictions de malignité de GPT-4V avec celles de dermatologues, ces derniers ont été nettement plus précis. Bien que GPT-4V ait eu une sensibilité plus élevée et soit plus prudent dans ses prédictions, une précision globale plus faible limite son utilisation pratique en milieu clinique.

Évaluation de la Prédiction des Teintes de Peau Fitzpatrick

Pour prédire les teintes de peau Fitzpatrick, GPT-4V a réussi à classifier les teintes de 603 images, atteignant une précision de 56,5%. Cependant, il a eu du mal avec les teintes de peau plus foncées, manquant beaucoup de prédictions dans ces groupes. Cette constatation s'aligne avec des recherches antérieures montrant que les systèmes d'IA performent souvent moins bien avec les teintes de peau plus foncées, ce qui indique que c'est un domaine à améliorer.

Comparaisons avec des Experts Médicaux

Quand on met GPT-4V face aux dermatologues, ces experts ont atteint une précision d'environ 68%, tandis que GPT-4V a été à la traîne avec environ 40%. Cette disparité souligne le besoin d'une meilleure formation et évaluation de modèles comme GPT-4V s'ils veulent vraiment être utiles dans des scénarios cliniques réels. Malgré cela, GPT-4V avait une sensibilité plus élevée, ce qui pourrait suggérer qu'il a du potentiel en tant qu'outil de dépistage.

Limitations de l'Étude

Cette recherche a des limitations. D'abord, GPT-4V a été testé avec un style de prompting simple et pourrait agir différemment avec d'autres méthodes. Ensuite, puisque GPT-4V est un modèle fermé, on ne sait pas exactement sur quelles données il a été formé, bien que sa mauvaise performance suggère qu'il n'a probablement pas été formé sur les datasets utilisés dans notre étude.

Directions Futures

Notre étude a ouvert de nouvelles voies pour explorer comment les modèles AI généraux peuvent s'intégrer dans les pratiques médicales. Les recherches futures devraient se pencher sur la sensibilité de GPT-4V à différentes techniques de prompting et comment il se compare à divers datasets d'imagerie. En plus, combiner les capacités de l'IA avec l'expertise humaine pourrait mener à des outils de diagnostic plus fiables, mais des problèmes de précision et de biais doivent être réglés avant que ces modèles puissent être utilisés dans les soins de santé.

Conclusion

En résumé, même si GPT-4V montre du potentiel dans divers domaines médicaux, ses performances soulèvent des préoccupations importantes. Les défis auxquels il fait face en termes de précision en gastro-entérologie, radiologie et dermatologie mettent en évidence la difficulté d'intégrer complètement l'IA dans les milieux cliniques. Une recherche continue et des améliorations sont essentielles pour faire de l'IA un compagnon utile en médecine, notamment pour améliorer la qualité des soins pour tous les patients, peu importe leur teinte de peau.

Source originale

Titre: Evaluating General Vision-Language Models for Clinical Medicine

Résumé: Recently emerging large multimodal models (LMMs) utilize various types of data modalities, including text and visual inputs to generate outputs. The incorporation of LMMs into clinical medicine presents unique challenges, including accuracy, reliability, and clinical relevance. Here, we explore clinical applications of GPT-4V, an LMM that has been proposed for use in medicine, in gastroenterology, radiology, dermatology, and United States Medical Licensing Examination (USMLE) test questions. We used standardized robust datasets with thousands of endoscopy images, chest x-ray, and skin lesions to benchmark GPT-4Vs ability to predict diagnoses. To assess bias, we also explored GPT-4Vs ability to determine Fitzpatrick skin tones with dermatology images. We found that GPT-4V is limited in performance across all four domains, resulting in decreased performance compared to previously published baseline models. The macro-average precision, recall, and F1-score for gastroenterology were 11.2%, 9.1% and 6.8% respectively. For radiology, the best performing task of identifying cardiomegaly had precision, recall, and F1-score of 28%, 94%, and 43% respectively. In dermatology, GPT-4V had an overall top-1 and top-3 diagnostic accuracy of 6.2% and 21% respectively. There was a significant accuracy drop when predicting images of darker skin tones (p

Auteurs: Roxana Daneshjou, Y. Jiang, J. A. Omiye, C. Zakka, M. Moor, H. Gui, S. Alipour, S. S. Mousavi, J. H. Chen, P. Rajpurkar

Dernière mise à jour: 2024-04-18 00:00:00

Langue: English

Source URL: https://www.medrxiv.org/content/10.1101/2024.04.12.24305744

Source PDF: https://www.medrxiv.org/content/10.1101/2024.04.12.24305744.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires