Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Ophtalmologie

Évaluation de GPT-4V dans l'imagerie des soins oculaires

Une étude évalue l'efficacité de GPT-4V dans l'analyse des images des yeux.

― 7 min lire


Le rôle de GPT-4V dansLe rôle de GPT-4V dansl'imagerie oculairel'analyse des images de santé oculaire.Évaluer la précision de l'IA dans
Table des matières

L'intelligence artificielle (IA) change plein de domaines, y compris la médecine. Un développement super intéressant, ce sont les grands modèles de langage (LLMs), qui peuvent comprendre et générer du texte. Dans le domaine médical, surtout en ophtalmologie, ces modèles peuvent aider avec des tâches qui impliquent à la fois des Images et du texte, mais il y a encore quelques défis.

Le Rôle de l'Imagerie en Ophtalmologie

L'ophtalmologie, c'est le domaine des soins aux yeux, et elle dépend souvent de différentes techniques d'imagerie pour diagnostiquer et traiter des problèmes. Les docs utilisent des images de différentes méthodes comme :

  • Images de lampe à fente : pour examiner de près la partie avant de l'œil.
  • Ophthalmoscopie laser à balayage (SLO) : pour des vues détaillées de la rétine.
  • Photographie du fond d'œil : pour capturer des images de la surface intérieure de l'œil.
  • Tomographie par cohérence optique (OCT) : pour des images en coupe de la rétine.
  • Angiographie à la fluorescéine du fond d'œil (FFA) : pour examiner la circulation sanguine dans la rétine.
  • Échographie oculaire (OUS) : pour voir les structures internes de l'œil.

Ces images aident les médecins à poser des Diagnostics précis et à décider des meilleurs traitements.

Utilisation Actuelle des LLMs en Ophtalmologie

Récemment, les LLMs ont surtout été utilisés pour répondre à des questions sous forme de texte dans le domaine de l'ophtalmologie. Par exemple, ils aident à se préparer pour des examens spécialisés en répondant à des questions sur les maladies des yeux et les traitements chirurgicaux. Cependant, ces modèles ont des limites quand il s'agit d'analyser des images.

L'Introduction de GPT-4V

Un nouveau modèle, GPT-4V(ision), a été introduit pour surmonter ces limites. Ce modèle peut traiter à la fois des images et du texte. Cette capacité permet une fonction appelée réponse à des questions visuelles (VQA), où le modèle répond à des questions basées sur des images. Ça pourrait fournir des info précieuses pour les médecins et les patients.

Malgré son potentiel, GPT-4V n'a pas encore été testé de manière approfondie dans le domaine ophtalmologique. Donc, on n'est pas sûr s'il peut analyser efficacement les images liées aux problèmes oculaires.

L'Objectif de l'Étude

Cette étude vise à tester à quel point un chatbot basé sur GPT-4V peut répondre à des questions sur des images oculaires. Pour garantir une évaluation équitable, les chercheurs ont collecté un ensemble de données privé d'images provenant de plusieurs centres oculaires en Chine. Cet ensemble de données inclut une variété d'images représentant différentes conditions des yeux.

Processus de Collecte d'Images

Les chercheurs ont soigneusement sélectionné des images montrant des signes clairs de problèmes oculaires spécifiques. Ils ont exclu les images avec des diagnostics flous ou contestés. Deux ophtalmologistes expérimentés ont passé en revue les images sélectionnées pour confirmer leur clarté et leur fiabilité.

Développement de l'Appli Utilisant GPT-4V

Les chercheurs ont constaté que GPT-4V hésitait parfois à fournir des diagnostics quand il avait seulement des images des yeux. Pour améliorer ses réponses, ils ont créé une appli digitale qui permet au modèle d'analyser ces images plus efficacement.

Comment les Réponses Ont Été Générées

Pour évaluer GPT-4V, les chercheurs ont créé dix questions spécifiques basées sur des études précédentes et leur expérience clinique. Ces questions visent à évaluer la performance du modèle dans plusieurs domaines, y compris :

  1. Identifier le type d'examen.
  2. Reconnaître les lésions ou anomalies.
  3. Évaluer sa capacité à poser un diagnostic.
  4. Offrir un soutien décisionnel pour d'autres actions.

Les chercheurs ont demandé à GPT-4V les images oculaires collectées sur une courte période.

Processus d'Évaluation Humaine

Trois ophtalmologistes expérimentés ont évalué les réponses de GPT-4V. Ils ont regardé trois aspects principaux :

  1. Exactitude : Les réponses étaient-elles factuellement correctes ?
  2. Utilisabilité : Les réponses étaient-elles pertinentes et utiles ?
  3. Sécurité : Les réponses comportaient-elles des risques pour les patients ?

Ils ont noté l'exactitude sur une échelle de trois points, avec des scores indiquant si l'info était correcte, partiellement correcte ou incorrecte.

L'utilisabilité a aussi été notée selon l'aide que représentaient les réponses, allant de très utilisable à peu utilisable. Les évaluations de sécurité se concentraient sur tout potentiel danger pouvant découler des conseils donnés.

Performance Globale de GPT-4V

L'étude a révélé que GPT-4V montrait une bonne exactitude et utilisabilité dans l'interprétation de certains types d'images oculaires, en particulier les images de lampe à fente. Cependant, ses performances variaient significativement selon les autres types d'images. Par exemple, les réponses aux photographies du fond d'œil étaient souvent moins précises et utiles.

Malgré des évaluations positives, beaucoup de réponses étaient soit incorrectes, soit pas très utilisables. La capacité du modèle à interpréter les images était limitée, et ses descriptions étaient souvent vagues ou génériques, ce qui n'est pas utile pour les médecins ou les patients.

Répétabilité des Réponses

Les chercheurs ont aussi examiné à quel point les réponses de GPT-4V étaient cohérentes quand on lui posait les mêmes questions à nouveau. L'accord global était relativement faible, indiquant que le modèle a du mal à fournir des réponses stables et fiables.

Comparaison de GPT-4V aux Réponses Humaines

Les chercheurs ont comparé les réponses de GPT-4V à celles données par des médecins humains. Ils ont constaté que les réponses du modèle manquaient souvent de profondeur et de spécificité que les experts humains fournissent. La similarité dans la structure des phrases était modérée, mais le modèle recourait souvent à des phrases génériques qui pouvaient s'appliquer à n'importe quelle condition oculaire.

Conclusion

Bien que GPT-4V représente un progrès dans l'utilisation de l'IA pour analyser des images en ophtalmologie, il n'est pas encore prêt pour une utilisation clinique dans la réalité. Sa capacité à diagnostiquer et à soutenir les décisions cliniques basées sur des images oculaires nécessite des améliorations significatives. Plus de recherches sont nécessaires pour affiner ces modèles avant qu'ils ne puissent être fiables dans des contextes médicaux.

Les résultats de cette étude servent de base pour les futurs efforts visant à améliorer les modèles d'IA en ophtalmologie. Au final, bien qu'il y ait un potentiel dans l'utilisation de l'IA, un développement supplémentaire est nécessaire pour garantir la sécurité et l'efficacité des soins aux patients.

Limitations

Il y a des limites à cette étude. D'abord, le petit nombre d'images utilisées a peut-être influencé la fiabilité des résultats. Un ensemble de données plus large et plus varié donnerait une meilleure représentation de ce que les médecins voient dans leur pratique quotidienne. De plus, les chercheurs n'ont pas examiné si GPT-4V pouvait corriger ses erreurs lorsqu'on lui demandait à nouveau, ce qui pourrait être un domaine important pour des recherches futures.

En conclusion, GPT-4V montre du potentiel, mais il a besoin de plus de travail pour être efficace en aidant les soins oculaires. Des tests et des améliorations continues sont cruciaux pour rendre les outils d'IA utilisables dans des situations médicales réelles.

Source originale

Titre: Unveiling the Clinical Incapabilities: A Benchmarking Study of GPT-4V(ision) for Ophthalmic Multimodal Image Analysis

Résumé: PurposeTo evaluate the capabilities and incapabilities of a GPT-4V(ision)-based chatbot in interpreting ocular multimodal images. MethodsWe developed a digital ophthalmologist app using GPT-4V and evaluated its performance with a dataset (60 images, 60 ophthalmic conditions, 6 modalities) that included slit-lamp, scanning laser ophthalmoscopy (SLO), fundus photography of the posterior pole (FPP), optical coherence tomography (OCT), fundus fluorescein angiography (FFA), and ocular ultrasound (OUS) images. The chatbot was tested with ten open-ended questions per image, covering examination identification, lesion detection, diagnosis, and decision support. The responses were manually assessed for accuracy, usability, safety, and diagnosis repeatablity. Auto-evaluation was performed using sentence similarity and GPT-4-based auto-evaluation. ResultsOut of 600 responses, 30.6% were accurate, 21.5% were highly usable, and 55.6% were deemed as no harm. GPT-4V performed best with slit-lamp images, with 42.0%, 38.5%, and 68.5% of the responses being accurate, highly usable, and no harm, respectively. However, its performance was weaker in FPP images, with only 13.7%, 3.7%, and 38.5% in the same categories. GPT-4V correctly identified 95.6% of the imaging modalities and showed varying accuracy in lesion identification (25.6%), diagnosis (16.1%), and decision support (24.0%). The overall repeatability of GPT-4V in diagnosing ocular images was 63% (38/60). The overall sentence similarity between responses generated by GPT-4V and human answers is 55.5%, with Spearman correlations of 0.569 for accuracy and 0.576 for usability. ConclusionGPT-4V currently lacks the reliability needed for clinical decision-making in ophthalmology. Our study serve as a benchmark for enhancing ophthalmic multimodal models. SynopsisOnly 30.6%, 21.5%, and 55.6% responses about ocular multimodal images generated by GPT-4V(ision) were considered accurate, highly usable, no harm, respectively. Currently, GPT-4V lacks the reliability required for clinical decision-making and patient consultation in ophthalmology. O_LIWhat is already known on this topic: First, GPT-4V(ision) exhibited significant advantages in fine-grained world-knowledge-intensive visual question answering. Second, the performance of GPT-4V in the multimodal medical diagnosis domain had been evaluated through case analysis, involving 17 medical systems and 8 modalities used in clinical practice. However, ophthalmic-related images were not included in the study. C_LIO_LIWhat this study adds:Being the first known evaluation of GPT-4Vs capabilities in processing ophthalmic multimodal images, our study adds valuable insights to the existing body of knowledge. Our study highlight the incapabilities of GPT-4V, demonstrating that it currently lacks the essential reliability required for clinical decision-making and patient consultation in ophthalmology. C_LIO_LIHow this study might affect research, practice or policy: The evidence gathered in this study show that continued refinement and testing remain crucial for enhancing the effectiveness of large language models in medical applications. This work provides a benchmark for further investigation in building large language models for processing ophthalmic multimodal images. C_LI

Auteurs: Danli Shi, P. Xu, X. Chen, Z. Zhao

Dernière mise à jour: 2024-05-13 00:00:00

Langue: English

Source URL: https://www.medrxiv.org/content/10.1101/2023.11.27.23299056

Source PDF: https://www.medrxiv.org/content/10.1101/2023.11.27.23299056.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires