Evaluando el papel de GPT-4V en el diagnóstico médico
GPT-4V muestra potencial para analizar imágenes médicas y mejorar el diagnóstico.
― 7 minilectura
Tabla de contenidos
Usar computadoras para ayudar a los doctores a diagnosticar pacientes y guiar tratamientos ha sido una meta de la inteligencia artificial (IA) desde hace mucho tiempo. En Estados Unidos, los hospitales han comenzado a usar sistemas de registros de salud electrónicos (EHR), lo que ha llevado a una enorme cantidad de datos digitales de las visitas de los pacientes. Un sistema llamado Sistema de Soporte de Diagnóstico Clínico Asistido por Computadora (CDSS) busca mejorar las decisiones de los doctores proporcionando información sobre los pacientes y conocimiento clínico. Hay un interés creciente en el CDSS, especialmente para analizar imágenes médicas, conocido como radiomics. Este enfoque se está utilizando en varios campos médicos, como detectar cáncer de mama, diagnosticar COVID-19 e identificar cataratas congénitas.
Para que un CDSS sea confiable, no solo debe hacer predicciones, sino también ofrecer explicaciones claras de esas predicciones. Sin embargo, muchos CDSS de imágenes anteriores solo muestran áreas que la IA considera importantes, lo que no da suficiente información detallada sobre el diagnóstico.
Modelos de Lenguaje Grande en Medicina
Los avances recientes en IA incluyen modelos de lenguaje grande (LLMs), como ChatGPT. Estos modelos pueden generar explicaciones para varias preguntas y tareas. ChatGPT, lanzado por OpenAI en 2022, ha demostrado un rendimiento impresionante, incluso en tareas relacionadas con la medicina. Ha tenido un buen desempeño en exámenes de licencias médicas, lo que ha generado discusiones sobre la posible integración de LLMs en la práctica clínica y la educación.
Una desventaja de ChatGPT es que no puede procesar imágenes, lo que limita su uso en áreas que dependen de datos visuales. Sin embargo, se han desarrollado nuevos modelos como GPT-4V para superar esta limitación, permitiendo el procesamiento de texto e imágenes.
Evaluación del Análisis de Imágenes Médicas por GPT-4V
La capacidad de GPT-4V para analizar imágenes médicas aún no se ha evaluado completamente. Para este estudio, el objetivo era ver qué tan bien se desempeñaba GPT-4V en preguntas de exámenes de licencias médicas que incluyen imágenes, así como cómo explica sus respuestas para los profesionales de la salud.
El estudio comparó el rendimiento de GPT-4V con otros modelos como ChatGPT y GPT-4 en preguntas de exámenes de licencias médicas. La investigación fue aprobada por un comité de ética y se llevó a cabo en octubre de 2023.
Recolección de Datos para Exámenes Médicos
El estudio reunió preguntas de varias fuentes, incluidos el Examen de Licencias Médicas de Estados Unidos (USMLE) y un banco de preguntas llamado AMBOSS. El USMLE tiene tres pasos que los estudiantes de medicina deben completar para obtener una licencia. Este examen evalúa la capacidad de un médico para usar el conocimiento en la gestión de la salud y la enfermedad, lo cual es crucial para el cuidado seguro del paciente.
Las preguntas del examen incluían una mezcla de texto e imágenes. Por ejemplo, el Paso 1 incluyó 119 preguntas, el Paso 2 tuvo 120 preguntas y el Paso 3 contenía 137 preguntas. Los investigadores seleccionaron preguntas que incluían imágenes, resultando en un total de 50 preguntas. También recopilaron preguntas adicionales de AMBOSS, aumentando el total a 150 preguntas que se utilizaron en el estudio.
El equipo de investigación consideró varios campos médicos como radiología, dermatología y ortopedia al seleccionar preguntas para asegurar un análisis completo.
Cómo Usar GPT-4V
Para responder preguntas que involucraban imágenes, GPT-4V tomó tanto entradas de imagen como de texto. Los investigadores crearon un formato de entrada específico, que incluía agregar la imagen primero, seguida de información del paciente y preguntas, y luego presentar opciones de respuesta multiples. Cada pregunta se introdujo manualmente en el modelo por separado.
Por ejemplo, se le hizo una pregunta sobre una mujer de 55 años con dolor en el pecho a GPT-4V, que luego analizó la imagen y proporcionó una respuesta junto con una justificación.
Precisión de las Respuestas
Evaluación de laPara medir la precisión del modelo, los investigadores compararon sus respuestas con las respuestas correctas proporcionadas por el comité del examen. Definieron la precisión como el número de respuestas correctas dividido por el número total de preguntas.
La calidad de las explicaciones dadas por GPT-4V también fue evaluada a través de comentarios de profesionales de la salud. Compararon las explicaciones proporcionadas por GPT-4V con las de expertos humanos para medir preferencia y efectividad.
Resultados del Estudio
Los resultados mostraron que GPT-4V logró alta precisión en preguntas de exámenes médicos que involucraban imágenes. Específicamente, se desempeñó mejor que ChatGPT y GPT-4, obteniendo 84.2%, 85.7% y 88.9% en los exámenes de Paso 1, Paso 2 y Paso 3 respectivamente. También superó a los otros modelos en un examen especializado de radiología, indicando un buen rendimiento en el análisis de imágenes.
Al examinar preguntas sin imágenes, GPT-4V tuvo un rendimiento ligeramente inferior, pero aún mantuvo puntuaciones satisfactorias, lo que sugiere que su precisión se ve afectada por la complejidad de las preguntas presentadas.
Rendimiento Basado en la Dificultad de las Preguntas
El estudio también encontró que a medida que las preguntas se volvían más difíciles, la precisión de GPT-4V disminuía. En contraste, cuando se proporcionaban pistas, el rendimiento del modelo mejoraba significativamente. Esto indica que GPT-4V podría beneficiarse de una orientación adicional cuando enfrenta preguntas desafiantes.
Calidad de las Explicaciones
Los profesionales de la salud evaluaron la calidad de las explicaciones proporcionadas por GPT-4V. Se les pidió que eligieran entre las explicaciones de GPT-4V y las de expertos humanos. Los resultados mostraron que aunque GPT-4V proporcionó explicaciones decentes, todavía había una preferencia por las respuestas de los expertos, especialmente cuando GPT-4V respondió incorrectamente.
La mayoría de las respuestas correctas de GPT-4V incluían una interpretación de la imagen y detalles relevantes de la pregunta, mostrando que combinó efectivamente ambos componentes al generar respuestas.
Sin embargo, entre las respuestas incorrectas, muchas se debieron a malentendidos de las imágenes presentadas. Esto resalta un área clave para mejorar, ya que la interpretación precisa de las imágenes es vital para hacer el diagnóstico correcto.
Alucinaciones
El Desafío de lasOtro desafío que enfrentó GPT-4V fue la tendencia a producir información inexacta, a menudo denominada "alucinaciones". Estas inexactitudes pueden ser engañosas, especialmente en contextos médicos donde la precisión es crucial. El estudio notó que una proporción significativa de explicaciones incorrectas contenía errores fácticos.
Limitaciones del Estudio
El estudio tiene sus limitaciones. El tamaño de la muestra de 226 preguntas puede no representar todas las áreas de la medicina de manera completa. Además, los datos de entrenamiento de GPT-4V solo incluían información hasta septiembre de 2022, lo que significa que puede no estar equipado para responder preguntas que requieren el conocimiento médico más reciente.
Además, aunque GPT-4V mostró promesas en responder preguntas de exámenes, su efectividad en entornos clínicos del mundo real no se ha probado completamente aún.
Conclusión
En resumen, GPT-4V demostró un fuerte rendimiento para responder preguntas de exámenes médicos que involucraban imágenes, logrando alta precisión en comparación con modelos anteriores. Su capacidad para proporcionar explicaciones basadas tanto en imágenes como en texto es un avance significativo. Sin embargo, quedan áreas por mejorar, especialmente en la interpretación precisa de imágenes y la reducción de información incorrecta.
A medida que la investigación y el desarrollo continúan, el papel de la IA en la práctica clínica podría crecer, pero es importante que los profesionales médicos se mantengan alertas y verifiquen la información generada por la IA con fuentes fiables. A pesar de sus capacidades, modelos de IA como GPT-4V no están destinados a reemplazar a los médicos humanos. En cambio, pueden servir como herramientas valiosas para ayudar en el proceso de toma de decisiones.
Título: Performance of Multimodal GPT-4V on USMLE with Image: Potential for Imaging Diagnostic Support with Explanations
Resumen: BackgroundUsing artificial intelligence (AI) to help clinical diagnoses has been an active research topic for more than six decades. Past research, however, has not had the scale and accuracy for use in clinical decision making. The power of AI in large language model (LLM)-related technologies may be changing this. In this study, we evaluated the performance and interpretability of Generative Pre-trained Transformer 4 Vision (GPT-4V), a multimodal LLM, on medical licensing examination questions with images. MethodsWe used three sets of multiple-choice questions with images from the United States Medical Licensing Examination (USMLE), the USMLE question bank for medical students with different difficulty level (AMBOSS), and the Diagnostic Radiology Qualifying Core Exam (DRQCE) to test GPT-4Vs accuracy and explanation quality. We compared GPT-4V with two state-of-the-art LLMs, GPT-4 and ChatGPT. We also assessed the preference and feedback of healthcare professionals on GPT-4Vs explanations. We presented a case scenario on how GPT-4V can be used for clinical decision support. ResultsGPT-4V outperformed ChatGPT (58.4%) and GPT4 (83.6%) to pass the full USMLE exam with an overall accuracy of 90.7%. In comparison, the passing threshold was 60% for medical students. For questions with images, GPT-4V achieved a performance that was equivalent to the 70th - 80th percentile with AMBOSS medical students, with accuracies of 86.2%, 73.1%, and 62.0% on USMLE, DRQCE, and AMBOSS, respectively. While the accuracies decreased quickly among medical students when the difficulties of questions increased, the performance of GPT-4V remained relatively stable. On the other hand, GPT-4Vs performance varied across different medical subdomains, with the highest accuracy in immunology (100%) and otolaryngology (100%) and the lowest accuracy in anatomy (25%) and emergency medicine (25%). When GPT-4V answered correctly, its explanations were almost as good as those made by domain experts. However, when GPT-4V answered incorrectly, the quality of generated explanation was poor: 18.2% wrong answers had made-up text; 45.5% had inferencing errors; and 76.3% had image misunderstandings. Our results show that after experts gave GPT-4V a short hint about the image, it reduced 40.5% errors on average, and more difficult test questions had higher performance gains. Therefore, a hypothetical clinical decision support system as shown in our case scenario is a human-AI-in-the-loop system where a clinician can interact with GPT-4V with hints to maximize its clinical use. ConclusionGPT-4V outperformed other LLMs and typical medical student performance on results for medical licensing examination questions with images. However, uneven subdomain performance and inconsistent explanation quality may restrict its practical application in clinical settings. The observation that physicians hints significantly improved GPT-4Vs performance suggests that future research could focus on developing more effective human-AI collaborative systems. Such systems could potentially overcome current limitations and make GPT-4V more suitable for clinical use. 1-2 sentence descriptionIn this study the authors show that GPT-4V, a large multimodal chatbot, achieved accuracy on medical licensing exams with images equivalent to the 70th - 80th percentile with AMBOSS medical students. The authors also show issues with GPT-4V, including uneven performance in different clinical subdomains and explanation quality, which may hamper its clinical use.
Autores: Hong Yu, Z. Yang, Z. Yao, M. Tasmin, P. Vashisht, W. S. Jang, B. Wang, F. Ouyang, D. Berlowitz
Última actualización: 2023-11-15 00:00:00
Idioma: English
Fuente URL: https://www.medrxiv.org/content/10.1101/2023.10.26.23297629
Fuente PDF: https://www.medrxiv.org/content/10.1101/2023.10.26.23297629.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.