Modelos de Lenguaje AI en Exámenes Médicos: Un Estudio
Este estudio evalúa el rendimiento de los modelos GPT en el Examen Final Médico de Polonia.
― 8 minilectura
Tabla de contenidos
La inteligencia artificial (IA) está cambiando muchos campos, y la medicina no es la excepción. Uno de los desarrollos más emocionantes es la creación de modelos de lenguaje grandes (LLMs). Estos modelos pueden analizar y crear texto que se asemeja mucho a la escritura humana. Han demostrado gran habilidad en tareas como entender emociones en el texto, traducir idiomas, resumir información y responder preguntas.
Con tales habilidades, hay un interés creciente en usar estos modelos en medicina y atención médica. Recientemente, la IA ganó aún más atención con el lanzamiento de ChatGPT, un chatbot desarrollado por OpenAI. ChatGPT se volvió popular rápidamente, atrayendo a millones de usuarios poco después de su lanzamiento.
¿Qué es ChatGPT?
ChatGPT es uno de los modelos de lenguaje grandes desarrollados por OpenAI, lanzado a finales de 2022. Este modelo se basa en la versión GPT-3.5 de un tipo particular de IA conocido como transformador generativo preentrenado. Se entrenó usando un método llamado Aprendizaje por Refuerzo a partir de la Retroalimentación Humana. Este proceso de entrenamiento tuvo tres pasos principales:
- Primero, los entrenadores mostraron al modelo cuáles eran las respuestas deseadas.
- Luego, se creó un modelo de recompensa basado en qué tan bien podía el modelo clasificar varias respuestas.
- Finalmente, el modelo se mejoró en base a este modelo de recompensa.
En marzo de 2023, se lanzó una versión actualizada llamada GPT-4, pero el acceso a este nuevo modelo se limitó a suscriptores de pago. Tanto GPT-3.5 como GPT-4 se entrenaron con datos disponibles solo hasta septiembre de 2021, así que no tenían información sobre desarrollos más recientes.
Estos modelos fueron probados en un examen de alcance amplio llamado la prueba de Comprensión de Lenguaje Multitarea Masiva, siendo GPT-4 el que tuvo mejor desempeño que otros modelos en varios idiomas.
El Papel de los Modelos de Lenguaje en Exámenes Médicos
Para ver qué tan bien pueden desempeñarse estos modelos de lenguaje en entornos médicos, necesitan evaluarse a través de pruebas médicas específicas. En medicina, la experiencia de profesionales capacitados es vital para diagnósticos precisos, tratamientos efectivos y garantizar la seguridad del paciente. Exámenes rigurosos, como los tests de licencia médica, evalúan el conocimiento y las habilidades de los graduados en medicina antes de que empiecen a practicar de manera independiente. Estas pruebas cubren varios temas médicos, lo que las hace una buena manera de evaluar modelos de lenguaje como GPT-3.5 y GPT-4.
Recientemente, estudios han mostrado que GPT-3.5 fue probado en exámenes médicos importantes como el Examen de Licencia Médica de Estados Unidos, así como pruebas en Japón y China. También se examinó el desempeño de GPT-3.5 en varias bases de datos médicas. Notablemente, GPT-3.5 se desempeñó bien en una encuesta sobre cribado de cáncer de mama, logrando un alto nivel de precisión. Sin embargo, no se ha realizado investigación para ver qué tan bien rinden GPT-3.5 y GPT-4 en exámenes médicos en Europa.
Evaluando Modelos GPT en el Examen Médico Polaco
Este estudio tuvo como objetivo probar qué tan bien rinden GPT-3.5 y GPT-4 en el Examen Final Médico Polaco. Este examen es obligatorio para cualquiera que desee ejercer la medicina en Polonia y consiste en 200 preguntas, cada una con cinco opciones de respuesta. Para aprobar, los candidatos deben responder correctamente al menos el 56%.
Para realizar la evaluación, ambos modelos fueron probados en tres ediciones de este examen: Primavera 2022, Otoño 2022 y Primavera 2023. Todas las preguntas y sus respuestas correctas estaban disponibles en línea, junto con puntajes promedio de graduados médicos reales.
Para cada pregunta, GPT-4 recibió las preguntas y opciones de respuesta como entrada. GPT-3.5 se accedió a través de una API para agilizar el proceso de respuesta. La precisión de cada versión del modelo se calculó dividiendo el número de respuestas correctas por el total de preguntas. Ciertas preguntas que se consideraron desactualizadas o inválidas, así como aquellas que contenían imágenes, fueron excluidas de la evaluación.
Se utilizaron métodos estadísticos, como análisis de correlación, para explorar la relación entre la precisión de las respuestas y la dificultad de las preguntas.
Hallazgos de los Exámenes
Los resultados mostraron que GPT-3.5 aprobó dos de las tres versiones del examen, mientras que GPT-4 logró aprobar las tres. Las puntuaciones detalladas y los porcentajes de precisión demostraron cómo se compararon los dos modelos con las puntuaciones promedio de los graduados en medicina. GPT-4 superó a GPT-3.5 en cuanto al número de respuestas correctas y precisión general en estos exámenes.
Un punto importante es que GPT-4 mostró una mejora significativa en el Conocimiento Médico en comparación con GPT-3.5. Ambos modelos mostraron una conexión entre su precisión y la dificultad de las preguntas médicas, lo que indica que aún les falta profundidad en este área. Curiosamente, también mostraron una relación negativa entre la corrección de las respuestas y el índice de poder de discriminación, lo que sugiere que ciertas preguntas pueden haber llevado a resultados engañosos.
Mientras que GPT-4 logró puntuaciones ligeramente más bajas que los estudiantes de medicina en promedio, se desempeñó mejor que estudiantes que se graduaron hace más de dos años. Los resultados generales sugieren que GPT-4, aunque impresionante, todavía tiene áreas de mejora en comparación con graduados médicos más recientes.
Comparaciones con Otros Estudios
Los hallazgos en este estudio se alinean con investigaciones previas de otros países, especialmente en América del Norte y Asia. Por ejemplo, GPT-3.5 tuvo un buen desempeño en el USMLE, mostrando una mejora respecto a modelos anteriores. Los estudios han indicado que GPT-4 también superó a GPT-3.5 en otros exámenes médicos importantes.
Hay varias razones que explican por qué los modelos de lenguaje podrían no haber tenido un desempeño perfecto. Primero, estos modelos son de propósito general y no están diseñados específicamente para medicina. Además, el idioma utilizado en las pruebas fue el polaco, lo que significa que hay menos datos de entrenamiento disponibles en comparación con idiomas como el inglés. El rendimiento puede mejorar si estos modelos se ajustan con datos médicos más específicos y recursos lingüísticos.
El Futuro de la IA en Medicina
La aparición de poderosos modelos de lenguaje puede influir enormemente en el futuro de la medicina. Estos modelos podrían ayudar a los estudiantes de medicina a aprender creando materiales educativos personalizados, ayudar a los doctores a comunicarse mejor con los pacientes y apoyar la toma de decisiones clínicas con explicaciones detalladas de casos médicos.
Además, la IA tiene el potencial de mejorar la forma en que se toman notas médicas, resumir resultados de pruebas y ayudar en procesos de toma de decisiones. Hallazgos recientes muestran que las respuestas de IA pueden ser preferidas sobre las de médicos humanos en algunos contextos, lo que indica que la IA podría mejorar la calidad de la asistencia médica en línea.
Sin embargo, sigue siendo crucial verificar la precisión de cualquier respuesta generada por estos modelos de IA, ya que a veces pueden proporcionar información o referencias incorrectas. Es esencial acercarse a estas herramientas con cautela, reconociendo que aunque pueden ser valiosas, el juicio humano sigue siendo necesario en entornos médicos.
Limitaciones del Estudio
Aunque este estudio resalta el potencial de la IA en medicina, hay algunas limitaciones. Se centró solo en el Examen Final Médico Polaco, lo que puede restringir cómo se pueden aplicar los hallazgos a otros escenarios de pruebas médicas. Además, el formato del examen permite la posibilidad de responder preguntas correctamente por casualidad, no solo por conocimiento.
A pesar de que GPT-4 se desempeñó mejor que GPT-3.5, ambos modelos aún tienen margen de mejora en precisión en comparación con las puntuaciones promedio de los estudiantes de medicina. Investigaciones futuras deberían buscar afinar estos modelos y evaluar sus posibles usos en varios campos médicos, incluyendo ayuda diagnóstica, toma de decisiones clínicas y educación médica.
Al probar LLMs con preguntas más complejas y abiertas y hacer evaluaciones conducidas por profesionales de la salud, podría emerger una imagen más clara de sus capacidades potenciales. Esto ayudaría a determinar cómo integrar mejor la IA en las prácticas médicas actuales, asegurando que estas herramientas puedan proporcionar un apoyo fiable tanto para la educación como para aplicaciones clínicas.
Título: Evaluation of the performance of GPT-3.5 and GPT-4 on the Medical Final Examination
Resumen: IntroductionThe rapid progress in artificial intelligence, machine learning, and natural language processing has led to the emergence of increasingly sophisticated large language models (LLMs) enabling their use in various applications, including medicine and healthcare. ObjectivesThe study aimed to evaluate the performance of two LLMs: ChatGPT (based on GPT-3.5) and GPT-4, on the Medical Final Examination (MFE). MethodsThe models were tested on three editions of the MFE from: Spring 2022, Autumn 2022, and Spring 2023 in two language versions - English and Polish. The accuracies of both models were compared and the relationships between the correctness of answers with the index of difficulty and discrimination power index were investigated. ResultsThe study demonstrated that GPT-4 outperformed GPT-3.5 in all three examinations regardless of the language used. GPT-4 achieved mean accuracies of 80.7% for Polish and 79.6% for English, passing all MFE versions. GPT-3.5 had mean accuracies of 56.6% for Polish and 58.3% for English, passing 2 of 3 Polish versions and all 3 English versions of the test. GPT-4 score was lower than the average score of a medical student. There was a significant positive and negative correlation between the correctness of the answers and the index of difficulty and discrimination power index, respectively, for both models in all three exams. ConclusionsThese findings contribute to the growing body of literature on the utility of LLMs in medicine. They also suggest an increasing potential for the usage of LLMs in terms of medical education and decision-making support. Whats new?Recent advancements in artificial intelligence and natural language processing have resulted in the development of sophisticated large language models (LLMs). This study focused on the evaluation of the performance of two LLMs, ChatGPT (based on GPT-3.5) and GPT-4, on the Medical Final Examination across English and Polish versions from three editions. This study, to the best of our knowledge, presents the first validation of those models on the European-based medical final examinations. The GPT-4 outperformed GPT-3.5 in all exams, achieving mean accuracy of 80.7% (Polish) and 79.6% (English), while GPT-3.5 attained 56.6% (Polish) and 58.3% (English) respectively. However, GPT-4s scores fell short of typical medical student performance. These findings contribute to understanding LLMs utility in medicine and hint at their potential in medical education and decision-making support.
Autores: Maciej Rosol, J. S. Gasior, J. Laba, K. Korzeniewski, M. Mlynczak
Última actualización: 2023-08-16 00:00:00
Idioma: English
Fuente URL: https://www.medrxiv.org/content/10.1101/2023.06.04.23290939
Fuente PDF: https://www.medrxiv.org/content/10.1101/2023.06.04.23290939.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.