Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ciencias de la Salud# Informática sanitaria

Los chatbots evalúan el desempeño en exámenes médicos

Estudio evalúa la efectividad de los chatbots de IA en los exámenes de licencia médica.

― 7 minilectura


Chatbots de IA enChatbots de IA enexámenes médicoschatbots en los exámenes de licencia.Evaluando la efectividad de los
Tabla de contenidos

La Inteligencia Artificial (IA) está cambiando muchos campos, incluyendo la medicina y cómo aprenden los Estudiantes de medicina. Una herramienta interesante son los Chatbots de IA, que pueden ayudar en la formación y la educación. Estos chatbots pueden ofrecer práctica simulada, dar retroalimentación personalizada y ayudar en la formación clínica. Sin embargo, antes de usar estos chatbots en programas de medicina, necesitamos comprobar qué tan bien funcionan realmente.

Primeras Observaciones del Rendimiento de los Chatbots

Cuando los chatbots se hicieron disponibles por primera vez, las escuelas de medicina empezaron a probarlos con simulaciones de examen. Los resultados mostraron que, aunque algunos chatbots dieron respuestas correctas y sensatas, otros cometieron errores claros o produjeron respuestas seguras pero incorrectas. Estos problemas pueden venir de los datos usados para entrenar a los bots, que podrían contener sesgos o información incorrecta. En general, los chatbots obtuvieron puntuaciones alrededor de la marca de aprobación, con algunos superando a los estudiantes. Su rendimiento fue a menudo mejor en preguntas más fáciles y cuando los Exámenes estaban en inglés. A medida que los exámenes se volvían más desafiantes, las puntuaciones de los chatbots disminuían. Aun así, las versiones más nuevas de estos bots tienden a desempeñarse mejor que las anteriores, indicando que están mejorando con el tiempo.

Preocupaciones y Potencial

Las escuelas están empezando a preocuparse por el potencial de hacer trampa en los exámenes usando estos chatbots. Sin embargo, también pueden ser útiles para crear pruebas al identificar preguntas poco claras o mal redactadas. No ha habido mucha investigación comparando diferentes chatbots, y los estudios existentes suelen enfocarse solo en unos pocos bots sin medir con qué frecuencia cometen errores.

Resumen del Estudio

Este estudio se centró en un examen teórico importante que todos los estudiantes de medicina deben aprobar para obtener su título de médico. El examen se realizó en 2021 en Bélgica y es similar a los exámenes de licenciamiento en otros países. Se probaron seis chatbots diferentes en este examen, analizando qué tan bien se desempeñó cada bot. El estudio tenía como objetivo medir su rendimiento, evaluar con qué frecuencia cometieron errores y ver si había preguntas débiles en el examen.

Metodología

El estudio recibió la aprobación del comité de ética de la universidad. Los estudiantes de medicina deben aprobar un examen que consta de 102 preguntas de opción múltiple cubriendo varios temas antes de convertirse en doctores licenciados. Este estudio examinó el examen tal como se presentó a los estudiantes durante su formación. Las preguntas no estaban disponibles en línea, así que no influyeron en el entrenamiento del chatbot.

Selección de Chatbots

Se seleccionaron seis chatbots de acceso público para las pruebas. Los chatbots gratuitos más populares incluían ChatGPT, Bard y Bing. También se incluyeron dos versiones de pago, Claude Instant y Claude+, así como GPT-4, para ver cómo se comparaban con las versiones gratuitas. Aunque Bing utiliza la misma tecnología que GPT-4, obtiene información de otras fuentes, lo que lo convierte en una versión personalizada.

Recopilación de Datos

Las preguntas del examen fueron traducidas al inglés usando un servicio de traducción mientras se mantenía el estilo original de escritura. Se eliminaron algunas preguntas que eran locales de Bélgica o que contenían imágenes para garantizar claridad. Los bots fueron probados en su capacidad para responder estas preguntas, y los investigadores tuvieron que solicitar respuestas a Bard varias veces para obtener respuestas para algunas preguntas.

Evaluación del Rendimiento

El enfoque principal fue cuánto podían responder correctamente los chatbots a las preguntas del examen. Se puntuaron según la proporción de respuestas correctas. Si un chatbot seleccionó una segunda respuesta correcta, recibió crédito parcial, mientras que elegir una respuesta incorrecta resultó en pérdida de puntos. Las preguntas se clasificaron en diferentes categorías según su dificultad, tipo, y si incluían respuestas dañinas.

El estudio también examinó qué tan a menudo cometía errores cada chatbot, incluyendo la identificación de problemas con preguntas específicas del examen.

Resultados del Rendimiento del Examen

En resumen, Bing y GPT-4 obtuvieron los mejores resultados en el examen con una puntuación del 76%, mientras que el promedio de todos los bots fue del 68%. Aunque todos los bots respondieron algunas preguntas incorrectamente, Bard no eligió ninguna respuesta mala o peligrosa. Bing tuvo algunas respuestas de segunda mejor opción, mientras que otros bots tuvieron más. Bard tuvo dificultades para responder varias preguntas y a menudo necesitó que se le motivara.

Al observar las preguntas difíciles, los bots lo hicieron mejor que los estudiantes, que tenían un promedio de puntuación significativamente más bajo. El estudio encontró que Bing y GPT-4 eran particularmente fuertes en preguntas más fáciles pero luchaban con las más complejas.

Razones para los Errores

Para las respuestas incorrectas, el estudio examinó con qué frecuencia los bots proporcionaron respuestas que no tenían sentido o eran falsas. Bing tuvo menos respuestas sin sentido que Bard y Claude Instant, pero aún así cometió algunos errores. Estos errores a menudo surgieron debido a malentendidos del contexto de las preguntas.

Preguntas Débiles Identificadas

Durante el análisis, algunas preguntas fueron identificadas como débiles o poco claras. Por ejemplo, una pregunta sobre cuándo comenzar la terapia de reemplazo renal tenía opciones engañosas que podrían confundir tanto a los bots como a los estudiantes.

Comparación de Respuestas de los Bots

Entre todos los bots, algunos tuvieron un rendimiento similar, mientras que otros mostraron mayores diferencias en precisión. Los investigadores también analizaron qué tan bien coincidían los bots entre sí en las respuestas. En general, hubo un nivel de acuerdo moderado.

Conclusiones

El estudio destacó diferencias significativas entre los chatbots en términos de su rendimiento en el examen de licenciamiento médico. Bing se destacó por su fiabilidad, ya que cometió menos errores en comparación con los otros bots. Aunque las mejoras en el rendimiento de los chatbots son alentadoras, es esencial seguir siendo cautelosos sobre su uso para el conocimiento médico. Los hallazgos también plantean preguntas sobre la efectividad de los exámenes de opción múltiple para evaluar las habilidades que los futuros Médicos necesitan, particularmente en lo que respecta a la interacción humana.

Recomendaciones para el Uso Futuro

Bing puede ser una herramienta útil para identificar preguntas de examen mal redactadas, ahorrando tiempo y esfuerzo a los educadores. Los resultados también sugieren que los chatbots podrían ser particularmente útiles en áreas donde los estudiantes tienen dificultades, especialmente en preguntas difíciles.

El estudio llama a realizar más investigaciones para explorar cómo se desempeñan los chatbots en diferentes tipos de preguntas y en varios entornos educativos. Está claro que, si bien los chatbots pueden ser herramientas útiles, no deben confundirse con profesionales médicos reales.

Consideraciones Futuras

A medida que el uso de la IA en la educación crece, se deben abordar cuestiones éticas y legales, incluyendo el consumo de energía, la privacidad de datos y el uso adecuado de material con derechos de autor. Antes de implementar más ampliamente la IA en la educación médica, es crucial tener un mejor entendimiento de estos temas.

En general, aunque seis chatbots de IA lograron aprobar un examen médico importante, Bing y GPT-4 surgieron como los más efectivos. Sin embargo, las debilidades de los bots, especialmente en preguntas difíciles, destacan la necesidad de más investigación y mejora antes de que se puedan confiar plenamente en un entorno médico.

Fuente original

Título: Microsoft Bing outperforms five other generative artificial intelligence chatbots in the Antwerp University multiple choice medical license exam

Resumen: Recently developed chatbots based on large language models (further called bots) have promising features which could facilitate medical education. Several bots are freely available, but their proficiency has been insufficiently evaluated. In this study the authors have tested the current performance on the multiple-choice medical licensing exam of University of Antwerp (Belgium) of six widely used bots: ChatGPT (OpenAI), Bard (Google), New Bing (Microsoft), Claude instant (Anthropic), Claude+ (Anthropic) and GPT-4 (OpenAI). The primary outcome was the performance on the exam expressed as a proportion of correct answers. Secondary analyses were done for a variety of features in the exam questions: easy versus difficult questions, grammatically positive versus negative questions, and clinical vignettes versus theoretical questions. Reasoning errors and untruthful statements (hallucinations) in the bots answers were examined. All bots passed the exam; Bing and GPT-4 (both 76% correct answers) outperformed the other bots (62-67%, p= 0.03) and students (61%). Bots performed worse on difficult questions (62%, p= 0.06), but outperformed students (32%) on those questions even more (p

Autores: Stefan Morreel, V. Verhoeven, D. Mathysen

Última actualización: 2023-08-21 00:00:00

Idioma: English

Fuente URL: https://www.medrxiv.org/content/10.1101/2023.08.18.23294263

Fuente PDF: https://www.medrxiv.org/content/10.1101/2023.08.18.23294263.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares