Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ciencias de la Salud # Medicina Genética y Genómica

Evaluando Modelos de Lenguaje Grandes en el Diagnóstico de Enfermedades Raras

La investigación evalúa la capacidad de GPT-4 para ayudar a diagnosticar enfermedades raras.

Peter N Robinson, J. T. Reese, L. Chimirri, Y. Bridges, D. Danis, J. H. Caufield, K. W. Wissink, J. A. McMurry, A. S. Graefe, E. Casiraghi, G. Valentini, J. O. Jacobsen, M. A. Haendel, D. Smedley, C. J. Mungall

― 6 minilectura


IA en el diagnóstico de IA en el diagnóstico de enfermedades raras identificar condiciones médicas raras. GPT-4 muestra potencial para
Tabla de contenidos

Los modelos de lenguaje grande, comúnmente conocidos como LLMs, son un tipo de inteligencia artificial que puede manejar varias tareas en muchas áreas, incluyendo la salud. Estos modelos muestran habilidades fuertes en realizar tareas clínicas, como ayudar en el diagnóstico de enfermedades. Por ejemplo, cuando se les da una descripción de los síntomas de un paciente, un LLM puede ofrecer una lista de posibles diagnósticos ordenados por probabilidad.

Evaluando LLMs en el Diagnóstico de Enfermedades

Numerosos estudios han analizado cuán precisamente los LLMs pueden ayudar con el diagnóstico de enfermedades. En 23 estudios identificados, expertos humanos, típicamente doctores, compararon los resultados de los LLMs, especialmente los de OpenAI, con los diagnósticos correctos que se encontraban en textos médicos originales. Esta comparación requiere que los expertos humanos tengan un buen conocimiento de las enfermedades específicas que se están considerando.

Ejemplos de Casos del Rendimiento de LLM

Un caso muy conocido usado en varios estudios proviene del New England Journal of Medicine. En este caso, el diagnóstico final fue un tipo de ataque al corazón asociado con el embarazo. Cuando se probó un modelo específico llamado GPT-4, listó varias condiciones incorrectas en sus respuestas, a pesar de que algunas de las sugerencias estaban algo relacionadas con lo que tenía el paciente. Esto resalta los desafíos en interpretar directamente las sugerencias del modelo.

En otro caso, el diagnóstico final involucró una infección en la sangre. La cuarta sugerencia de GPT-4, aunque no era correcta, estaba relacionada con la condición adecuada. En una revisión de 80 casos, los expertos solo coincidieron en el rendimiento del modelo alrededor de dos tercios del tiempo. Esto muestra que la capacidad de los proveedores de salud para interpretar lo que sugiere el modelo puede limitar su uso práctico.

Para mejorar las evaluaciones, los investigadores diseñaron un método para clasificar las respuestas del modelo de acuerdo a categorías específicas de enfermedades. Este enfoque podría dar una idea más clara de cuán útil podría ser el modelo para los doctores.

Enfoque en Enfermedades Raras

La mayoría de los estudios han probado LLMs en condiciones comunes, mientras que las enfermedades raras siguen siendo menos examinadas. Hay más de 10,000 enfermedades raras en todo el mundo, afectando a un pequeño porcentaje de la población. Las personas a menudo esperan años para un diagnóstico adecuado, enfrentándose a numerosos desafíos a lo largo de su camino.

En este contexto, los investigadores buscaron evaluar las habilidades de diagnóstico de los LLMs específicamente para enfermedades raras. Usaron una gran colección de Informes de casos de pacientes organizados en un formato específico para generar indicaciones para el LLM. Estas indicaciones, creadas sin información personal o sensible, se enviaron al modelo para ver cuán bien podía identificar las enfermedades correctas basándose en los detalles clínicos proporcionados.

Detalles del Estudio y Recopilación de Datos

Los investigadores se centraron en 5,267 informes de casos, que cubrían un total de 378 enfermedades mendelianas o cromosómicas vinculadas a genes específicos. Los informes de casos usaron datos de varias publicaciones e incluían descripciones detalladas de síntomas y hallazgos, conocidos como términos de Ontología del Fenotipo Humano (HPO). En promedio, cada caso contenía alrededor de 16 términos HPO.

Para recopilar literatura relevante sobre LLMs y su uso en el diagnóstico de condiciones, los investigadores realizaron una búsqueda en una base de datos médica. Buscaron artículos que discutieran aplicaciones de LLM en diagnósticos diferenciales y filtraron los resultados para aquellos que documentaban cuán bien los LLMs se desempeñaron en identificar diagnósticos correctos.

Creando Indications para el Modelo de Lenguaje

Para analizar los casos, los investigadores desarrollaron una herramienta de software que toma los datos estructurados del caso y los convierte en indicaciones para GPT-4. Esta herramienta extrae información necesaria como edad, síntomas y características clínicas de los informes de casos y las formatea en una narrativa que el LLM puede procesar fácilmente.

Una vez que se generaron las indicaciones, se enviaron a GPT-4 para recibir una lista de posibles diagnósticos. Los investigadores luego registraron cuán a menudo apareció el diagnóstico correcto en la lista y en qué posición se clasificó.

Evaluando el Rendimiento de GPT-4

Después de enviar las indicaciones al modelo, los investigadores evaluaron cuán bien se desempeñó GPT-4 al identificar los diagnósticos correctos. Se centraron en si el modelo podía nombrar acertadamente una condición sin usar información genética. La evaluación mostró que el diagnóstico correcto se clasificó primero en alrededor del 19% de los casos y apareció en las tres primeras sugerencias aproximadamente el 29% del tiempo.

Este rendimiento se documentó junto a estudios previos, que mostraron una amplia gama de resultados, indicando diferentes niveles de éxito cuando los modelos se probaron con diferentes tipos de casos.

Importancia del Estudio

Esta investigación es notable ya que evalúa las capacidades de los LLM en un gran conjunto de casos de enfermedades raras. Estudios anteriores tenían tamaños de muestra más pequeños y a menudo dependían de evaluaciones subjetivas. Al analizar más de 5,000 casos estructurados y hacer coincidir las respuestas de LLM con clasificaciones de enfermedades reconocidas, los investigadores buscaron proporcionar una comprensión más precisa de las habilidades de diagnóstico del modelo.

Sin embargo, hay limitaciones en el estudio. Las representaciones de las características clínicas usando términos HPO podrían no ser completas, y las descripciones de las que se derivaron los datos también podrían carecer de detalle. Los investigadores no modificaron el LLM para este estudio, lo que significa que el rendimiento podría mejorar con un entrenamiento especializado o versiones futuras del modelo.

Conclusión

Este estudio representa un intento significativo de evaluar las habilidades de diagnóstico de GPT-4 en una amplia gama de enfermedades raras. Al centrarse en datos estructurados y reducir la variabilidad en las evaluaciones, los investigadores proporcionaron ideas sobre la aplicación potencial de los LLM en entornos clínicos. Dado los desafíos de diagnosticar enfermedades raras, tales herramientas podrían apoyar a los proveedores de salud en sus procesos de diagnóstico.

La investigación destaca la promesa de usar modelos de IA avanzados en la salud, especialmente para condiciones que a menudo son pasadas por alto y difíciles de diagnosticar. Los desarrollos futuros en este campo pueden mejorar aún más la precisión y utilidad de los LLM, ayudando a los doctores a tomar decisiones mejor informadas para sus pacientes.

En resumen, los LLMs como GPT-4 tienen potencial para ayudar en el diagnóstico de enfermedades, especialmente las raras. A medida que la tecnología evoluciona, puede convertirse en una herramienta esencial en el campo médico, asistiendo a los profesionales de la salud en sus esfuerzos por proporcionar diagnósticos oportunos y precisos.

Fuente original

Título: Systematic benchmarking demonstrates large language models have not reached the diagnostic accuracy of traditional rare-disease decision support tools

Resumen: Large language models (LLMs) show promise in supporting differential diagnosis, but their performance is challenging to evaluate due to the unstructured nature of their responses. To assess the current capabilities of LLMs to diagnose genetic diseases, we benchmarked these models on 5,213 case reports using the Phenopacket Schema, the Human Phenotype Ontology and Mondo disease ontology. Prompts generated from each phenopacket were sent to three generative pretrained transformer (GPT) models. The same phenopackets were used as input to a widely used diagnostic tool, Exomiser, in phenotype-only mode. The best LLM ranked the correct diagnosis first in 23.6% of cases, whereas Exomiser did so in 35.5% of cases. While the performance of LLMs for supporting differential diagnosis has been improving, it has not reached the level of commonly used traditional bioinformatics tools. Future research is needed to determine the best approach to incorporate LLMs into diagnostic pipelines.

Autores: Peter N Robinson, J. T. Reese, L. Chimirri, Y. Bridges, D. Danis, J. H. Caufield, K. W. Wissink, J. A. McMurry, A. S. Graefe, E. Casiraghi, G. Valentini, J. O. Jacobsen, M. A. Haendel, D. Smedley, C. J. Mungall

Última actualización: 2024-11-07 00:00:00

Idioma: English

Fuente URL: https://www.medrxiv.org/content/10.1101/2024.07.22.24310816

Fuente PDF: https://www.medrxiv.org/content/10.1101/2024.07.22.24310816.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares