El papel de los LLM en el diagnóstico médico
Examinando el potencial de la IA en la predicción de enfermedades en pacientes.
Yanjun Gao, Skatje Myers, Shan Chen, Dmitriy Dligach, Timothy A Miller, Danielle Bitterman, Guanhua Chen, Anoop Mayampurath, Matthew Churpek, Majid Afshar
― 7 minilectura
Tabla de contenidos
Diagnosticar la enfermedad de un paciente no es tan fácil como preguntar "¿Qué te duele?". Es un proceso complicado que implica mirar varios factores para averiguar qué podría estar mal. Los doctores tienen que considerar diferentes enfermedades basándose en cómo se ve el paciente y lo que dice. Empiezan recogiendo información básica, lo que les ayuda a adivinar las posibilidades de ciertas enfermedades antes de hacer pruebas. A medida que los doctores obtienen más resultados de las pruebas, ajustan sus suposiciones.
El Rol de los Doctores
Normalmente, los doctores usan su conocimiento médico, habilidades de reconocimiento de patrones y experiencia para hacer suposiciones rápidas sobre lo que le pasa a un paciente. Pero a veces, su cerebro les juega malas pasadas, llevando a errores en el diagnóstico. Esto pasa cuando confían demasiado en atajos comunes, llamados sesgos cognitivos, en lugar de pensar a fondo sobre la situación.
Aunque está bien que los doctores piensen rápido, el pensamiento analítico, que implica una cuidadosa consideración de la evidencia, toma más tiempo y a menudo es imposible en hospitales ocupados. Los doctores están entrenados para estimar qué tan probable es un diagnóstico y usar los resultados de las pruebas de manera efectiva. Sin embargo, esas suposiciones rápidas a veces pueden llevar a juzgar mal qué tan probable es una enfermedad determinada, lo cual puede ser dañino.
¿Puede la Tecnología Ayudar?
Últimamente, ha habido mucho ruido sobre usar Modelos de Lenguaje Grande (LLMs) para ayudar a los doctores con su toma de decisiones. Estos son programas de computadora avanzados que pueden generar respuestas parecidas a las humanas e incluso sugerir posibles Diagnósticos basados en la información que reciben. Algunos modelos recientes, como GPT-4, están funcionando de manera comparable a los doctores reales en cuanto a sugerir qué podría estar mal con los pacientes.
¡Pero hay un pero! Mientras que estos modelos pueden sugerir cosas como "el paciente podría tener neumonía", a menudo no dicen cuán probable es ese diagnóstico. Esto es súper importante porque una posibilidad del 20% de neumonía significa algo muy diferente a una del 90%. Aunque los últimos LLMs han mostrado algo de promesa en predecir probabilidades de enfermedades mejor que algunos doctores, aún no lo hacen bien en general.
El Desafío de la Incertidumbre
Los LLMs funcionan de manera diferente a los doctores. No dan probabilidades directas para diagnósticos como lo haría un doctor; crean probabilidades basadas en secuencias de palabras. Esto plantea una pregunta importante: ¿cómo podemos convertir las salidas de palabras de estos modelos en probabilidades significativas que los doctores puedan usar? Si no resolvemos este problema, hay un riesgo de que los doctores malinterpreten las sugerencias del modelo o confíen en ellas sin entender la incertidumbre que hay.
Para hacer que los LLMs sean mejores expresando incertidumbre, los investigadores han recurrido a la teoría de la información, que mira cuán incierto es un resultado predicho. Hay técnicas disponibles para evaluar la incertidumbre en estos modelos, como revisar qué tan probable es que cada token (o palabra) venga después en una frase. ¡Pero hay un pero! A veces, las respuestas que dan estos modelos no siempre coinciden con su comprensión real, llevando a conclusiones incorrectas.
Este estudio busca ver qué tan bien pueden los LLMs estimar la probabilidad de enfermedades basándose en datos reales de pacientes. Para hacer esto, los investigadores miraron dos LLMs diferentes, llamados Mistral y Llama, para ver qué tan bien podían predecir las probabilidades de condiciones graves en pacientes.
La Configuración del Estudio
Los investigadores trabajaron con datos de un centro médico con una gran cantidad de registros de pacientes. Estos datos incluían signos vitales, resultados de laboratorio y evaluaciones hechas por enfermeras. El enfoque estuvo en tres problemas de salud principales: Sepsis, Arritmia y Fallecimiento Cardiaco Congestivo (CHF).
El equipo comparó sus hallazgos de los LLMs con los resultados de un modelo de aprendizaje automático tradicional, llamado eXtreme Gradient Boosting (XGB), que ha sido utilizado con éxito en predicciones clínicas. Querían ver qué tan bien podían los LLMs predecir diagnósticos cuando se les daban registros de salud estructurados.
¿Cómo Lo Hicieron?
Los investigadores probaron algunos métodos para ver qué tan bien los LLMs podían predecir las probabilidades de un diagnóstico. Comenzaron convirtiendo datos estructurados, como números y hechos de los registros médicos, en un formato de texto simple que el modelo pudiera entender fácilmente.
El primer método pidió al LLM que diera una respuesta de sí o no sobre si un paciente tenía cierta condición. Usaron un truco matemático llamado softmax para calcular las probabilidades de “sí” o “no” basándose en las respuestas del LLM.
Otro enfoque involucró preguntar al LLM una pregunta más abierta: “¿Qué tan probable es que este paciente tenga este diagnóstico?” Esto permitió que el modelo respondiera con una estimación porcentual, dando una probabilidad más clara de un diagnóstico.
La investigación también utilizó características del LLM, como la última capa de su modelo, y las emparejó con el clasificador XGB para ver si podían mejorar las predicciones.
¿Cuáles Fueron los Resultados?
Los resultados del estudio revelaron algunas tendencias interesantes. Los LLMs, cuando se combinaban con el método XGB, mostraron resultados prometedores en cuanto a predecir la probabilidad de Sepsis. Pero métodos independientes, como las consultas de sí/no o estimaciones porcentuales, no funcionaron tan bien, especialmente con condiciones raras.
Cuando los investigadores compararon las predicciones de los LLMs con los resultados base del clasificador XGB, encontraron que los métodos que se basaban únicamente en LLMs tenían correlaciones más débiles, indicando que no eran tan consistentes. El método que combinaba incrustaciones de LLM con XGB generalmente funcionaba mejor, pero en general, los LLMs tenían dificultades para proporcionar estimaciones confiables, particularmente para enfermedades menos comunes.
El Rol de la Demografía del Paciente
Curiosamente, la información demográfica de los pacientes, como el sexo o la raza, afectó qué tan bien funcionaron estos modelos. Los modelos a menudo mostraban sesgos, lo que significa que sus predicciones podían variar injustamente basándose en las características del paciente. Esta es una preocupación significativa, ya que subraya la necesidad de que los LLMs se entrenen con una variedad diversa de datos.
Conclusión: ¿Qué Sigue?
En resumen, el estudio mostró que aunque los LLMs como Mistral y Llama pueden ser útiles en el diagnóstico médico, aún no son lo suficientemente confiables para usarse solos para predecir probabilidades de enfermedades. Los doctores no pueden confiar completamente en ellos para tomar decisiones seguras.
Para mejorar estos sistemas, la investigación futura podría explorar formas de combinar LLMs con otros métodos que puedan manejar números y riesgos mejor. Abordar los sesgos en estos modelos es vital para asegurar que proporcionen predicciones justas. Hasta entonces, parece que los doctores seguirán necesitando usar su conocimiento y experiencia, junto con cualquier tecnología útil, para tomar las mejores decisiones para sus pacientes.
Así que, aunque los LLMs aún no sean los cómplices superhéroes del mundo médico, tal vez algún día ayuden a los doctores a luchar contra las enfermedades con mejor y más confiable información. Pero por ahora, parece que la intuición humana y la experiencia aún tienen la corona en el mundo del diagnóstico.
Título: Position Paper On Diagnostic Uncertainty Estimation from Large Language Models: Next-Word Probability Is Not Pre-test Probability
Resumen: Large language models (LLMs) are being explored for diagnostic decision support, yet their ability to estimate pre-test probabilities, vital for clinical decision-making, remains limited. This study evaluates two LLMs, Mistral-7B and Llama3-70B, using structured electronic health record data on three diagnosis tasks. We examined three current methods of extracting LLM probability estimations and revealed their limitations. We aim to highlight the need for improved techniques in LLM confidence estimation.
Autores: Yanjun Gao, Skatje Myers, Shan Chen, Dmitriy Dligach, Timothy A Miller, Danielle Bitterman, Guanhua Chen, Anoop Mayampurath, Matthew Churpek, Majid Afshar
Última actualización: 2024-11-07 00:00:00
Idioma: English
Fuente URL: https://www.medrxiv.org/content/10.1101/2024.11.06.24316848
Fuente PDF: https://www.medrxiv.org/content/10.1101/2024.11.06.24316848.full.pdf
Licencia: https://creativecommons.org/licenses/by-nc/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.