Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ciencias de la Salud # Sistemas sanitarios y mejora de la calidad

Mejorando el Análisis de Feedback de Pacientes con GCA

Nuevo método mejora la clasificación de los comentarios de los pacientes a través de la Evaluación de Consistencia Global.

Zeno Loi, D. Morquin, F. X. Derzko, X. Corbier, S. Gauthier, P. Taourel, E. Prin Lombardo, G. Mercier, K. Yauy

― 6 minilectura


GCA Mejora la Precisión GCA Mejora la Precisión de la Retroalimentación del Paciente de los pacientes con mayor fiabilidad. clasificación de la retroalimentación Nuevas técnicas mejoran la
Tabla de contenidos

La retroalimentación de la satisfacción del paciente es súper importante para los hospitales. Les ayuda a ver en qué pueden mejorar, lo que a su vez mejora la calidad de atención que reciben los pacientes. Para manejar la gran cantidad de Comentarios de los pacientes, es necesario organizar y clasificar esta información. Así, los hospitales pueden concentrarse en las áreas que más necesitan mejorar.

Antes, los investigadores analizaron 2.5 millones de comentarios de pacientes y crearon 20 categorías para clasificar estas opiniones. Aunque fue útil, el proceso de clasificar los comentarios era lento y a menudo no muy eficiente. Esto destaca la necesidad de mejores soluciones para manejar estos datos.

El Problema con los Modelos Existentes

En el pasado, los métodos automatizados para analizar la retroalimentación de los pacientes no han sido muy efectivos. Esto se debe principalmente a las limitaciones de los algoritmos de procesamiento de lenguaje natural (NLP). Algunos modelos, como Naive Bayes y BERT, han tenido problemas para clasificar comentarios más complicados porque a menudo no pueden manejar los diferentes contextos en los que se usa el lenguaje.

Estos problemas muestran claramente la necesidad de herramientas más avanzadas para manejar la retroalimentación de los pacientes de manera más confiable.

Modelos de Lenguaje Grande como Solución

Los Modelos de Lenguaje Grande (LLMs) ofrecen una solución esperanzadora a los problemas enfrentados por modelos anteriores. Tienen una mejor capacidad para entender el lenguaje natural y captar las sutilezas en los comentarios de los pacientes. Dos ejemplos notables de estos LLMs son GPT-4, un modelo propietario, y Llama-3, una opción de código abierto.

Estudios recientes han encontrado que evaluar la consistencia en el desempeño de estos modelos-mirando sus predicciones a través de múltiples intentos independientes-puede mejorar enormemente su efectividad al clasificar información. Sin embargo, sigue existiendo un gran desafío: los LLMs pueden crear a veces información falsa o engañosa, conocidas como "Alucinaciones". Esto es especialmente preocupante al analizar datos sensibles como los comentarios de los pacientes.

Introduciendo el Evaluador de Consistencia Global (GCA)

Para abordar este problema de las alucinaciones, se ha desarrollado un nuevo método llamado Evaluador de Consistencia Global (GCA). GCA combina dos técnicas de evaluación: el Evaluador de Consistencia Externa (ECA), que verifica si las predicciones del modelo son consistentes a lo largo de múltiples ejecuciones, y el Evaluador de Consistencia Interna (ICA), que evalúa si el razonamiento del modelo es lógicamente sólido.

El uso de GCA busca mejorar la confiabilidad de las predicciones hechas por los LLMs.

Comparando Humanos y Modelos para Clasificar Comentarios

Para evaluar la efectividad de este nuevo método, un estudio examinó qué tan bien tres expertos humanos en calidad de atención podían clasificar 100 comentarios de pacientes en 21 categorías y dos tonos (positivo y negativo). Los resultados mostraron que, aunque los humanos fueron generalmente precisos con una precisión de 0.87, no fueron exhaustivos, con una tasa de recuperación de solo 0.64. Además, clasificar los comentarios llevó mucho tiempo, alrededor de tres horas por cada 100 comentarios.

Luego se examinó el rendimiento de GPT-4. El modelo produjo tres clasificaciones independientes de cada comentario. GPT-4 tuvo una precisión más baja de 0.72 pero una mayor tasa de recuperación de 0.87 en comparación con los expertos humanos. Sin embargo, el modelo también tuvo una notable tasa de alucinaciones del 16%, lo que significa que podía producir clasificaciones incorrectas.

Mejorando el Rendimiento con Evaluadores de Consistencia

Para mejorar la precisión de GPT-4, se usó el ECA para aumentar su precisión seleccionando solo categorías que fueron identificadas por dos ejecuciones independientes. Este enfoque llevó a un aumento en la precisión de GPT-4 a 0.84 mientras mantenía una tasa de recuperación de 0.82. Aún así, tuvo una tasa de alucinaciones del 4%.

Para abordar el problema de las alucinaciones, se desarrolló el ICA. Este método requería que el LLM estructurara su razonamiento en un flujo lógico, produciendo una premisa, una implicación y una conclusión. Al hacer esto, se podía determinar si el razonamiento era consistente y válido. Como resultado, el modelo eliminó con éxito las alucinaciones de sus predicciones.

Rendimiento de GPT-4 con Evaluación de Consistencia Global

Después de aplicar GCA a GPT-4, el modelo mostró que podía desempeñarse igual de bien que los expertos humanos en cuanto a precisión. Alcanzó una precisión de 0.87 y una tasa de recuperación del 0.75 sin producir alucinaciones. Este resultado fue verificado por una revisión humana, confirmando la confiabilidad del método GCA.

En una comparación con otras soluciones automatizadas, GPT-4 con GCA superó a todos los demás modelos, logrando un área bajo la curva de precisión-recuperación (pr-AUC) alta de 0.89. El modelo GPT-4 por sí solo fue la segunda mejor opción, pero tuvo una precisión más baja a pesar de una alta recuperación. Otros modelos como Llama-3 y métodos tradicionales quedaron significativamente atrás.

El Impacto de la Consistencia Interna en el Rendimiento

Investigaciones adicionales mostraron que el rendimiento de los LLMs equipados con GCA no era uniforme en diferentes categorías. Por ejemplo, en la categoría de "Cuidado médico y paramédico", el rendimiento fue notablemente bajo, sugiriendo que las implicaciones disponibles para estas categorías necesitaban mejorarse. Por otro lado, categorías relacionadas con "Comidas y refrigerios" y "Humanidad y disponibilidad de profesionales - positivo" tuvieron un buen desempeño, probablemente debido a la claridad del lenguaje en los comentarios.

Además, los modelos se desempeñaron mejor al identificar tonos negativos en comparación con los positivos. Si bien GCA ayudó a mejorar la calidad de las clasificaciones, la efectividad resaltó la necesidad de mejores definiciones y ejemplos de implicaciones relacionadas con categorías específicas.

Conclusión

El método GCA mejora la confiabilidad de los LLMs en la clasificación efectiva de la retroalimentación de pacientes. Solo GPT-4 tiene dificultades para crear clasificaciones precisas de grado médico debido a las alucinaciones. Sin embargo, combinar ECA e ICA con GPT-4 lleva a un mejor desempeño, superando las habilidades de los expertos humanos y otros modelos de aprendizaje automático.

Este estudio subraya los desafíos de establecer un estándar de oro definitivo para evaluar la clasificación de texto automatizada, destacando cómo el juicio subjetivo puede afectar los resultados. A pesar de las limitaciones observadas, GCA permite clasificaciones más estables y reproducibles, beneficiándose de la ausencia de necesidad de ajuste fino o datos adicionales.

Es necesaria más investigación para determinar si estos métodos pueden generalizarse en varios idiomas y tareas. Esta investigación representa un paso significativo hacia mejores herramientas en el campo médico y posiblemente en otras áreas que dependen de la clasificación de texto. Al centrarse en la consistencia interna y externa, puede ser posible lograr clasificaciones consistentemente precisas sin requerir recursos o tiempo extensivos.

Fuente original

Título: Self-Logical Consistent GPT-4 Enables Human-Level Classification of Patient Feedback

Resumen: Patient satisfaction feedback is crucial for hospital service quality, but human-led reviews are time-consuming and traditional natural language processing remains ineffective. Large Language Models (LLM) offer potential, but their tendency to generate illogical thoughts limits their use in healthcare. Here we describe Self-Logical Consistency Assessment (SLCA), a method ensuring a reproducible LLM classification explained by a logically-structured chain of thought. In an analysis targeting extrinsic faithfulness hallucinations, SLCA mitigated the 16% GPT-4 hallucination rate, leaving only three residual cases across 12,600 classifications from 100 diverse patient feedbacks. In a benchmark designed to evaluate classification accuracy, SLCA applied to GPT-4 outperformed best algorithms, with a 88% precision rate and a 71% recall rate across 49,140 classifications from 1,170 sampled patient feedbacks. This method provides a reliable, scalable solution for improving hospital services and shows potential for accurate, explainable text classifications without fine-tuning.

Autores: Zeno Loi, D. Morquin, F. X. Derzko, X. Corbier, S. Gauthier, P. Taourel, E. Prin Lombardo, G. Mercier, K. Yauy

Última actualización: 2024-10-26 00:00:00

Idioma: English

Fuente URL: https://www.medrxiv.org/content/10.1101/2024.07.11.24310210

Fuente PDF: https://www.medrxiv.org/content/10.1101/2024.07.11.24310210.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares