Améliorer l'analyse des retours patients avec le GCA
Une nouvelle méthode améliore la classification des retours patients grâce à l'évaluation de la cohérence mondiale.
Zeno Loi, D. Morquin, F. X. Derzko, X. Corbier, S. Gauthier, P. Taourel, E. Prin Lombardo, G. Mercier, K. Yauy
― 7 min lire
Table des matières
- Le Problème avec les Modèles Existants
- Les Grands Modèles de Langage comme Solution
- Présentation de l'Évaluateur de Cohérence Globale (GCA)
- Comparer Humains et Modèles pour Classifier les Retours
- Améliorer la Performance avec les Évaluateurs de Cohérence
- Performance de GPT-4 avec l'Évaluation de Cohérence Globale
- L'Impact de la Cohérence Interne sur la Performance
- Conclusion
- Source originale
Les retours de satisfaction des patients sont super importants pour les hôpitaux. Ça les aide à voir ce qu’ils peuvent améliorer, ce qui, en retour, améliore la qualité des soins reçus par les patients. Pour gérer la grosse quantité de retours, il faut organiser et trier ces infos. Comme ça, les hôpitaux peuvent se concentrer sur les domaines qui ont le plus besoin d'améliorations.
Avant, des chercheurs ont regardé 2,5 millions de retours de patients et ont créé 20 catégories pour classer ces commentaires. Même si c'était utile, le tri des retours était lent et souvent pas très efficace. Ça montre qu'il faut de meilleures solutions pour gérer ces données.
Le Problème avec les Modèles Existants
Dans le passé, les méthodes automatisées pour analyser les retours des patients n'ont pas été très efficaces. C'est surtout à cause des limites des algorithmes de traitement du langage naturel (NLP). Certains modèles, comme Naive Bayes et BERT, ont du mal à classer des retours plus compliqués parce qu'ils n'arrivent souvent pas à gérer les différents contextes dans lesquels le langage est utilisé.
Ces problèmes montrent bien qu'il y a un besoin clair d'outils plus avancés pour gérer les retours des patients de manière plus fiable.
Les Grands Modèles de Langage comme Solution
Les Grands Modèles de Langage (LLMs) semblent offrir une solution intéressante aux soucis rencontrés par les anciens modèles. Ils comprennent mieux le langage naturel et perçoivent mieux les nuances dans les retours des patients. Deux exemples notables de ces LLMs sont GPT-4, un modèle propriétaire, et Llama-3, une option open-source.
Des études récentes ont montré qu'évaluer comment ces modèles se comportent de manière cohérente - en regardant leurs prédictions sur plusieurs essais indépendants - peut grandement améliorer leur efficacité à classifier les infos. Cependant, un gros défi demeure : les LLMs peuvent parfois produire des infos fausses ou trompeuses, appelées "Hallucinations." C'est particulièrement inquiétant quand on analyse des données sensibles comme les retours de patients.
GCA)
Présentation de l'Évaluateur de Cohérence Globale (Pour résoudre ce problème d'hallucinations, une nouvelle méthode appelée l'Évaluateur de Cohérence Globale (GCA) a été développée. Le GCA combine deux techniques d'évaluation : l'Évaluateur de Cohérence Externe (ECA), qui vérifie si les prédictions du modèle sont cohérentes sur plusieurs exécutions, et l'Évaluateur de Cohérence Interne (ICA), qui évalue si le raisonnement du modèle est logiquement valide.
Utiliser le GCA vise à améliorer la fiabilité des prédictions faites par les LLMs.
Comparer Humains et Modèles pour Classifier les Retours
Pour évaluer l'efficacité de cette nouvelle méthode, une étude a testé combien trois experts en qualité des soins pouvaient classifier 100 retours de patients en 21 catégories et deux tons (positif et négatif). Les résultats ont montré que, même si les humains étaient généralement précis avec une précision de 0.87, ils n'étaient pas exhaustifs, avec un taux de rappel d'à peine 0.64. De plus, classifier les retours était long, prenant environ trois heures pour chaque 100 commentaires.
Ensuite, la performance de GPT-4 a été examinée. Le modèle a produit trois classifications indépendantes pour chaque retour. GPT-4 avait une précision plus basse de 0.72 mais un meilleur rappel de 0.87 par rapport aux experts humains. Cependant, le modèle avait aussi un taux d'hallucination notable de 16%, ce qui veut dire qu'il pouvait produire des classifications incorrectes.
Améliorer la Performance avec les Évaluateurs de Cohérence
Pour améliorer l'exactitude de GPT-4, l'ECA a été utilisé pour augmenter sa précision en ne sélectionnant que les catégories identifiées par deux essais indépendants. Cette approche a fait grimper la précision de GPT-4 à 0.84 tout en gardant un taux de rappel de 0.82. Cependant, il avait encore un taux d'hallucination de 4%.
Pour tackle le problème d'hallucination, l'ICA a été développé. Cette méthode exigeait que le LLM structure son raisonnement en un flux logique, produisant une prémisse, une implication, et une conclusion. En faisant ça, on pouvait déterminer si le raisonnement était cohérent et valide. En conséquence, le modèle a réussi à éliminer les hallucinations de ses prédictions.
Performance de GPT-4 avec l'Évaluation de Cohérence Globale
Après avoir appliqué le GCA à GPT-4, le modèle a montré qu'il pouvait se comporter aussi bien que les experts humains en termes de précision. Il a atteint une précision de 0.87 et un taux de rappel de 0.75 sans produire d'hallucinations. Ce résultat a été confirmé par une révision humaine, vérifiant la fiabilité de la méthode GCA.
Dans une comparaison avec d'autres solutions automatisées, GPT-4 avec GCA a surpassé tous les autres modèles, atteignant un haut niveau de précision-rappel (pr-AUC) de 0.89. Le modèle GPT-4 seul était la deuxième meilleure option, mais il avait une précision plus basse malgré un bon rappel. D'autres modèles comme Llama-3 et les méthodes traditionnelles ont beaucoup moins bien performé.
L'Impact de la Cohérence Interne sur la Performance
D'autres investigations ont montré que la performance des LLMs équipés de GCA n'était pas uniforme à travers les différentes catégories. Par exemple, dans la catégorie "Soins médicaux et paramédicaux", la performance était nettement basse, suggérant que les implications disponibles pour ces catégories avaient besoin d'amélioration. En revanche, les catégories liées aux "Repas et collations" et "Humanité et disponibilité des professionnels - positif" ont bien performé, probablement grâce à la clarté du langage dans les retours.
De plus, les modèles ont mieux réussi à identifier les tons négatifs par rapport aux positifs. Bien que le GCA ait aidé à améliorer la qualité des classifications, l'efficacité a mis en lumière la nécessité de meilleures définitions et exemples d'implications liées à des catégories spécifiques.
Conclusion
La méthode GCA améliore la fiabilité des LLMs pour classifier efficacement les retours des patients. GPT-4 seul a du mal à créer des classifications précises de niveau médical à cause des hallucinations. Cependant, en combinant ECA et ICA avec GPT-4, on obtient de meilleures performances, dépassant les capacités des experts humains et d'autres modèles d'apprentissage automatique.
Cette étude souligne les défis pour établir une norme d'évaluation définitive pour la classification automatisée de texte, en mettant en avant comment le jugement subjectif peut influencer les résultats. Malgré les limitations observées, le GCA permet des classifications plus stables et reproductibles, sans avoir besoin de réglages fins ou de données supplémentaires.
D'autres recherches sont nécessaires pour voir si ces méthodes peuvent être généralisées à travers différentes langues et tâches. Cette recherche représente un pas significatif vers de meilleurs outils dans le domaine médical et peut-être dans d'autres domaines qui reposent sur la classification de texte. En se concentrant sur la cohérence interne et externe, il pourrait être possible d'obtenir des classifications précises de manière constante sans nécessiter de ressources ou de temps excessifs.
Titre: Self-Logical Consistent GPT-4 Enables Human-Level Classification of Patient Feedback
Résumé: Patient satisfaction feedback is crucial for hospital service quality, but human-led reviews are time-consuming and traditional natural language processing remains ineffective. Large Language Models (LLM) offer potential, but their tendency to generate illogical thoughts limits their use in healthcare. Here we describe Self-Logical Consistency Assessment (SLCA), a method ensuring a reproducible LLM classification explained by a logically-structured chain of thought. In an analysis targeting extrinsic faithfulness hallucinations, SLCA mitigated the 16% GPT-4 hallucination rate, leaving only three residual cases across 12,600 classifications from 100 diverse patient feedbacks. In a benchmark designed to evaluate classification accuracy, SLCA applied to GPT-4 outperformed best algorithms, with a 88% precision rate and a 71% recall rate across 49,140 classifications from 1,170 sampled patient feedbacks. This method provides a reliable, scalable solution for improving hospital services and shows potential for accurate, explainable text classifications without fine-tuning.
Auteurs: Zeno Loi, D. Morquin, F. X. Derzko, X. Corbier, S. Gauthier, P. Taourel, E. Prin Lombardo, G. Mercier, K. Yauy
Dernière mise à jour: 2024-10-26 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2024.07.11.24310210
Source PDF: https://www.medrxiv.org/content/10.1101/2024.07.11.24310210.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.