Évaluation des grands modèles de langage dans la santé : présentation de ClinicBench
Nouveau standard comble les lacunes dans l'évaluation des LLM pour la prise de décision clinique.
Fenglin Liu, Z. Li, H. Zhou, Q. Yin, J. Yang, X. Tang, C. Luo, M. Zeng, H. Jiang, Y. Gao, P. Nigam, S. Nag, B. Yin, Y. Hua, X. Zhou, O. Rohanian, A. Thakur, L. Clifton, D. Clifton
― 9 min lire
Table des matières
Les grands modèles de langage (LLMs), comme ChatGPT, sont de plus en plus utilisés dans le domaine de la santé pour aider à la prise de décision clinique. Les chercheurs s'efforcent de développer des LLMs médicaux qui peuvent réaliser diverses tâches médicales mieux que des experts humains. Par exemple, certains LLMs médicaux ont atteint une grande précision dans des tests comme l'Examen de licence médicale des États-Unis (USMLE).
Malgré ces résultats prometteurs, il y a plusieurs défis à relever lors de l'utilisation des LLMs en milieu clinique. D'abord, la plupart des études n'évaluent ces modèles que sur des tâches spécifiques de questions-réponses. Cette approche étroite signifie que les modèles ne sont pas entièrement testés dans des situations Cliniques réelles, comme comprendre le langage Médical ou créer des documents cliniques. Ensuite, les Évaluations actuelles ne traitent pas de problèmes cliniques complexes, comme recommander des Traitements ou analyser de nouveaux médicaments. Enfin, beaucoup d'études proposent soit des exemples limités, soit comparent quelques modèles, ce qui passe à côté d'une analyse plus large de différents LLMs dans divers scénarios cliniques.
Présentation de ClinicBench
Pour combler ces lacunes, on propose un nouveau référentiel appelé ClinicBench. Ce référentiel inclut onze tâches dans trois catégories : raisonnement, génération et compréhension. Il comprend aussi dix-sept ensembles de données. L'objectif est de fournir une évaluation complète des LLMs dans des contextes cliniques. Les efforts précédents ont essayé de créer des références pour les LLMs dans le domaine de la santé, mais se sont principalement concentrés sur des tâches non cliniques. Notre référentiel introduit six nouvelles tâches cliniques et crée six ensembles de données novateurs pour évaluer comment les LLMs se débrouillent dans des situations médicales réelles.
Pour l'évaluation, on a rassemblé vingt-deux LLMs différents, comprenant à la fois des modèles généralistes et ceux conçus spécifiquement pour la santé. Ces modèles varient en taille, allant de 7 milliards à 70 milliards de paramètres. Alors que les études précédentes utilisaient principalement trois modèles pour l'évaluation, on a élargi le champ à une plus grande variété de LLMs et comparé leurs performances sur différentes tâches cliniques.
Le besoin d'une évaluation complète
Un des principaux problèmes avec les LLMs existants est la portée limitée des évaluations. Beaucoup d'études se concentrent principalement sur des tâches d'apprentissage en zéro-shot et un-shot. En revanche, on effectue aussi des évaluations en trois-shot et cinq-shot, où le modèle reçoit un petit nombre d'exemples d'apprentissage. De plus, on réalise des évaluations humaines pour avoir un aperçu de la façon dont les LLMs fonctionnent dans des contextes cliniques.
Notre cadre d'évaluation comprend diverses tâches qui reflètent des besoins cliniques courants. Ces tâches visent à aider les cliniciens à comprendre rapidement les médicaments, recommander des traitements, résumer des documents médicaux et éduquer les patients. Chaque tâche est conçue pour tester différents aspects des capacités d'un LLM, du raisonnement et de la génération à la compréhension d'un langage médical complexe.
Tâches cliniques clés dans ClinicBench
Pour développer notre référentiel, on a créé six nouvelles tâches cliniques, chacune répondant à des besoins spécifiques en santé :
-
QA de Référence : Cette tâche aide les cliniciens à comprendre l'historique de traitement d'un patient lorsqu'il revient chez son médecin traitant ou est orienté vers un autre établissement. On a collecté des lettres de référence et généré des questions et réponses liées aux médicaments et traitements.
-
Recommandation de Traitement : Pour cette tâche, les LLMs doivent suggérer des médicaments appropriés en fonction des symptômes et des conditions d'un patient. On a rassemblé des conversations entre patients et médecins pour aider à formuler cette tâche.
-
Résumé d'Hospitalisation : Les cliniciens passent souvent beaucoup de temps à traiter des documents de santé. Cette tâche demande aux LLMs de résumer des informations diagnostiques clés à partir de dossiers médicaux longs, ce qui est essentiel pour la sortie ou le transfert des patients.
-
Éducation des Patients : Les cliniciens doivent créer des supports éducatifs pour les patients. Cette tâche teste la capacité d'un LLM à générer des instructions claires et utiles concernant la gestion des conditions de santé.
-
QA Pharmacologie pour Médicaments Émergents : Cette tâche se concentre sur la réponse à des questions concernant de nouveaux médicaments. On a collecté des données sur les nouvelles sorties de médicaments et créé des paires de questions-réponses pour que les LLMs puissent les traiter.
-
Interactions Médicamenteuses pour Médicaments Émergents : Dans cette tâche, les LLMs évaluent les effets de combinaisons de médicaments connus, particulièrement avec de nouveaux médicaments. C'est crucial pour la sécurité des patients et la gestion efficace des traitements.
Évaluation des performances des LLM
Dans notre étude, on a évalué les performances de vingt-deux LLMs divers à travers des ensembles de données existants et nouvellement créés. Pour assurer des évaluations précises, on a utilisé des prompts spécialisés adaptés à chaque tâche. Nos évaluations ont donné des aperçus sur la manière dont les LLMs peuvent gérer des tâches cliniques dans le monde réel.
Les résultats de nos évaluations ont révélé que, bien que certains LLMs se soient bien comportés dans des tâches de type examen, ils ont eu beaucoup de mal avec des tâches ouvertes couramment rencontrées dans la pratique clinique. Par exemple, lors de la tâche de recommandation de traitement, les LLMs ont souvent généré des réponses de mauvaise qualité, ce qui indique un besoin d'améliorations supplémentaires avant qu'ils puissent être utilisés de manière fiable dans la prise de décision clinique.
Découvertes sur les capacités des LLM
À travers diverses évaluations, on a découvert plusieurs tendances importantes :
-
Raisonnement en Langage Clinique : Les LLMs médicaux ont tendance à mieux performer que les LLMs généralistes sur des tâches de raisonnement. Cependant, ils montrent encore des limites, notamment dans les domaines nécessitant des réponses ouvertes.
-
Génération de Langage Clinique : Il y avait un écart notable entre les performances des LLMs et des modèles à la pointe de la technologie lorsqu'il s'agissait de générer des résumés ou du contenu éducatif. Les LLMs avaient du mal à traiter de longs documents cliniques, qui sont essentiels dans des environnements cliniques réels.
-
Compréhension du Langage Clinique : Beaucoup de LLMs avaient du mal à comprendre complètement les textes médicaux. Les LLMs médicaux surperformaient généralement les LLMs généralistes, mais restaient insuffisants pour comprendre des relations complexes en santé.
Métriques d'Évaluation Humaine
Pour évaluer à quel point les LLMs sont utiles pour les cliniciens, on a adopté plusieurs métriques d'évaluation humaine, notamment la factualité, l'exhaustivité, la préférence et la sécurité. Des experts humains ont comparé les résultats de différents LLMs, y compris le modèle le plus performant, pour évaluer leur efficacité à fournir des informations précises et claires.
Les évaluations humaines ont révélé que les LLMs médicaux étaient généralement meilleurs pour fournir des réponses factuelles par rapport aux LLMs généralistes. Cependant, ils avaient tendance à produire des résultats moins complets, ce qui est critique pour éviter des diagnostics manqués dans la pratique clinique. De plus, les LLMs généralistes excellaient souvent en matière de préférence utilisateur, ce qui suggère que les données de fine-tuning utilisées pour les LLMs médicaux pourraient ne pas couvrir adéquatement les besoins spécifiques des utilisateurs.
Impact des Données de Fine-Tuning
Les données de fine-tuning jouent un rôle crucial dans le développement des LLMs médicaux. On a examiné divers types de données de fine-tuning pour comprendre leurs effets sur les performances des modèles. Nos résultats ont indiqué que l'utilisation de connaissances de standard clinique aidait à améliorer la précision et la fiabilité des LLMs. En particulier, les modèles entraînés sur des ensembles de données divers ont mieux performé dans la plupart des tâches.
De plus, il était essentiel d'inclure des données qui reflètent fidèlement la pratique clinique, plutôt que de se fier uniquement à des dialogues, des examens ou des articles. Par exemple, l'utilisation d'entrées cliniques à partir de bases de connaissances a donné les meilleures performances à travers plusieurs scénarios, soulignant la nécessité d'une formation plus pertinente et variée.
Conclusion
On a introduit ClinicBench, un nouveau référentiel pour évaluer les LLMs dans le domaine de la santé. Ce référentiel comprend de nombreuses tâches et ensembles de données visant à évaluer les capacités des LLMs dans des situations cliniques réelles. Nos résultats révèlent que, bien que les LLMs montrent un potentiel dans certains domaines, des lacunes significatives subsistent dans leur capacité à aider efficacement les cliniciens.
En évaluant les performances à travers divers scénarios, on espère encourager de nouveaux développements dans les LLMs médicaux qui peuvent mieux répondre aux besoins des prestataires de soins de santé. Notre travail souligne également l'importance de données de fine-tuning de qualité et la nécessité d'une amélioration continue des LLMs pour une application réussie dans des environnements cliniques.
Titre: Large Language Models Are Poor Clinical Decision-Makers: A Comprehensive Benchmark
Résumé: The adoption of large language models (LLMs) to assist clinicians has attracted remarkable attention. Existing works mainly adopt the closeended question-answering (QA) task with answer options for evaluation. However, many clinical decisions involve answering open-ended questions without pre-set options. To better understand LLMs in the clinic, we construct a benchmark ClinicBench. We first collect eleven existing datasets covering diverse clinical language generation, understanding, and reasoning tasks. Furthermore, we construct six novel datasets and clinical tasks that are complex but common in real-world practice, e.g., open-ended decision-making, long document processing, and emerging drug analysis. We conduct an extensive evaluation of twenty-two LLMs under both zero-shot and few-shot settings. Finally, we invite medical experts to evaluate the clinical usefulness of LLMs 1.
Auteurs: Fenglin Liu, Z. Li, H. Zhou, Q. Yin, J. Yang, X. Tang, C. Luo, M. Zeng, H. Jiang, Y. Gao, P. Nigam, S. Nag, B. Yin, Y. Hua, X. Zhou, O. Rohanian, A. Thakur, L. Clifton, D. Clifton
Dernière mise à jour: 2024-10-16 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2024.04.24.24306315
Source PDF: https://www.medrxiv.org/content/10.1101/2024.04.24.24306315.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.