Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Informatique de santé

Évaluer les grands modèles de langage en milieu clinique

Évaluer l'efficacité des LLM dans le soutien à la prise de décision médicale.

― 8 min lire


LLMs dans la prise deLLMs dans la prise dedécision médicaledes scénarios cliniques réels.Les modèles d'IA actuels galèrent dans
Table des matières

Les grands modèles de langage (LLMs) sont des programmes informatiques avancés capables de comprendre et de générer du texte qui ressemble à celui des humains. Ils ont le potentiel de vraiment changer la donne dans le domaine médical en aidant à des tâches comme la rédaction de rapports, répondre à des questions et traiter des données médicales complexes. Mais leur efficacité dans des environnements médicaux réels est encore en cours d'évaluation.

Le rôle des LLMs en milieu clinique

Les LLMs peuvent rendre plein de tâches dans le secteur de la santé plus simples. Par exemple, ils peuvent aider à créer et à résumer des rapports médicaux, répondre à des questions biomédicales, et analyser différents types de données médicales, y compris des images et des résultats de laboratoire. Comme le langage est un moyen principal de communication pour les humains, les LLMs pourraient servir de passerelle vers de futures solutions d'intelligence artificielle médicale.

Malgré leur potentiel, les LLMs ont surtout été testés dans des situations contrôlées. Ces environnements, comme les examens de licence médicale, présentent des cas simplifiés où toutes les informations nécessaires sont fournies à l'avance. Cela aide à évaluer la connaissance médicale générale des modèles, mais ça ne reflète pas les complexités de la prise de décision clinique dans la vraie vie.

Les défis de la prise de décision clinique

Dans la pratique quotidienne, les professionnels de la santé font face à un processus compliqué pour prendre des décisions concernant les soins aux patients. Ils doivent rassembler des données provenant de diverses sources, analyser l'information, puis prendre des décisions éclairées sur les diagnostics et les traitements. Ce processus exige une considération attentive des lignes directrices cliniques et des symptômes individuels des patients.

Étant donné la nature laborieuse de la prise de décision clinique, il y a des opportunités d'utiliser les LLMs pour réduire une partie de cette charge de travail. Idéalement, ces modèles pourraient faire des évaluations initiales que les médecins pourraient ensuite confirmer. Cependant, pour déterminer à quel point les LLMs sont utiles dans des environnements réels, ils doivent être testés sur des données de patients réels dans des conditions réalistes.

Le jeu de données de prise de décision clinique MIMIC

Pour évaluer efficacement les LLMs, un jeu de données spécifique a été créé basé sur de vrais cas de patients. Ce jeu de données comprend environ 2 400 patients qui se sont présentés aux urgences avec des problèmes abdominaux courants, comme l'appendicite, la cholécystite, la diverticulite et la pancréatite. L'objectif était d'évaluer à quel point les LLMs pouvaient simuler les étapes qu'un médecin suit lors du diagnostic d'un patient.

Caractéristiques du jeu de données

Le jeu de données inclut des dossiers patients détaillés, incorporant des informations de santé complètes comme les symptômes, les résultats d'examens, les résultats de laboratoire, et les rapports d'imagerie. Chaque entrée reflète de vrais cas qui ont eu lieu dans un cadre clinique, ce qui rend le jeu de données une ressource précieuse pour évaluer la performance des LLMs dans la prise de décision clinique.

Test des LLMs

L'étude a examiné plusieurs LLMs en accès libre pour voir comment ils géraient des scénarios cliniques. Les modèles ont été évalués sur leur capacité à rassembler des informations, suivre des directives et faire des diagnostics précis. Les aspects clés de leur performance incluaient :

  1. Précision diagnostique : À quel point les modèles pouvaient-ils diagnostiquer les conditions avec précision ?
  2. Respect des directives : Les modèles suivaient-ils les directives cliniques établies pour les diagnostics et les traitements ?
  3. Collecte d'informations : Les LLMs rassemblaient-ils et synthétisaient-ils efficacement l'information ?
  4. Suivi des instructions : Les modèles étaient-ils bons pour suivre les instructions qui leur étaient données ?

Résultats : Précision diagnostique

Les premiers résultats ont montré que les LLMs ne performaient pas aussi bien que les cliniciens en matière de diagnostic. En fait, les modèles avaient généralement une précision inférieure à celle des médecins en exercice, surtout pour des conditions complexes comme la cholécystite et la diverticulite. La précision diminuait encore plus lorsque les modèles devaient rassembler leurs propres informations plutôt que de recevoir des données complètes.

Comparaison avec les cliniciens

Pour comprendre les capacités diagnostiques des modèles, ils ont été comparés à quatre médecins expérimentés. Chaque clinicien a diagnostiqué un ensemble de patients et leurs performances ont été comparées à celles des modèles. Les résultats ont montré que les cliniciens surpassaient systématiquement les LLMs, soulignant les limites des modèles dans des applications réelles.

Collecte d'informations

Une des tâches critiques pour les médecins est de rassembler toutes les informations pertinentes avant de poser un diagnostic final. Les LLMs ont été testés sur leur capacité à exécuter cette étape. Les résultats ont indiqué que les modèles avaient parfois du mal à demander ou à identifier correctement les tests et examens nécessaires, ce qui entravait leur capacité à poser des diagnostics éclairés.

Recommandations de traitement

En plus du diagnostic, des recommandations de traitement appropriées sont vitales pour la sécurité des patients. L'étude a évalué si les LLMs pouvaient suggérer des traitements appropriés en fonction des conditions diagnostiquées. Les résultats ont indiqué que les modèles échouaient fréquemment à recommander des traitements essentiels, en particulier pour des cas plus graves.

Importance de suivre les directives

Les directives cliniques existent pour garantir que les médecins fournissent des soins cohérents et sûrs aux patients. Ces directives couvrent les tests et traitements nécessaires pour chaque condition. L'étude a révélé que les LLMs respectaient souvent ces directives, ce qui soulève des préoccupations quant à leur fiabilité dans des scénarios cliniques réels.

Problèmes d'interprétation des résultats de laboratoire

Interpréter les résultats de laboratoire est une partie clé du diagnostic. L'étude a évalué à quel point les LLMs pouvaient classer les résultats des tests comme normaux ou anormaux. Les modèles ont mal performé, surtout sur des questions liées à des valeurs critiques de laboratoire, ce qui représente un risque pour la sécurité des patients.

L'impact de l'ordre de l'information

Une autre découverte surprenante a été que les LLMs étaient sensibles à l'ordre dans lequel les informations étaient présentées. Changer la séquence d'information a conduit à des variations dans la performance diagnostique. Cette incohérence pourrait entraîner des complications dans des environnements cliniques où les médecins n'ont pas le contrôle sur le flux d'informations.

Le besoin de robustesse

Pour qu'un modèle soit utile en milieu clinique, il doit être robuste, c'est-à-dire qu'il doit performer de manière cohérente à travers différents scénarios et ne pas fluctuer en fonction de changements mineurs dans les instructions. Les LLMs actuels ont montré une variabilité significative, ce qui signifie qu'ils nécessiteraient une supervision attentive en pratique pour minimiser les erreurs.

Le rôle de la synthèse et du filtrage

Pour répondre à certaines des limitations décrites dans l'étude, des techniques comme la synthèse et le filtrage des résultats de laboratoire ont été employées. En fournissant aux LLMs un résumé des résultats clés ou en se concentrant sur des résultats anormaux, les modèles ont montré quelques améliorations de performance.

Conclusion

Bien que les LLMs aient montré du potentiel dans des applications théoriques, la génération actuelle de ces modèles ne répond pas aux besoins d'une prise de décision clinique efficace dans des situations médicales réelles. Les résultats révèlent plusieurs lacunes, y compris la précision diagnostique, le respect des directives de traitement, et la capacité à suivre les instructions de manière fiable.

Les avancées futures dans la technologie des LLMs pourraient offrir des solutions à ces défis. Pour l'instant, l'étude souligne la nécessité d'améliorations supplémentaires et d'une évaluation rigoureuse avant que ces modèles puissent être intégrés avec confiance dans les flux de travail cliniques.

Prochaines étapes dans le développement des LLMs

Malgré les défis actuels, il y a encore une croyance dans le potentiel des LLMs à soutenir efficacement la prise de décision clinique à l'avenir. Les recherches futures devraient se concentrer sur l'amélioration de la robustesse de ces modèles, en veillant à ce qu'ils respectent les directives, et en améliorant leur capacité à traiter et interpréter les données médicales avec précision.

À mesure que le domaine évolue, une collaboration continue entre développeurs d'IA, professionnels de la santé et chercheurs sera cruciale pour garantir que les avantages de l'intelligence artificielle puissent être exploités en toute sécurité et efficacement dans les soins aux patients.

Source originale

Titre: Evaluating and Mitigating Limitations of Large Language Models in Clinical Decision Making

Résumé: Clinical decision making is one of the most impactful parts of a physicians responsibilities and stands to benefit greatly from AI solutions and large language models (LLMs) in particular. However, while LLMs have achieved excellent performance on medical licensing exams, these tests fail to assess many skills that are necessary for deployment in a realistic clinical decision making environment, including gathering information, adhering to established guidelines, and integrating into clinical workflows. To understand how useful LLMs are in real-world settings, we must evaluate them in the wild, i.e. on real-world data under realistic conditions. Here we have created a curated dataset based on the MIMIC-IV database spanning 2400 real patient cases and four common abdominal pathologies as well as a framework to simulate a realistic clinical setting. We show that current state-of-the-art LLMs do not accurately diagnose patients across all pathologies (performing significantly worse than physicians on average), follow neither diagnostic nor treatment guidelines, and cannot interpret laboratory results, thus posing a serious risk to the health of patients. Furthermore, we move beyond diagnostic accuracy and demonstrate that they cannot be easily integrated into existing workflows because they often fail to follow instructions and are sensitive to both the quantity and order of information. Overall, our analysis reveals that LLMs are currently not ready for clinical deployment while providing a dataset and framework to guide future studies.

Auteurs: Paul Hager, F. Jungmann, K. Bhagat, I. Hubrecht, M. Knauer, J. Vielhauer, R. Holland, R. Braren, M. Makowski, G. Kaisis, D. Rueckert

Dernière mise à jour: 2024-01-26 00:00:00

Langue: English

Source URL: https://www.medrxiv.org/content/10.1101/2024.01.26.24301810

Source PDF: https://www.medrxiv.org/content/10.1101/2024.01.26.24301810.full.pdf

Licence: https://creativecommons.org/licenses/by-nc/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires