Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Informatique de santé

Évaluation de GPT-3.5-turbo en Médecine d'Urgence

Une étude examine la capacité de GPT-3.5-turbo à fournir des recommandations cliniques en situation d'urgence.

― 8 min lire


Le rôle de l'IA dans lesLe rôle de l'IA dans lessoins d'urgencerecommandations cliniques.GPT-3.5-turbo a du mal avec les
Table des matières

Depuis son lancement en novembre 2022, ChatGPT a attiré pas mal d'attention du public. Les rapports montrent qu'il a rapidement dépassé les 100 millions d'utilisateurs mensuels. Le modèle, connu sous le nom de GPT-3.5-turbo, répond aux questions et aide à résoudre des problèmes en format chat. Sa version plus récente, GPT-4, est aussi utilisée. Les chercheurs ont commencé à étudier comment ces modèles fonctionnent dans des environnements cliniques. Des études montrent que GPT-3.5-turbo peut donner des conseils utiles pour prévenir les maladies cardiaques. De plus, ses réponses aux questions de santé sur les réseaux sociaux étaient jugées plus empathiques que celles des Médecins.

État actuel de la recherche

Il y a de plus en plus d'études sur l'utilisation des modèles GPT dans le secteur de la santé. Cependant, la plupart de ces études ne se basent pas sur de vraies notes de Patients des cliniques. En fait, elles utilisent souvent des questions d'essai ou des défis médicaux accessibles au public pour évaluer les modèles. Une des raisons est la difficulté de partager des informations privées sur les patients (PHI) en toute sécurité, comme la loi l'exige. Donc, les modèles ont surtout été testés sur des ensembles de données sélectionnés, qui diffèrent beaucoup des vraies notes cliniques. Ça soulève des inquiétudes sur leur performance dans des situations cliniques réelles.

À mesure que ces modèles de langage deviennent plus populaires et accessibles, il est essentiel de comprendre leurs forces et faiblesses dans le traitement des informations réelles sur les patients. Des recherches précédentes ont montré que GPT-3.5-turbo pouvait identifier des patients nécessitant des soins urgents, même sans formation particulière. Une autre étude a trouvé que GPT-4 diagnostiquait correctement de nombreux cas présentés dans des conférences médicales, mais sa capacité à analyser de vraies notes de patients reste incertaine.

Une nouvelle approche d'étude

Cette étude visait à évaluer la performance de GPT-3.5-turbo dans la formulation de Recommandations cliniques pour les patients aux Urgences (ED). Plus précisément, l'étude se concentrait sur trois types de recommandations :

  1. Le patient doit-il être admis à l'hôpital ?
  2. Le patient doit-il subir des tests d'imagerie (comme des radios ou des scanners) ?
  3. Le patient doit-il recevoir des antibiotiques ?

Les chercheurs ont commencé par créer des échantillons équilibrés de visites aux urgences pour analyser à quel point le modèle pouvait faire ces recommandations. Cela signifie qu'ils ont choisi des nombres égaux de cas où la réponse était oui et non pour chaque type de recommandation. Ensuite, ils ont vérifié à quel point les recommandations du modèle étaient précises par rapport aux résultats réels enregistrés dans les dossiers de santé des patients.

Méthodes de l'étude

L'étude a examiné un total de plus de 251 000 visites aux urgences. À partir de cela, des échantillons équilibrés de 10 000 visites ont été créés pour chacune des trois tâches de recommandation. Les informations utilisées provenaient des notes initiales des médecins rédigées pour chaque visite. Les chercheurs ont ensuite demandé à GPT-3.5-turbo si le patient devait être admis à l'hôpital, s'il avait besoin de tests d'imagerie, ou si des antibiotiques devaient être prescrits. Les réponses du modèle ont été comparées aux décisions réelles prises par des professionnels de santé.

Évaluation des performances

En analysant les trois tâches de recommandation, les résultats ont montré que les performances de GPT-3.5-turbo n'étaient pas satisfaisantes. Au départ, le modèle avait beaucoup de recommandations correctes, mais aussi un grand nombre de fausses recommandations. Par exemple, quand on lui demandait si un patient devait être admis à l'hôpital, le modèle avait tendance à suggérer l'admission plus souvent que nécessaire, ce qui a entraîné un taux élevé de faux positifs.

Les chercheurs ont essayé de modifier la façon dont ils posaient les questions pour améliorer la Précision. Par exemple, ils ont ajouté des phrases comme "suggérer seulement si c'est absolument nécessaire" pour voir si cela influençait les recommandations. Bien que certains changements aient amélioré la capacité du modèle à éviter des suggestions inutiles, la performance globale restait en deçà de celle des médecins.

Pour mieux comprendre comment le modèle se comparait aux vrais médecins, les chercheurs ont pris un échantillon plus petit de 200 cas pour une comparaison directe. Ils ont constaté que les médecins avaient un taux de précision plus élevé que GPT-3.5-turbo pour toutes les trois tâches de recommandation, confirmant que les médecins étaient bien meilleurs pour prendre ces décisions complexes.

Application dans le monde réel

Ensuite, les chercheurs ont voulu voir comment le modèle réagissait dans une situation plus réaliste avec un échantillon plus large et déséquilibré de 1 000 visites aux urgences. Cet échantillon reflétait plus fidèlement les résultats réels des patients. Les résultats ont montré que la précision des recommandations faites par les médecins résidents était significativement plus élevée que celles de GPT-3.5-turbo. Par exemple, la précision des médecins pour décider si un patient devait être admis à l'hôpital était d'environ 83 %, tandis que celle de GPT-3.5-turbo était beaucoup plus basse.

Cela met en lumière un écart significatif de performance entre les modèles d'IA et l'expertise humaine dans la prise de décisions cliniques. La tendance du modèle à recommander une action dans la plupart des cas soulève des préoccupations. Les ressources hospitalières sont limitées, et des interventions inutiles peuvent entraîner des coûts supplémentaires et des risques potentiels pour les patients.

Limitations

L'étude a des limites. Il y a des chances que toutes les informations nécessaires n'étaient pas présentes dans les notes des médecins, ce qui pourrait avoir influencé les recommandations. Par exemple, les décisions sur les tests d'imagerie ou les admissions peuvent changer en fonction des résultats apparus après la première revue. Malgré ces limites, les médecins ont tout de même obtenu une précision respectable.

Une autre limite est que seules quelques ajustements ont été faits dans la manière de poser les questions pour tester le modèle. Des expériences plus poussées avec différents types de prompts pourraient donner de meilleurs résultats.

En plus, cette étude n’a pas testé le modèle plus récent GPT-4, qui pourrait mieux performer sur ces tâches. Tester d'autres modèles de traitement du langage naturel ou des méthodes plus simples n'a pas été fait, mais ces modèles traditionnels pourraient surpasser les capacités zéro-shot des modèles GPT.

Conclusions

Cette recherche donne un aperçu précoce de la manière dont GPT-3.5-turbo peut générer des recommandations cliniques à partir de vrais textes cliniques. Sur les trois tâches de recommandation, le modèle a montré des faiblesses, avec une tendance à recommander des interventions trop souvent, ce qui a entraîné de nombreuses suggestions incorrectes. Ajuster la façon dont les questions étaient posées au modèle a légèrement aidé, mais la performance globale est restée en dessous de celle des médecins.

Les résultats suggèrent que GPT-3.5-turbo est trop prudent et suppose souvent que des interventions sont nécessaires, ce qui peut mettre à mal les ressources des hôpitaux et présenter des risques pour les patients. Comprendre le bon équilibre entre sensibilité et spécificité dans les modèles cliniques est essentiel, et la meilleure approche peut varier selon la tâche.

Avant de mettre en œuvre de tels modèles dans des environnements cliniques, il est crucial de bien connaître à la fois leurs capacités et leurs limites pour éviter des conséquences inattendues. Bien qu'il y ait un intérêt croissant pour l'utilisation de grands modèles de langage dans le domaine de la santé, cette étude montre qu'il reste encore beaucoup de travail à faire, surtout pour des tâches plus complexes comme la prise de décision clinique.

Les recherches futures devraient continuer à évaluer la performance de divers modèles de langage dans le contexte médical, particulièrement à mesure que la technologie avance et que les modèles deviennent plus sophistiqués. Identifier les tâches où ces modèles excellent et celles où ils échouent est important pour leur utilisation sûre et efficace dans le secteur de la santé.

Source originale

Titre: Evaluating the use of GPT-3.5-turbo to provide clinical recommendations in the Emergency Department

Résumé: The release of GPT-3.5-turbo (ChatGPT) and other large language models (LLMs) has the potential to transform healthcare. However, existing research evaluating LLM performance on real-world clinical notes is limited. Here, we conduct a highly-powered study to determine whether GPT-3.5-turbo can provide clinical recommendations for three tasks (admission status, radiological investigation(s) request status, and antibiotic prescription status) using clinical notes from the Emergency Department. We randomly select 10,000 Emergency Department visits to evaluate the accuracy of zero-shot, GPT-3.5-turbo-generated clinical recommendations across four different prompting strategies. We find that GPT-3.5-turbo performs poorly compared to a resident physician, with accuracy scores 24% lower on average. GPT-3.5-turbo tended to be overly cautious in its recommendations, with high sensitivity at the cost of specificity. Our findings demonstrate that, while early evaluations of the clinical use of LLMs are promising, LLM performance must be significantly improved before their deployment as decision support systems for clinical recommendations and other complex tasks.

Auteurs: Christopher Y.K. Williams, B. Y. Miao, A. J. Butte

Dernière mise à jour: 2023-10-20 00:00:00

Langue: English

Source URL: https://www.medrxiv.org/content/10.1101/2023.10.19.23297276

Source PDF: https://www.medrxiv.org/content/10.1101/2023.10.19.23297276.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires