Le rôle des modèles de langage personnalisés dans la santé
Cette étude examine l'efficacité des modèles de langage sur mesure dans le milieu médical.
― 7 min lire
Table des matières
Au cours du dernier siècle, la médecine a beaucoup appris. Partout dans le monde, les systèmes de santé font face à des défis comme le manque de personnel et le vieillissement de la population, rendant le temps une ressource précieuse. Pour aider à ces problèmes, des outils numériques sont utilisés pour améliorer le fonctionnement des soins de santé, augmenter la satisfaction des patients et soutenir les médecins.
Une technologie passionnante dans ce domaine s'appelle les Modèles de Langage de Grande Taille (LLMs). Ce sont des systèmes avancés qui comprennent et traitent le langage humain. Leur capacité à aider dans des domaines comme la recherche clinique a beaucoup évolué. Un exemple populaire est ChatGPT, un modèle linguistique développé par OpenAI, qui est devenu célèbre pour son interface de chat. Cela a rendu la technologie accessible à tous, soulevant des questions sur son utilité ou ses dangers dans le domaine de la santé.
Les LLMs peuvent effectuer des tâches comme passer des examens médicaux, analyser des données médicales et résumer des informations sur les patients. Cependant, ils font aussi l'objet de critiques car parfois ils fournissent des informations erronées, ce qui pourrait être dangereux dans un cadre médical. Le GPT-4 d'OpenAI a introduit des façons de personnaliser ces modèles pour des besoins spécifiques, leur permettant de mieux fonctionner avec certains documents et données.
Modèles de Langage Personnalisés en Santé
Dans les hôpitaux, il existe des procédures opérationnelles standard (SOP) qui guident les soins aux patients. Ces SOP aident à garantir un traitement de haute qualité qui correspond aux normes et ressources locales. Un LLM général peut ne pas toujours correspondre à ces directives, mais un LLM personnalisé peut fournir des informations plus précises, ce qui aide à réduire les erreurs et le besoin de vérifications humaines.
Un accès rapide à des informations médicales fiables est crucial pour offrir de bons soins aux patients. Pour tester cela, des chercheurs ont créé un outil permettant aux utilisateurs d'accéder à des SOP spécifiques à l'hôpital. Ils ont personnalisé GPT-4 avec 10 SOP de quatre départements de l'Hôpital Universitaire de Dresde, en Allemagne. Ils ont ensuite testé à quel point il répondait à 30 questions médicales qui pourraient surgir dans la pratique quotidienne, vérifiant l'exactitude en fonction de l'expérience du Personnel médical et des différentes manières de poser les questions.
Conception de l'Étude
Deux médecins ont rédigé trois questions de niveaux de détail variés pour chaque SOP, menant à un total de 30 questions. Ces questions ont ensuite été examinées par six personnes ayant des niveaux d'expérience médicale variés. Le groupe comprenait un étudiant en médecine, trois résidents et deux médecins seniors. Ils ont soigneusement examiné les réponses fournies par le GPT personnalisé.
Chaque observateur a soumis trois questions de "sécurité" pour s'assurer que le LLM ne partageait pas des informations en dehors des SOP. Les chercheurs voulaient voir à quel point le modèle pouvait récupérer et présenter les informations. Ils ont comparé les résultats du GPT avec un système de récupération fait maison pour voir lequel fonctionnait mieux pour la récupération d'informations médicales.
Résultats sur la Qualité des Réponses
Les résultats ont montré que le LLM personnalisé était capable de récupérer des informations des SOP de manière efficace. Globalement, les observateurs ont jugé que les réponses étaient complètes dans environ 60 % des cas, correctes dans environ 63 % et adaptées à un usage clinique dans environ 58 %. Cela signifie que même si le LLM était utile, il y avait encore des améliorations à apporter.
L'étude a aussi mis en évidence comment la façon dont les questions étaient posées affectait la qualité des réponses. Les questions plus détaillées ont conduit à de meilleures réponses, tandis que les questions plus simples ne donnaient pas de bons résultats. De plus, le personnel médical en début de carrière a trouvé les réponses plus utiles par rapport aux médecins expérimentés, qui avaient tendance à être plus critiques.
Questions Interactives vs. Simples
Les chercheurs ont découvert qu'utiliser une approche interactive, où les utilisateurs posaient des questions de suivi, donnait de meilleures réponses comparé à simplement poser une seule question. Par exemple, un étudiant en médecine a rapporté que bien que les réponses n'étaient pas toujours complètement exactes, elles étaient souvent utiles pour la pratique.
En général, le temps moyen pour obtenir une réponse du LLM était d'environ 45 secondes, ce qui était beaucoup plus rapide que de trouver la même information via les bases de données hospitalières traditionnelles, qui prenaient environ 144 secondes en moyenne. Cela suggère qu'un LLM personnalisé peut fournir une récupération d'information rapide qui pourrait grandement aider les travailleurs de la santé.
Importance de la Conception des Questions
La qualité des réponses dépendait aussi de la façon dont les questions étaient conçues. Les chercheurs ont noté que des prompts bien structurés menaient à des réponses plus précises et complètes. Ils ont découvert que tandis que les questions avec un niveau de détail intermédiaire et élevé obtenaient les meilleures réponses, le type spécifique d'information inclus dans les SOP n'influençait pas de manière significative la qualité des réponses.
Une autre observation intéressante était l'impact des organigrammes ou tableaux dans les SOP. Bien que la présence de tableaux n'ait pas changé la qualité des réponses, la présence d'organigrammes semblait réduire la complétude des réponses. Cela souligne la nécessité de considérer attentivement comment les informations dans les SOP sont présentées pour une récupération optimale par les LLMs.
Comparaison de Différents Modèles de Langage
D'autres comparaisons ont été faites entre le modèle GPT personnalisé et un autre LLM appelé Claude-3-opus d'Anthropic. En utilisant les mêmes questions, GPT-4 a mieux réussi à fournir des réponses correctes, tandis que Claude-3-opus était meilleur pour donner des réponses complètes et suffisantes. Cela suggère que différents modèles peuvent exceller dans différents domaines.
Les chercheurs ont également noté que dans de nombreux cas, le GPT n'a pas fourni de réponses parce qu'il a déclaré incorrectement qu'il n'avait pas l'information, tandis que Claude-3-opus a mieux performé sur cet aspect. Cela indique que la façon dont les modèles sont construits affecte leur comportement lors de l'interaction.
Conclusion
L'étude montre que personnaliser un modèle de langage avec des SOP peut améliorer sa capacité à récupérer des informations utiles pour les professionnels de santé. Bien que la technologie montre beaucoup de potentiel, elle révèle aussi des domaines à améliorer. Les LLMs peuvent accélérer l'accès à des informations médicales critiques, mais les utilisateurs doivent être conscients de leurs limites et de l'importance de poser des questions précises.
Bien que cette technologie puisse aider beaucoup le personnel médical, elle ne peut pas remplacer le besoin de professionnels de santé expérimentés capables d'évaluer de manière critique les informations fournies. Il y a aussi un besoin de peaufiner davantage ces modèles avec des SOP plus diversifiées et d'explorer comment différents rôles dans les soins de santé peuvent mieux utiliser ces outils.
À l'avenir, les chercheurs espèrent étendre ce travail pour inclure des tâches plus complexes, comme le calcul des dosages de médicaments ou la documentation des soins aux patients. À mesure que ces technologies continuent de se développer, leur approbation et leur intégration dans la pratique clinique seront essentielles pour assurer la délivrance de soins de santé sûrs et efficaces.
Titre: Customizing GPT-4 for clinical information retrieval from standard operating procedures
Résumé: BackgroundThe increasing complexity of medical knowledge necessitates efficient and reliable information access systems in clinical settings. For quality purposes, most hospitals use standard operating procedures (SOPs) for information management and implementation of local treatment standards. However, in clinical routine, this information is not always easily accessible. Customized Large Language Models (LLMs) may offer a tailored solution, but need thorough evaluation prior to clinical implementation. ObjectiveTo customize an LLM to retrieve information from hospital-specific SOPs, to evaluate its accuracy for clinical use and to compare different prompting strategies and large language models. MethodsWe customized GPT-4 with a predefined system prompt and 10 SOPs from four departments at the University Hospital Dresden. The models performance was evaluated through 30 predefined clinical questions of varying degree of detail, which were assessed by five observers with different levels of medical expertise through simple and interactive question-and-answering (Q&A). We assessed answer completeness, correctness and sufficiency for clinical use and the impact of prompt design on model performance. Finally, we compared the performance of GPT-4 with Claude-3-opus. ResultsInteractive Q&A yielded the highest rate of completeness (80%), correctness (83%) and sufficiency (60%). Acceptance of the LLMs answer was higher among early-career medical staff. Degree of detail of the question prompt influenced answer accuracy, with intermediate-detail prompts achieving the highest sufficiency rates. Comparing LLMs, Claude-3-opus outperformed GPT-4 in providing sufficient answers (70.0% vs. 36.7%) and required fewer iterations for satisfactory responses. Both models adhered to the system prompt more effectively in the self-coded pipeline than in the browser application. All observers showed discrepancies between correctness and accuracy of the answers, which rooted in the representation of information in the SOPs. ConclusionInteractively querying customized LLMs can enhance clinical information retrieval, though expert oversight remains essential to ensure a safe application of this technology. After broader evaluation and with basic knowledge in prompt engineering, customized LLMs can be an efficient, clinically applicable tool.
Auteurs: Hannah Sophie Muti, C. M. L. Loeffler, M. E. Lessmann, E. H. Stueker, J. Kirchberg, M. von Bonin, M. Kolditz, D. Ferber, K. Egger-Heidrich, F. Merboth, D. Stange, M. Distler, J. N. Kather
Dernière mise à jour: 2024-06-24 00:00:00
Langue: English
Source URL: https://www.medrxiv.org/content/10.1101/2024.06.24.24309221
Source PDF: https://www.medrxiv.org/content/10.1101/2024.06.24.24309221.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.