Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Informatique de santé

Évaluer aiChat : Une étude sur l'IA générative dans le secteur de la santé

Cette étude évalue comment aiChat se compare aux bibliothécaires médicaux pour répondre aux questions cliniques.

― 8 min lire


Évaluation de aiChat dansÉvaluation de aiChat dansles soins cliniquesdes soucis avec les références.aiChat montre du potentiel, mais y a
Table des matières

À la fin de 2022, une nouvelle technologie appelée intelligence artificielle générative (IA) est devenue largement accessible. Cette technologie peut créer du texte et répondre à des questions de manière conversationnelle. Depuis, beaucoup de gens se demandent comment cette technologie pourrait affecter divers emplois, surtout dans le domaine de la santé. Plusieurs études ont examiné comment des outils comme ChatGPT, Google Gemini et Microsoft Copilot peuvent répondre à des questions médicales, aider à l'éducation et assister dans la rédaction de travaux académiques. Toutefois, on sait peu de choses sur la performance de ces outils par rapport aux bibliothécaires médicaux formés, en particulier pour rassembler et résumer des informations médicales.

Le Rôle des Bibliothécaires Médicaux

Depuis plus de vingt ans, les bibliothécaires médicaux du Vanderbilt University Medical Center ont pour mission de répondre à des Questions cliniques complexes des médecins. Ces questions sont souvent récoltées durant les visites hospitalières ou via un service de messagerie lié au système d'enregistrement électronique des patients. Dans le passé, des études ont montré que les médecins étaient très satisfaits des résumés fournis par ces bibliothécaires. Ce service nécessite que les bibliothécaires soient très compétents dans la recherche de la littérature médicale, l'identification des informations les plus pertinentes et leur résumé efficace pour les cliniciens. À mesure que les outils d'IA générative se répandent, il est important de comprendre leur performance sur les questions cliniques pour voir comment ils peuvent travailler aux côtés des bibliothécaires médicaux.

Évaluation de la Performance de l'IA Générative

Certaines études ont exploré à quel point les outils d'IA générative peuvent répondre aux requêtes cliniques, et les résultats ont été variés. Bien que ces outils puissent souvent produire des informations précises, la qualité peut varier selon la complexité des questions et le domaine médical spécifique. De plus, ces systèmes d'IA peuvent parfois générer des informations incorrectes, référencer des études obsolètes ou manquer de connaissances approfondies sur certains domaines médicaux. Néanmoins, des améliorations ont été constatées dans ces outils au fil du temps.

Des recherches antérieures ont comparé les outils d'IA à des directives médicales publiées ou à l'expertise de professionnels cliniques. Cependant, aucune étude à ce jour n'a spécifiquement testé à quel point ces outils d'IA pouvaient répondre à de réelles questions cliniques tirées des interactions avec les patients, en utilisant les rapports des bibliothécaires médicaux comme référence.

L'Étude Actuelle

Cette étude visait à évaluer un outil d'IA générative nommé aiChat, développé à Vanderbilt, et de voir à quel point il pouvait répondre aux questions cliniques par rapport aux résumés créés par des bibliothécaires médicaux formés. Les questions utilisées dans cette étude étaient de vraies demandes de médecins cherchant des informations pendant les soins aux patients, s'assurant qu'elles étaient pertinentes pour des situations cliniques réelles. Ces questions ont été anonymisées pour protéger la confidentialité des patients et approuvées par le comité d'éthique concerné.

Pour mener l'étude, les bibliothécaires ont créé une base de données des questions reçues durant plusieurs années, s'assurant que les questions sélectionnées répondaient à des critères spécifiques liés aux soins aux patients. Ensuite, les bibliothécaires ont décomposé des questions complexes en parties plus simples pour évaluer à quel point aiChat pouvait répondre à des aspects individuels de ces demandes.

Outil d'IA Générative : aiChat

En raison des politiques de l'hôpital, l'étude n'a pas pu utiliser d'outils d'IA générative publics. Au lieu de cela, aiChat, qui était accessible et encore en phase de test, a été utilisé. Au moment de la recherche, aiChat avait des options pour utiliser deux versions différentes de modèles d'IA, ce qui permettait aux utilisateurs de soumettre des questions et de recevoir des réponses dans un style conversationnel.

Processus de Sélection des Questions

L'équipe de recherche a accédé à une base de données spéciale qui suivait toutes les questions posées par les cliniciens. Ils se sont concentrés uniquement sur les questions visant à rassembler des informations nécessaires aux soins des patients et ont exclu celles qui étaient plus générales ou avaient des réponses incomplètes. Chaque question a été catégorisée dans l'un des huit domaines différents, tels que traitement, diagnostic ou prévention. Cette catégorisation a permis une analyse approfondie par la suite.

Évaluation des Réponses

Les résumés originaux des bibliothécaires ont été utilisés comme base pour évaluer les réponses d'aiChat. Des paires de bibliothécaires ont examiné les réponses pour déterminer si les points principaux des résumés des bibliothécaires étaient présents dans les réponses d'aiChat. Ils ont utilisé un système de notation simple pour indiquer si la réponse d'aiChat était correcte, partiellement correcte ou incorrecte.

Parfois, des désaccords sur les notations sont survenus, ce qui a nécessité l'intervention d'un troisième bibliothécaire pour évaluer les réponses et parvenir à un consensus final. Ce processus a assuré une évaluation équitable de la performance d'aiChat par rapport aux bibliothécaires humains.

Vérification des Références

Bien que les réponses d'aiChat incluaient souvent des citations, l'équipe de recherche a effectué une vérification séparée pour voir si les références mentionnées étaient réelles. Pour un échantillon de questions sélectionnées, les bibliothécaires ont essayé de trouver et de confirmer les sources citées par aiChat. Ils ont documenté si ces références étaient valides ou non.

Analyse des Résultats

Au total, l'étude a analysé 216 questions. Les résultats ont montré que les réponses d'aiChat étaient jugées correctes pour environ 83 % des questions, et 16 % étaient considérées comme partiellement correctes. Une seule réponse a été notée comme incorrecte. Ces résultats indiquent qu'aiChat était généralement capable de fournir des informations pertinentes en accord avec les résumés des bibliothécaires.

L'étude a également examiné si la complexité des questions ou le besoin de révisions supplémentaires avaient un impact sur l'exactitude des réponses d'aiChat. Aucune différence significative n'a été trouvée, ce qui suggère qu'aiChat a performé de manière constante à travers différents types de demandes.

Défis avec les Références

Sur un échantillon de références fournies par aiChat, une part significative (environ 63 %) n'a pas pu être vérifiée par les bibliothécaires. Cela soulève des préoccupations quant à la fiabilité des références générées par les outils d'IA. Ces outils créent parfois des citations qui ne correspondent pas à de vrais articles, ce qui complique la confiance dans leur production.

Conclusion et Perspectives Futures

Cette étude a montré des résultats prometteurs pour aiChat en fournissant des réponses à des questions cliniques, même si elle a également mis en évidence des limites claires, comme des problèmes d'exactitude des références. À mesure que d'autres études sont menées, il sera essentiel d'explorer comment l'IA générative peut aider efficacement les professionnels de la santé, notamment dans la sélection et l'évaluation de la littérature. L'objectif est de trouver des moyens pour que les outils d'IA complètent le travail des bibliothécaires médicaux et améliorent la qualité des informations fournies aux cliniciens.

Les résultats suggèrent que, bien que l'IA puisse soutenir le secteur de la santé, elle ne remplace pas l'expertise humaine. Les recherches futures exploreront des questions cliniques plus complexes et envisageront d'utiliser une littérature soigneusement sélectionnée pour alimenter les systèmes d'IA. Cela pourrait améliorer leur performance et réduire les problèmes liés à la validation des références. Dans l'ensemble, cette recherche préliminaire ouvre la voie à de nouvelles explorations sur la manière dont l'IA générative peut à la fois aider et potentiellement remodeler le travail des bibliothécaires médicaux à l'avenir.

Source originale

Titre: Evaluating a Large Language Model's Ability to Answer Clinicians' Requests for Evidence Summaries

Résumé: ObjectiveThis study investigated the performance of a generative artificial intelligence (AI) tool using GPT-4 in answering clinical questions in comparison with medical librarians gold-standard evidence syntheses. MethodsQuestions were extracted from an in-house database of clinical evidence requests previously answered by medical librarians. Questions with multiple parts were subdivided into individual topics. A standardized prompt was developed using the COSTAR framework. Librarians submitted each question into aiChat, an internally-managed chat tool using GPT-4, and recorded the responses. The summaries generated by aiChat were evaluated on whether they contained the critical elements used in the established gold-standard summary of the librarian. A subset of questions was randomly selected for verification of references provided by aiChat. ResultsOf the 216 evaluated questions, aiChats response was assessed as "correct" for 180 (83.3%) questions, "partially correct" for 35 (16.2%) questions, and "incorrect" for 1 (0.5%) question. No significant differences were observed in question ratings by question category (p=0.39). For a subset of 30% (n=66) of questions, 162 references were provided in the aiChat summaries, and 60 (37%) were confirmed as nonfabricated. ConclusionsOverall, the performance of a generative AI tool was promising. However, many included references could not be independently verified, and attempts were not made to assess whether any additional concepts introduced by aiChat were factually accurate. Thus, we envision this being the first of a series of investigations designed to further our understanding of how current and future versions of generative AI can be used and integrated into medical librarians workflow.

Auteurs: Mallory N. Blasingame, T. Y. Koonce, A. M. Williams, D. A. Giuse, J. Su, P. A. Krump, N. B. Giuse

Dernière mise à jour: 2024-05-03 00:00:00

Langue: English

Source URL: https://www.medrxiv.org/content/10.1101/2024.05.01.24306691

Source PDF: https://www.medrxiv.org/content/10.1101/2024.05.01.24306691.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires