Evaluierung von aiChat: Eine Studie über generative KI im Gesundheitswesen
Diese Studie bewertet, wie aiChat im Vergleich zu medizinischen Bibliothekaren bei der Beantwortung klinischer Fragen abschneidet.
― 6 min Lesedauer
Inhaltsverzeichnis
- Die Rolle der medizinischen Bibliothekare
- Bewertung der Leistung von generativer KI
- Die aktuelle Studie
- Generatives KI-Tool: aiChat
- Auswahlprozess der Fragen
- Bewertung der Antworten
- Überprüfung der Referenzen
- Analyse der Ergebnisse
- Herausforderungen mit Referenzen
- Fazit und zukünftige Richtungen
- Originalquelle
Ende 2022 wurde eine neue Art von Technologie namens generative künstliche Intelligenz (KI) weit verbreitet. Diese Technologie kann Texte erstellen und Fragen in einem gesprächsähnlichen Format beantworten. Seitdem haben sich viele Leute gefragt, wie sich diese Technologie auf verschiedene Jobs auswirken könnte, besonders im Gesundheitswesen. Es gab mehrere Studien, die untersucht haben, wie Tools wie ChatGPT, Google Gemini und Microsoft Copilot medizinische Fragen beantworten, bei der Bildung helfen und beim Verfassen von akademischen Arbeiten unterstützen können. Allerdings ist bisher nicht viel darüber bekannt, wie gut diese Tools im Vergleich zu ausgebildeten medizinischen Bibliothekaren abschneiden, insbesondere wenn es darum geht, medizinische Informationen zu sammeln und zusammenzufassen.
Die Rolle der medizinischen Bibliothekare
Seit über zwanzig Jahren haben medizinische Bibliothekare am Vanderbilt University Medical Center die Aufgabe, komplexe Klinische Fragen von Ärzten zu beantworten. Diese Fragen werden oft während der Visiten oder über einen Messaging-Dienst gesammelt, der mit dem elektronischen Gesundheitssystem des Krankenhauses verbunden ist. In der Vergangenheit zeigten Studien, dass Ärzte sehr zufrieden mit den Zusammenfassungen waren, die von diesen Bibliothekaren bereitgestellt wurden. Dieser Dienst erfordert von den Bibliothekaren, dass sie hochqualifiziert im Suchen nach medizinischer Literatur sind, die relevantesten Informationen identifizieren und diese effektiv für die Kliniker zusammenfassen. Da Generative KI-Tools immer verbreiteter werden, ist es wichtig, ihre Leistung bei der Beantwortung klinischer Fragen zu verstehen, um zu sehen, wie sie alongside medizinischen Bibliothekaren arbeiten können.
Bewertung der Leistung von generativer KI
Einige Studien haben untersucht, wie gut generative KI-Tools auf klinische Anfragen reagieren können, und die Ergebnisse waren gemischt. Während diese Tools oft genaue Informationen liefern können, kann die Qualität je nach Komplexität der Fragen und dem spezifischen medizinischen Bereich variieren. Zudem können diese KI-Systeme manchmal falsche Informationen erzeugen, sich auf veraltete Studien beziehen oder über spezifische medizinische Bereiche nicht ausreichend Kenntnisse verfügen. Dennoch gab es im Laufe der Zeit Verbesserungen bei diesen Tools.
Frühere Forschungen haben KI-Tools mit veröffentlichten medizinischen Richtlinien oder dem Fachwissen von klinischen Fachleuten verglichen. Allerdings gab es bisher keine Studien, die speziell getestet haben, wie gut diese KI-Tools echte klinische Fragen aus der Patienteninteraktion beantworten können, wobei die Berichte der medizinischen Bibliothekare als Benchmark dienten.
Die aktuelle Studie
Diese Studie hatte das Ziel, ein generatives KI-Tool namens aiChat, das am Vanderbilt entwickelt wurde, zu bewerten und zu sehen, wie genau es klinische Fragen im Vergleich zu den Zusammenfassungen von ausgebildeten medizinischen Bibliothekaren beantworten konnte. Die in dieser Studie verwendeten Fragen stammten von Ärzten, die während der Patientenversorgung Informationen suchten, um sicherzustellen, dass sie relevant für reale klinische Situationen waren. Diese Fragen wurden anonymisiert, um die Privatsphäre der Patienten zu schützen, und von der entsprechenden Prüfungsstelle auf ethische Konformität überprüft.
Um die Studie durchzuführen, erstellten die Bibliothekare eine Datenbank von über mehrere Jahre gesammelten Fragen, wobei sichergestellt wurde, dass die ausgewählten Fragen spezifische Kriterien im Zusammenhang mit der Patientenversorgung erfüllten. Dann teilten die Bibliothekare komplexe Fragen in einfachere Teile auf, um zu bewerten, wie gut aiChat auf einzelne Aspekte dieser Anfragen reagieren konnte.
Generatives KI-Tool: aiChat
Aufgrund der Richtlinien des Krankenhauses konnte bei der Studie keine öffentlichen generativen KI-Tools verwendet werden. Stattdessen wurde aiChat genutzt, das zugänglich und noch in der Testphase war. Zum Zeitpunkt der Forschung hatte aiChat die Möglichkeit, zwei verschiedene Versionen von KI-Modellen zu verwenden, die es den Nutzern ermöglichten, Fragen zu stellen und Antworten in einem gesprächsähnlichen Stil zu erhalten.
Auswahlprozess der Fragen
Das Forschungsteam hatte Zugriff auf eine spezielle Datenbank, die alle Fragen von Kliniker verfolgte. Sie konzentrierten sich nur auf Fragen, die darauf abzielten, Informationen für die Patientenversorgung zu sammeln, und schlossen allgemeinere oder unvollständige Antworten aus. Jede Frage wurde in eines von acht verschiedenen Bereichen wie Behandlung, Diagnose oder Prävention kategorisiert. Diese Kategorisierung erlaubte eine gründliche Analyse später.
Bewertung der Antworten
Die ursprünglichen Zusammenfassungen der Bibliothekare wurden als Grundlage zur Bewertung der Antworten von aiChat verwendet. Paare von Bibliothekaren überprüften die Antworten, um festzustellen, ob die Hauptpunkte aus den Zusammenfassungen der Bibliothekare in den Antworten von aiChat präsent waren. Sie verwendeten ein einfaches Bewertungssystem, um anzugeben, ob die Antwort von aiChat korrekt, teilweise korrekt oder falsch war.
Gelegentlich kam es zu Meinungsverschiedenheiten über die Bewertungen, was erforderte, dass ein dritter Bibliothekar hinzuzog, um die Antworten zu bewerten und einen endgültigen Konsens zu erzielen. Dieser Prozess stellte sicher, dass die Bewertung darüber, wie gut aiChat im Vergleich zu menschlichen Bibliothekaren abschneidet, fair war.
Referenzen
Überprüfung derWährend die Antworten von aiChat oft Zitationen enthielten, führte das Forschungsteam eine separate Überprüfung durch, um zu sehen, ob die erwähnten Referenzen echt waren. Für eine ausgewählte Stichprobe von Fragen versuchten die Bibliothekare, die von aiChat zitierten Quellen zu finden und zu bestätigen. Sie dokumentierten, ob diese Referenzen gültig waren oder nicht.
Analyse der Ergebnisse
Insgesamt wurden 216 Fragen analysiert. Die Ergebnisse zeigten, dass die Antworten von aiChat in rund 83 % der Fragen als korrekt angesehen wurden, und 16 % wurden als teilweise korrekt eingestuft. Nur eine Antwort wurde als falsch bewertet. Diese Ergebnisse deuteten darauf hin, dass aiChat im Allgemeinen in der Lage war, relevante Informationen bereitzustellen, die mit den Zusammenfassungen der Bibliothekare übereinstimmten.
Die Studie untersuchte auch, ob die Komplexität der Fragen oder der Bedarf an zusätzlicher Überprüfung einen Einfluss auf die Genauigkeit der Antworten von aiChat hatte. Es wurden keine signifikanten Unterschiede festgestellt, was darauf hindeutet, dass aiChat bei verschiedenen Arten von Anfragen konsistent performte.
Herausforderungen mit Referenzen
Von einer Stichprobe der von aiChat bereitgestellten Referenzen konnten von den Bibliothekaren rund 63 % nicht verifiziert werden. Das wirft Bedenken hinsichtlich der Zuverlässigkeit der von KI-Tools generierten Referenzen auf. Diese Tools erzeugen manchmal Zitationen, die nicht mit realen Artikeln übereinstimmen, was das Vertrauen in ihre Ergebnisse kompliziert.
Fazit und zukünftige Richtungen
Diese Studie zeigte vielversprechende Ergebnisse für aiChat bei der Beantwortung klinischer Fragen, obwohl auch deutliche Einschränkungen wie Probleme mit der Genauigkeit der Referenzen aufgezeigt wurden. Da weitere Studien durchgeführt werden, wird es entscheidend sein, zu untersuchen, wie generative KI effektiv Fachkräfte im Gesundheitswesen unterstützen kann, insbesondere bei der Auswahl und Bewertung von Literatur. Ziel ist es, Wege zu finden, wie KI-Tools die Arbeit medizinischer Bibliothekare ergänzen und die Qualität der Informationen, die Kliniker erhalten, verbessern können.
Die Ergebnisse deuten darauf hin, dass KI das Gesundheitswesen unterstützen kann, aber nicht die menschliche Expertise ersetzen sollte. Zukünftige Forschungen werden komplexere klinische Fragen untersuchen und in Betracht ziehen, kuratierte Literatur zur Fütterung der KI-Systeme zu verwenden. Dies könnte deren Leistung verbessern und die Probleme im Zusammenhang mit der Validierung von Referenzen verringern. Insgesamt eröffnet diese erste Forschung die Tür für weitere Erkundungen, wie generative KI sowohl helfen als auch möglicherweise die Arbeit medizinischer Bibliothekare in Zukunft neu gestalten kann.
Titel: Evaluating a Large Language Model's Ability to Answer Clinicians' Requests for Evidence Summaries
Zusammenfassung: ObjectiveThis study investigated the performance of a generative artificial intelligence (AI) tool using GPT-4 in answering clinical questions in comparison with medical librarians gold-standard evidence syntheses. MethodsQuestions were extracted from an in-house database of clinical evidence requests previously answered by medical librarians. Questions with multiple parts were subdivided into individual topics. A standardized prompt was developed using the COSTAR framework. Librarians submitted each question into aiChat, an internally-managed chat tool using GPT-4, and recorded the responses. The summaries generated by aiChat were evaluated on whether they contained the critical elements used in the established gold-standard summary of the librarian. A subset of questions was randomly selected for verification of references provided by aiChat. ResultsOf the 216 evaluated questions, aiChats response was assessed as "correct" for 180 (83.3%) questions, "partially correct" for 35 (16.2%) questions, and "incorrect" for 1 (0.5%) question. No significant differences were observed in question ratings by question category (p=0.39). For a subset of 30% (n=66) of questions, 162 references were provided in the aiChat summaries, and 60 (37%) were confirmed as nonfabricated. ConclusionsOverall, the performance of a generative AI tool was promising. However, many included references could not be independently verified, and attempts were not made to assess whether any additional concepts introduced by aiChat were factually accurate. Thus, we envision this being the first of a series of investigations designed to further our understanding of how current and future versions of generative AI can be used and integrated into medical librarians workflow.
Autoren: Mallory N. Blasingame, T. Y. Koonce, A. M. Williams, D. A. Giuse, J. Su, P. A. Krump, N. B. Giuse
Letzte Aktualisierung: 2024-05-03 00:00:00
Sprache: English
Quell-URL: https://www.medrxiv.org/content/10.1101/2024.05.01.24306691
Quell-PDF: https://www.medrxiv.org/content/10.1101/2024.05.01.24306691.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.