Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Gesundheitswissenschaften# Pathologie

KI-Sprachmodelle übertreffen Medizinstudenten in der Pathologie

Studie zeigt, dass KI-Tools besser bei der Beantwortung von Pathologiefragen abschneiden als menschliche Trainees.

Shunsuke Koga, W. Du, X. Jin, J. Harris, A. Brunetti, E. Johnson, O. Leung, X. Li, S. Walle, Q. Yu, X. Zhou, F. Bian, K. Mckenzie, M. Kanathanavanich, Y. Ozcelik, F. El-Sharkawy

― 6 min Lesedauer


KI vs. MedizinstudierendeKI vs. Medizinstudierendedie Auszubildenden.in Pathologie besser abschneidet alsStudie zeigt, dass KI bei der Prüfung
Inhaltsverzeichnis

Künstliche Intelligenz (KI) hat sich in den letzten zehn Jahren krass verändert. Ein grosses Entwicklungsfeld sind grosse Sprachmodelle (LLMs). Das sind Computerprogramme, die lesen und schreiben können, so ähnlich wie Menschen Sprache benutzen. Diese Modelle können Texte verfassen, Fragen beantworten und sogar beim Übersetzen von Sprachen helfen. Dazu gehören beliebte Tools wie ChatGPT von OpenAI und Bard von Google. Diese Tools werden für viele Aufgaben genutzt, wie zum Beispiel um Leuten beim Schreiben zu helfen und komplizierte Fragen zu beantworten. Sie sind so gestaltet, dass sie benutzerfreundlich sind, sodass selbst Leute, die keine Technik-Profis sind, sie nutzen können.

Leistung von Sprachmodellen in der Medizin

Forschung zeigt, dass diese KI-Modelle im medizinischen Bereich getestet wurden und dabei beeindruckende Ergebnisse erzielt haben. Zum Beispiel konnte ChatGPT die United States Medical Licensing Exam (USMLE) bestehen, einen Test, den zukünftige Ärzte ablegen müssen, um ihre medizinische Lizenz zu bekommen. Studien haben auch gezeigt, dass diese Modelle Fragen ähnlich wie bei medizinischen Prüfungen beantworten können und oft Ergebnisse erzielen, die mit denen tatsächlicher Mediziner konkurrieren. Sie können eine Liste möglicher Diagnosen basierend auf den Symptomen eines Patienten erstellen, was Ärzten helfen könnte, bessere Entscheidungen zu treffen.

Auf der anderen Seite, obwohl es Fortschritte bei der Nutzung von KI zur Analyse medizinischer Bilder gegeben hat, sind die Anwendungen von Sprachmodellen in Bereichen wie der Pathologie (dem Studium von Krankheiten) noch in den Anfängen. Es gab einige Tests, wie zum Beispiel ChatGPT, das Multiple-Choice-Fragen für Pathologie-Prüfungen erstellt hat. Allerdings fanden Experten heraus, dass die Leistung bei diesen Fragen nicht so gut war wie die von ausgebildeten Medizinstudenten. Das wirft Fragen zur Zuverlässigkeit des Modells im Vergleich zu menschlichen Trainees auf.

Überblick über die Studie: Vergleich von KI mit Pathologietrainees

In dieser Studie haben wir uns angesehen, wie gut zwei Sprachmodelle-ChatGPT und Bard-bei Pathologiefragen im Vergleich zu einer Gruppe von 14 Pathologietrainees abschneiden. Diese Trainees waren in unterschiedlichen Phasen ihrer Ausbildung und haben Multiple-Choice-Fragen beantwortet, die aus einem umfangreichen Fragenpool ausgewählt wurden. Die Fragen stammten aus verschiedenen Fachgebieten der Pathologie, was eine gute Mischung von Themen gewährleistete.

Die Trainees umfassten Junior-Residenten, die gerade erst mit ihrer Ausbildung anfangen, sowie Senior-Residenten und Fellows, die mehr Erfahrung haben. Jeder Teilnehmer hatte zwei Stunden Zeit, um die Fragen ohne externe Hilfe zu beantworten.

Bewertung der Frage Schwierigkeit

Um zu sehen, wie die KI-Modelle und Trainees je nach Frage Schwierigkeit abschneiden, haben wir die Fragen in drei Kategorien unterteilt: leicht, mittel und schwer. Wir betrachteten eine Frage als leicht, wenn die meisten Trainees sie richtig beantworteten, während bei schwierigen Fragen weniger richtige Antworten gegeben wurden. So konnten wir analysieren, wie sowohl Sprachmodelle als auch menschliche Trainees mit Fragen unterschiedlicher Komplexität umgingen.

Bewertung der Konsistenz der Leistung

Um zu überprüfen, wie stabil die Leistung der Modelle war, hat jedes Modell denselben Fragenkatalog dreimal über mehrere Monate beantwortet. Das half uns zu sehen, ob sich ihre Punktzahlen änderten und ob ihre Antworten konsistent waren. Wir fanden heraus, dass ChatGPT stabilere Punktzahlen hatte im Vergleich zu Bard, das viel Variation zeigte. Obwohl die Punktzahlen insgesamt hoch waren, war es interessant zu sehen, wie stark die Antworten der Modelle im Laufe der Zeit schwanken konnten.

Gesamtergebnisse der Studie

Die Ergebnisse zeigten, dass ChatGPT deutlich besser abschnitt als Bard. ChatGPT hatte in allen Fachrichtungen der Pathologie höhere Punktzahlen, mit einem Durchschnitt von 82,2 % über drei Tests, während Bard nur etwa 49,5 % durchschnittlich erzielte. Die Trainees kamen auf etwa 50,7 %, was deutlich niedriger war als ChatGPTs Punktzahl. Unter den Trainees erzielten die Junior-Residenten die niedrigsten Werte, was darauf hindeutet, dass sie noch viel zu lernen haben, während die Senior-Residenten besser abschlossen.

Analyse der Leistung nach Frage Schwierigkeit

Wenn wir die Punktzahlen nach Frage Schwierigkeit aufschlüsseln, schnitt ChatGPT in allen Kategorien konstant besser ab als Bard und die Trainees. Bei einfachen Fragen erzielte ChatGPT im Durchschnitt fast 89 %, während Bard nur etwa 70 % erreichte. Die Trainees hielten sich gut und hatten einen Durchschnitt von etwa 85 %. Bei mittleren Fragen glänzte ChatGPT weiterhin mit einem Durchschnitt von über 80 %. Bard hatte erheblich Schwierigkeiten, mit Punktzahlen im 40-%-Bereich, und auch die Trainees fanden diese Fragen herausfordernd mit einem Durchschnitt von 50,7 %.

Bei schwierigen Fragen erzielte ChatGPT zwischen 61 % und 70 %, während Bard deutlich hinterherhinkte mit etwa 29 %. Die Trainees hatten grosse Schwierigkeiten mit diesen schweren Fragen und erreichten nur durchschnittlich 20 %.

Beispiele für Fragen und Leistung

Um die Unterschiede zu veranschaulichen, schauen wir uns ein paar Fragen an. Bei einer einfachen Frage nach der wahrscheinlichsten Todesursache, die häufige Symptome betreffen, schnitt ChatGPT gut ab. Bei einer herausfordernderen Frage zu spezifischen medizinischen Zuständen hatte ChatGPT zwar einige richtige und falsche Antworten, aber Bards Leistung schwankte deutlich mehr.

Diese Beispiele zeigen, wie unterschiedliche Schwierigkeitsgrade die Leistung sowohl der Sprachmodelle als auch der Trainees beeinflussen.

Erkenntnisse aus der Studie

Diese Studie gibt Einblicke, wie KI-Tools die medizinische Ausbildung und Lehre unterstützen können. Während ChatGPT starke Fähigkeiten zeigte, ist es wichtig zu beachten, dass es auch gelegentlich Fehler gab. Bard zeigte eine niedrigere Genauigkeit und grössere Variabilität, was darauf hinweist, dass es möglicherweise nicht so zuverlässig für medizinische Anwendungen ist.

Ausserdem bemerkten wir, dass sowohl die KI-Modelle als auch die menschlichen Trainees Schwierigkeiten mit schwierigen Fragen hatten. Das deutet darauf hin, dass knifflige Fragen tiefes Denken und Wissen in vielen Bereichen erfordern, was sowohl für KI als auch für menschliche Lernende aus unterschiedlichen Gründen herausfordernd sein kann.

Die Bedeutung von Zuverlässigkeit

Zuverlässigkeit ist entscheidend bei der Nutzung von KI in der Medizin. Diese Studie zeigte, dass die Konsistenz der Antworten variierte. ChatGPT hatte stabilere Antworten, während Bards Antworten im Laufe der Zeit erheblich schwankten. Solche Inkonsistenzen unterstreichen die Notwendigkeit einer sorgfältigen Validierung von KI-Tools, wenn sie in medizinischen Kontexten eingesetzt werden.

Einschränkungen der Studie

Trotz ihrer Erkenntnisse hatte diese Studie einige Einschränkungen. Wir verwendeten nur Multiple-Choice-Fragen ohne Bilder, was den Evaluationsumfang einschränkte. KI-Modelle könnten anders abschneiden, wenn sie auch mit bildbezogenen Fragen getestet würden, da moderne Entwicklungen in der KI-Technologie begonnen haben, diese Fähigkeit einzubeziehen.

Die geringe Anzahl an teilnehmenden Trainees schränkt auch die Ergebnisse ein. Eine grössere Gruppe würde ein besseres Bild davon geben, wie diese Modelle im Vergleich zu einer breiteren Palette von Trainees abschneiden. Schliesslich waren alle Fragen in Englisch, was möglicherweise die globale Nutzung von KI in der Medizin, wo viele Sprachen gesprochen werden, nicht widerspiegelt.

Fazit

Unsere Forschung zeigt, dass KI-Modelle effektiv eine Vielzahl von Fragen aus der Pathologie beantworten können und oft besser abschneiden als medizinische Trainees. Während dies das Potenzial dieser Tools in der Ausbildung und Entscheidungsfindung hervorhebt, zeigten beide KI-Modelle Inkonsistenzen in ihren Antworten. Das betont die Notwendigkeit für fortlaufende Entwicklung und sorgfältige Überwachung in medizinischen Anwendungen. Menschliches Fachwissen bleibt entscheidend, wenn es darum geht, KI-Ausgaben zu interpretieren, um sichere und hochwertige Gesundheitsversorgung zu gewährleisten.

Originalquelle

Titel: Large Language Models in Pathology: A Comparative Study on Multiple Choice Question Performance with Pathology Trainees

Zusammenfassung: AimsLarge language models (LLMs), such as ChatGPT and Bard, have shown potential in various medical applications. This study aims to evaluate the performance of LLMs, specifically ChatGPT and Bard, in pathology by comparing their performance with that of pathology residents and fellows, and to assess the consistency of their responses. MethodsWe selected 150 multiple-choice questions covering 15 subspecialties, excluding those with images. Both ChatGPT and Bard were tested on these questions three times, and their responses were compared with those of 14 pathology trainees from two hospitals. Questions were categorized into easy, intermediate, and difficult based on trainee performance. Consistency and variability in LLM responses were analyzed across three evaluation sessions. ResultsChatGPT significantly outperformed Bard and trainees, achieving an average total score of 82.2% compared to Bards 49.5% and trainees 50.7%. ChatGPTs performance was notably stronger in difficult questions (61.8%-70.6%) compared to Bard (29.4%-32.4%) and trainees (5.9%-44.1%). For easy questions, ChatGPT (88.9%-94.4%) and trainees (75.0%-100.0%) showed similar high scores. Consistency analysis revealed that ChatGPT showed a high consistency rate of 85%-80% across three tests, whereas Bard exhibited greater variability with consistency rates of 61%-54%. ConclusionChatGPT consistently outperformed Bard and trainees, especially on difficult questions. While LLMs show significant potential in pathology education and practice, ongoing development and human oversight are essential for reliable clinical application.

Autoren: Shunsuke Koga, W. Du, X. Jin, J. Harris, A. Brunetti, E. Johnson, O. Leung, X. Li, S. Walle, Q. Yu, X. Zhou, F. Bian, K. Mckenzie, M. Kanathanavanich, Y. Ozcelik, F. El-Sharkawy

Letzte Aktualisierung: Oct 18, 2024

Sprache: English

Quell-URL: https://www.medrxiv.org/content/10.1101/2024.07.10.24310093

Quell-PDF: https://www.medrxiv.org/content/10.1101/2024.07.10.24310093.full.pdf

Lizenz: https://creativecommons.org/licenses/by-nc/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel