Chatbots bewerten die Leistung bei medizinischen Prüfungen
Studie bewertet die Effektivität von KI-Chatbots bei medizinischen Lizenzprüfungen.
― 6 min Lesedauer
Inhaltsverzeichnis
Künstliche Intelligenz (KI) verändert viele Bereiche, darunter auch die Medizin und wie Medizinstudenten lernen. Ein interessantes Tool sind KI-Chatbots, die bei der Ausbildung und Schulung helfen können. Diese Chatbots bieten simulierte Praxis, geben massgeschneiderte Rückmeldungen und unterstützen beim klinischen Training. Bevor wir diese Chatbots in medizinischen Programmen einsetzen, müssen wir jedoch überprüfen, wie gut sie tatsächlich funktionieren.
Frühe Beobachtungen zur Chatbot-Leistung
Als Chatbots neu waren, fingen medizinische Schulen an, sie mit Prüfungssimulationen zu testen. Die Ergebnisse zeigten, dass einige Chatbots korrekte und sinnvolle Antworten gaben, während andere klare Fehler machten oder selbstbewusste, aber falsche Antworten lieferten. Diese Probleme können von den Daten kommen, die zur Schulung der Bots verwendet wurden, die möglicherweise Vorurteile oder falsche Informationen enthalten. Insgesamt schnitten die Chatbots im Allgemeinen um die Bestehensnote ab, wobei einige besser abschnitten als die Studenten. Ihre Leistung war oft besser bei einfacheren Fragen und wenn die Prüfungen auf Englisch waren. Als die Prüfungen schwieriger wurden, fielen die Punktzahlen der Chatbots. Neuere Versionen dieser Bots tendieren jedoch dazu, besser abzuschneiden als ältere, was darauf hindeutet, dass sie sich im Laufe der Zeit verbessern.
Bedenken und Potenzial
Schulen machen sich langsam Sorgen über die Möglichkeit von Prüfungsbetrug mit diesen Chatbots. Andererseits können sie auch nützlich sein, um Tests zu erstellen, indem sie unklare oder schlecht formulierte Fragen identifizieren. Es gibt bisher nicht viel Forschung, die verschiedene Chatbots vergleicht, und bestehende Studien konzentrieren sich normalerweise nur auf ein paar Bots, ohne zu messen, wie oft sie Fehler machen.
Studienübersicht
Diese Studie konzentrierte sich auf eine wichtige Theorieprüfung, die alle Medizinstudenten bestehen müssen, um ihren Abschluss zu machen. Die Prüfung fand 2021 in Belgien statt und ähnelt Lizenzprüfungen in anderen Ländern. Sechs verschiedene Chatbots wurden in dieser Prüfung getestet, um zu sehen, wie gut jeder Bot abschnitt. Ziel der Studie war es, ihre Leistung zu messen, zu bewerten, wie oft sie Fehler machten, und zu überprüfen, ob bestimmte Fragen in der Prüfung schwach waren.
Methodik
Die Studie erhielt die Genehmigung des Ethikkomitees der Universität. Medizinstudenten müssen eine Prüfung bestehen, die aus 102 Multiple-Choice-Fragen zu verschiedenen Themen besteht, bevor sie lizenzierte Ärzte werden. Diese Studie untersuchte die Prüfung, wie sie den Studenten während ihrer Ausbildung präsentiert wurde. Die Fragen waren nicht online verfügbar, sodass sie die Schulung der Chatbots nicht beeinflussten.
Auswahl der Chatbots
Sechs öffentlich verfügbare Chatbots wurden für die Tests ausgewählt. Die beliebtesten kostenlosen Chatbots waren ChatGPT, Bard und Bing. Zwei kostenpflichtige Versionen, Claude Instant und Claude+, sowie GPT-4 wurden ebenfalls einbezogen, um zu sehen, wie sie im Vergleich zu den kostenlosen Versionen abschneiden. Obwohl Bing die gleiche Technologie wie GPT-4 verwendet, bezieht es seine Informationen aus anderen Quellen, was es zu einer angepassten Version macht.
Datensammlung
Die Prüfungsfragen wurden mit einem Übersetzungsdienst ins Englische übersetzt, wobei der ursprüngliche Schreibstil beibehalten wurde. Einige Fragen, die lokal für Belgien waren oder Bilder enthielten, wurden entfernt, um die Klarheit zu gewährleisten. Die Bots wurden auf ihre Fähigkeit getestet, diese Fragen zu beantworten, und die Forscher mussten Bard mehrfach zur Antwort auffordern, um Antworten auf einige Fragen zu erhalten.
Leistungsevaluation
Der Hauptfokus lag darauf, wie gut die Chatbots die Prüfungsfragen beantworten konnten. Sie wurden basierend auf dem Anteil der korrekten Antworten bewertet. Wenn ein Chatbot die zweitbeste Antwort auswählte, erhielt er teilweise Punkte, während die Wahl einer schädlichen Antwort zu Punktabzug führte. Die Fragen fielen in verschiedene Kategorien, basierend auf ihrer Schwierigkeit, Art und ob sie gefährliche Antworten enthielten.
Die Studie untersuchte auch, wie oft jeder Chatbot Fehler machte, einschliesslich der Identifizierung von Problemen mit spezifischen Prüfungsfragen.
Ergebnisse der Prüfungsleistung
Zusammenfassend haben Bing und GPT-4 die beste Leistung in der Prüfung mit einer Punktzahl von 76% gezeigt, während der Durchschnitt aller Bots bei 68% lag. Obwohl alle Bots einige Fragen falsch beantworteten, wählte Bard keine falschen oder gefährlichen Antworten aus. Bing hatte einige zweitbeste Antworten, während andere Bots mehr hatten. Bard hatte Schwierigkeiten, mehrere Fragen zu beantworten und benötigte oft Aufforderung.
Bei den schwierigen Fragen schnitten die Bots besser ab als die Studenten, die einen deutlich niedrigeren Durchschnitt erzielten. Die Studie stellte fest, dass Bing und GPT-4 besonders stark bei einfacheren Fragen waren, aber bei komplexeren Schwierigkeiten hatten.
Gründe für Fehler
Bei den falschen Antworten untersuchte die Studie, wie oft die Bots Antworten gaben, die keinen Sinn ergaben oder falsch waren. Bing hatte weniger unsinnige Antworten als Bard und Claude Instant, machte aber dennoch einige Fehler. Diese Fehler traten oft auf, weil der Kontext der Fragen missverstanden wurde.
Schwache Fragen identifiziert
Während der Analyse wurden einige Fragen als schwach oder unklar identifiziert. Zum Beispiel gab es eine Frage dazu, wann mit der Nierenersatztherapie begonnen werden sollte, die irreführende Optionen hatte, die sowohl Bots als auch Studenten verwirren könnten.
Vergleich der Bot-Antworten
Unter allen Bots schnitten einige ähnlich ab, während andere grössere Unterschiede in der Genauigkeit aufwiesen. Die Forscher schauten sich auch an, wie gut die Bots sich gegenseitig in den Antworten einig waren. Insgesamt gab es ein moderates Mass an Übereinstimmung.
Fazit
Die Studie hob bedeutende Unterschiede zwischen den Chatbots hinsichtlich ihrer Leistung in der medizinischen Lizenzprüfung hervor. Bing fiel durch seine Zuverlässigkeit auf, da es weniger Fehler machte als die anderen Bots. Während die Verbesserungen in der Chatbot-Leistung ermutigend sind, ist es wichtig, vorsichtig zu sein, wenn es darum geht, sich auf sie für Medizinisches Wissen zu verlassen. Die Ergebnisse werfen auch Fragen zur Effektivität von Multiple-Choice-Prüfungen auf, wenn es darum geht, die Fähigkeiten zu bewerten, die zukünftige Ärzte benötigen, insbesondere im Hinblick auf menschliche Interaktion.
Empfehlungen für die zukünftige Nutzung
Bing könnte ein nützliches Tool sein, um schlecht formulierte Prüfungsfragen zu identifizieren, was Lehrenden Zeit und Mühe spart. Die Ergebnisse deuten auch darauf hin, dass Chatbots besonders hilfreich in Bereichen sein könnten, in denen Studenten Schwierigkeiten haben, insbesondere bei schwierigen Fragen.
Die Studie fordert mehr Forschung, um zu erkunden, wie Chatbots bei verschiedenen Arten von Fragen und in verschiedenen Bildungskontexten abschneiden. Es ist klar, dass Chatbots nützliche Werkzeuge sein können, sie jedoch nicht für echte medizinische Fachkräfte gehalten werden sollten.
Zukünftige Überlegungen
Mit dem wachsenden Einsatz von KI in der Bildung müssen ethische und rechtliche Fragen angegangen werden, einschliesslich Energieverbrauch, Datenschutz und rechtmässige Nutzung von urheberrechtlich geschütztem Material. Bevor KI breiter in der medizinischen Ausbildung eingesetzt wird, ist es wichtig, ein besseres Verständnis für diese Probleme zu bekommen.
Insgesamt haben sechs KI-Chatbots erfolgreich eine wichtige medizinische Prüfung bestanden, wobei Bing und GPT-4 als die effektivsten hervorgingen. Allerdings heben die Schwächen der Bots, insbesondere bei schwierigen Fragen, die Notwendigkeit weiterer Forschung und Verbesserungen hervor, bevor sie in einem medizinischen Umfeld vollständig vertraut werden können.
Titel: Microsoft Bing outperforms five other generative artificial intelligence chatbots in the Antwerp University multiple choice medical license exam
Zusammenfassung: Recently developed chatbots based on large language models (further called bots) have promising features which could facilitate medical education. Several bots are freely available, but their proficiency has been insufficiently evaluated. In this study the authors have tested the current performance on the multiple-choice medical licensing exam of University of Antwerp (Belgium) of six widely used bots: ChatGPT (OpenAI), Bard (Google), New Bing (Microsoft), Claude instant (Anthropic), Claude+ (Anthropic) and GPT-4 (OpenAI). The primary outcome was the performance on the exam expressed as a proportion of correct answers. Secondary analyses were done for a variety of features in the exam questions: easy versus difficult questions, grammatically positive versus negative questions, and clinical vignettes versus theoretical questions. Reasoning errors and untruthful statements (hallucinations) in the bots answers were examined. All bots passed the exam; Bing and GPT-4 (both 76% correct answers) outperformed the other bots (62-67%, p= 0.03) and students (61%). Bots performed worse on difficult questions (62%, p= 0.06), but outperformed students (32%) on those questions even more (p
Autoren: Stefan Morreel, V. Verhoeven, D. Mathysen
Letzte Aktualisierung: 2023-08-21 00:00:00
Sprache: English
Quell-URL: https://www.medrxiv.org/content/10.1101/2023.08.18.23294263
Quell-PDF: https://www.medrxiv.org/content/10.1101/2023.08.18.23294263.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.