Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Gesundheitswissenschaften# Radiologie und Bildgebung

Bewertung der Rolle von GPT-4V in der medizinischen Diagnose

GPT-4V zeigt Potenzial bei der Analyse von medizinischen Bildern für bessere Diagnosen.

― 7 min Lesedauer


Die Auswirkungen vonDie Auswirkungen vonGPT-4V auf diemedizinische Diagnostikmedizinischen Bildanalyse.AI-Modell zeigt hohe Genauigkeit in der
Inhaltsverzeichnis

Die Nutzung von Computern, um Ärzten bei der Diagnose von Patienten und der Anleitung von Behandlungen zu helfen, ist schon lange ein Ziel der Künstlichen Intelligenz (KI). In den USA haben Krankenhäuser angefangen, elektronische Gesundheitsakten (EHR) zu nutzen, was zu einer riesigen Menge an digitalen Daten aus Patientenbesuchen geführt hat. Ein System namens Computer-Assisted Clinical Diagnostic Support System (CDSS) hat das Ziel, Entscheidungen der Ärzte zu verbessern, indem es Patienteninformationen und klinisches Wissen bereitstellt. Das Interesse an CDSS wächst, besonders bei der Analyse medizinischer Bilder, auch bekannt als Radiomics. Dieser Ansatz wird in verschiedenen medizinischen Bereichen eingesetzt, wie z.B. bei der Erkennung von Brustkrebs, der Diagnose von COVID-19 und der Identifizierung von angeborenen Katarakten.

Damit ein CDSS zuverlässig ist, sollte es nicht nur Vorhersagen machen, sondern auch klare Erklärungen für diese Vorhersagen liefern. Viele frühere bildgebende CDSS zeigen jedoch nur Bereiche, die die KI für wichtig hält, was nicht genug detaillierte Einblicke in die Diagnose gibt.

Grosse Sprachmodelle in der Medizin

Aktuelle Fortschritte in der KI umfassen grosse Sprachmodelle (LLMs), wie ChatGPT. Diese Modelle können Erklärungen für verschiedene Fragen und Aufgaben generieren. ChatGPT, das von OpenAI 2022 veröffentlicht wurde, hat in medizinisch relevanten Aufgaben beeindruckende Leistungen gezeigt. Es hat bei medizinischen Zulassungsprüfungen gut abgeschnitten, was Diskussionen über die mögliche Integration von LLMs in die klinische Praxis und Bildung ausgelöst hat.

Ein Nachteil von ChatGPT ist, dass es keine Bilder verarbeiten kann, was seine Nutzung in Bereichen einschränkt, die auf visuelle Daten angewiesen sind. Neue Modelle wie GPT-4V wurden jedoch entwickelt, um dieses Limit zu überwinden, sodass sowohl Text- als auch Bildverarbeitung möglich ist.

Bewertung von GPT-4Vs Analyse medizinischer Bilder

Die Fähigkeit von GPT-4V, medizinische Bilder zu analysieren, ist noch nicht vollständig bewertet. Ziel dieser Studie war es, zu sehen, wie gut GPT-4V bei Fragen aus medizinischen Zulassungsprüfungen abschneidet, die Bilder enthalten, sowie wie es seine Antworten für Fachkräfte im Gesundheitswesen erklärt.

Die Studie verglich die Leistung von GPT-4V mit anderen Modellen wie ChatGPT und GPT-4 bei Fragen aus medizinischen Zulassungsprüfungen. Die Forschung wurde von einem Ethikkomitee genehmigt und im Oktober 2023 durchgeführt.

Datensammlung für medizinische Prüfungen

Die Studie sammelte Fragen aus mehreren Quellen, darunter die United States Medical Licensing Examination (USMLE) und eine Fragenbank namens AMBOSS. Die USMLE besteht aus drei Schritten, die Medizinstudenten absolvieren müssen, um eine Lizenz zu erhalten. Diese Prüfung testet die Fähigkeit eines Arztes, Wissen in der Gesundheits- und Krankheitsbewältigung anzuwenden, was für die sichere Patientenversorgung entscheidend ist.

Die Fragen aus der Prüfung enthielten eine Mischung aus Text und Bildern. Zum Beispiel umfasste Schritt 1 119 Fragen, Schritt 2 hatte 120 Fragen und Schritt 3 bestand aus 137 Fragen. Die Forscher wählten Fragen aus, die Bilder enthielten, was zu insgesamt 50 Fragen führte. Sie sammelten auch zusätzliche Fragen von AMBOSS, wodurch die Gesamtzahl auf 150 Fragen, die in der Studie verwendet wurden, anstieg.

Das Forschungsteam berücksichtigte verschiedene medizinische Bereiche wie Radiologie, Dermatologie und Orthopädie bei der Auswahl der Fragen, um eine umfassende Analyse zu gewährleisten.

So nutzt man GPT-4V

Um Fragen mit Bildern zu beantworten, nahm GPT-4V sowohl Bild- als auch Texteingaben entgegen. Die Forscher erstellten ein spezifisches Eingabeformat, das beinhaltete, das Bild zuerst hinzuzufügen, gefolgt von Patienteninformationen und Fragen, und dann mehrere Antwortmöglichkeiten zu präsentieren. Jede Frage wurde manuell separat in das Modell eingegeben.

Beispielsweise wurde eine Frage zu einer 55-jährigen Frau mit Brustschmerzen an GPT-4V gestellt, das dann das Bild analysierte und eine Antwort mit Begründung gab.

Bewertung der Antwortgenauigkeit

Um die Genauigkeit des Modells zu messen, verglichen die Forscher seine Antworten mit den korrekten Antworten des Prüfungsamts. Sie definierten Genauigkeit als die Anzahl der richtigen Antworten geteilt durch die Gesamtanzahl der Fragen.

Die Qualität der Erklärungen, die GPT-4V gab, wurde ebenfalls anhand von Feedback von Fachleuten im Gesundheitswesen bewertet. Sie verglichen die von GPT-4V bereitgestellten Erklärungen mit denen von menschlichen Experten, um Präferenz und Effektivität zu messen.

Ergebnisse der Studie

Die Ergebnisse zeigten, dass GPT-4V bei medizinischen Prüfungsfragen mit Bildern eine hohe Genauigkeit erzielte. Es schnitt spezifisch besser ab als ChatGPT und GPT-4 und erreichte bei den Prüfungen Schritt 1, Schritt 2 und Schritt 3 84,2 %, 85,7 % und 88,9 %. Es übertraf auch die anderen Modelle in einer spezialisierten Radiologie-Prüfung, was auf starke Leistungen in der Bildanalyse hinweist.

Bei der Untersuchung von Fragen ohne Bilder schnitt GPT-4V etwas schlechter ab, hielt jedoch immer noch beachtliche Ergebnisse, was darauf hindeutet, dass seine Genauigkeit durch die Komplexität der präsentierten Fragen beeinflusst wird.

Leistung basierend auf der Fragenschwierigkeit

Die Studie stellte auch fest, dass die Genauigkeit von GPT-4V abnahm, je schwieriger die Fragen wurden. Im Gegensatz dazu verbesserte sich die Leistung des Modells erheblich, wenn Hinweise gegeben wurden. Das deutet darauf hin, dass GPT-4V von zusätzlicher Anleitung profitieren könnte, wenn es mit herausfordernden Fragen konfrontiert wird.

Erklärungqualität

Fachkräfte im Gesundheitswesen bewerteten die Qualität der von GPT-4V bereitgestellten Erklärungen. Sie wurden gebeten, zwischen den Erklärungen von GPT-4V und denen von menschlichen Experten zu wählen. Die Ergebnisse zeigten, dass, obwohl GPT-4V vernünftige Erklärungen lieferte, dennoch eine Präferenz für Expertenantworten bestand, besonders wenn GPT-4V falsch antwortete.

Die meisten korrekten Antworten von GPT-4V beinhalteten eine Interpretation des Bildes und relevante Details aus der Frage, was zeigt, dass es beide Komponenten effektiv kombinierte, wenn es Antworten generierte.

Allerdings waren viele der falschen Antworten auf Missverständnisse bezüglich der präsentierten Bilder zurückzuführen. Dies hebt einen wichtigen Bereich für Verbesserungen hervor, da eine genaue Bildinterpretation für die richtige Diagnose entscheidend ist.

Die Herausforderung der Halluzinationen

Eine weitere Herausforderung für GPT-4V war die Tendenz, ungenaue Informationen zu produzieren, oft als „Halluzinationen“ bezeichnet. Diese Ungenauigkeiten können irreführend sein, insbesondere in medizinischen Kontexten, wo Präzision entscheidend ist. Die Studie stellte fest, dass ein erheblicher Anteil der falschen Erklärungen faktische Fehler enthielt.

Einschränkungen der Studie

Die Studie hat ihre Einschränkungen. Die Stichprobengrösse von 226 Fragen könnte nicht alle Bereiche der Medizin umfassend darstellen. Zudem beinhalteten die Trainingsdaten von GPT-4V nur Informationen bis September 2022, was bedeutet, dass es möglicherweise nicht in der Lage ist, Fragen zu beantworten, die das neueste medizinische Wissen erfordern.

Ausserdem, während GPT-4V in der Lage war, Prüfungsfragen zu beantworten, wurde seine Effektivität in realen klinischen Settings noch nicht umfassend getestet.

Fazit

Zusammenfassend zeigte GPT-4V starke Leistungen bei der Beantwortung medizinischer Prüfungsfragen, die Bilder beinhalteten, und erreichte eine hohe Genauigkeit im Vergleich zu früheren Modellen. Seine Fähigkeit, Erklärungen auf der Grundlage von sowohl Bildern als auch Text zu liefern, ist ein bedeutender Fortschritt. Es gibt jedoch Verbesserungsbedarf, insbesondere bei der genauen Bildinterpretation und der Reduzierung falscher Informationen.

Mit fortschreitender Forschung und Entwicklung könnte die Rolle der KI in der klinischen Praxis wachsen, aber es ist wichtig, dass medizinische Fachkräfte wachsam bleiben und KI-generierte Informationen mit zuverlässigen Quellen überprüfen. Trotz ihrer Fähigkeiten sind KI-Modelle wie GPT-4V nicht darauf ausgelegt, menschliche Ärzte zu ersetzen. Stattdessen können sie als wertvolle Werkzeuge zur Unterstützung des Entscheidungsprozesses dienen.

Originalquelle

Titel: Performance of Multimodal GPT-4V on USMLE with Image: Potential for Imaging Diagnostic Support with Explanations

Zusammenfassung: BackgroundUsing artificial intelligence (AI) to help clinical diagnoses has been an active research topic for more than six decades. Past research, however, has not had the scale and accuracy for use in clinical decision making. The power of AI in large language model (LLM)-related technologies may be changing this. In this study, we evaluated the performance and interpretability of Generative Pre-trained Transformer 4 Vision (GPT-4V), a multimodal LLM, on medical licensing examination questions with images. MethodsWe used three sets of multiple-choice questions with images from the United States Medical Licensing Examination (USMLE), the USMLE question bank for medical students with different difficulty level (AMBOSS), and the Diagnostic Radiology Qualifying Core Exam (DRQCE) to test GPT-4Vs accuracy and explanation quality. We compared GPT-4V with two state-of-the-art LLMs, GPT-4 and ChatGPT. We also assessed the preference and feedback of healthcare professionals on GPT-4Vs explanations. We presented a case scenario on how GPT-4V can be used for clinical decision support. ResultsGPT-4V outperformed ChatGPT (58.4%) and GPT4 (83.6%) to pass the full USMLE exam with an overall accuracy of 90.7%. In comparison, the passing threshold was 60% for medical students. For questions with images, GPT-4V achieved a performance that was equivalent to the 70th - 80th percentile with AMBOSS medical students, with accuracies of 86.2%, 73.1%, and 62.0% on USMLE, DRQCE, and AMBOSS, respectively. While the accuracies decreased quickly among medical students when the difficulties of questions increased, the performance of GPT-4V remained relatively stable. On the other hand, GPT-4Vs performance varied across different medical subdomains, with the highest accuracy in immunology (100%) and otolaryngology (100%) and the lowest accuracy in anatomy (25%) and emergency medicine (25%). When GPT-4V answered correctly, its explanations were almost as good as those made by domain experts. However, when GPT-4V answered incorrectly, the quality of generated explanation was poor: 18.2% wrong answers had made-up text; 45.5% had inferencing errors; and 76.3% had image misunderstandings. Our results show that after experts gave GPT-4V a short hint about the image, it reduced 40.5% errors on average, and more difficult test questions had higher performance gains. Therefore, a hypothetical clinical decision support system as shown in our case scenario is a human-AI-in-the-loop system where a clinician can interact with GPT-4V with hints to maximize its clinical use. ConclusionGPT-4V outperformed other LLMs and typical medical student performance on results for medical licensing examination questions with images. However, uneven subdomain performance and inconsistent explanation quality may restrict its practical application in clinical settings. The observation that physicians hints significantly improved GPT-4Vs performance suggests that future research could focus on developing more effective human-AI collaborative systems. Such systems could potentially overcome current limitations and make GPT-4V more suitable for clinical use. 1-2 sentence descriptionIn this study the authors show that GPT-4V, a large multimodal chatbot, achieved accuracy on medical licensing exams with images equivalent to the 70th - 80th percentile with AMBOSS medical students. The authors also show issues with GPT-4V, including uneven performance in different clinical subdomains and explanation quality, which may hamper its clinical use.

Autoren: Hong Yu, Z. Yang, Z. Yao, M. Tasmin, P. Vashisht, W. S. Jang, B. Wang, F. Ouyang, D. Berlowitz

Letzte Aktualisierung: 2023-11-15 00:00:00

Sprache: English

Quell-URL: https://www.medrxiv.org/content/10.1101/2023.10.26.23297629

Quell-PDF: https://www.medrxiv.org/content/10.1101/2023.10.26.23297629.full.pdf

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel