Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Künstliche Intelligenz

RetinaVLM: Augenuntersuchungen neu gedacht

Ein neues Modell verbessert die Bewertungen von Augenerkrankungen und Patientenüberweisungen.

― 9 min Lesedauer


RetinaVLM: AugenpflegeRetinaVLM: Augenpflegeneu gedachtvon Augenerkrankungen.Neues Modell verbessert die Bewertungen
Inhaltsverzeichnis

Kliniker verbringen oft viel Zeit damit, medizinische Bilder zur Augengesundheit anzuschauen und aufzuschreiben, was sie sehen, um Entscheidungen zur Patientenversorgung zu treffen. Es gibt neue Modelle, die sogenannten Vision-Language-Modelle (VLMs), die diese Bilder automatisch lesen und Berichte schreiben können. Diese Modelle haben das Potenzial, Ärzten zu helfen, schneller zu arbeiten und mehr Patienten einen Zugang zu guter medizinischer Versorgung zu ermöglichen. Während viele Leute von diesen Modellen begeistert sind, ist es unklar, ob sie in der realen Welt nützlich sind.

In dieser Forschung haben wir herausgefunden, dass grundlegende VLMs nicht so gut abschneiden wie Augenärzte, wenn es um wichtige Aufgaben für Patienten mit altersbedingter Makuladegeneration (AMD) geht. Um das zu verbessern, haben wir zuerst herausgefunden, welche Fähigkeiten notwendig sind, um Entscheidungen auf Basis von Bildern in einem klinischen Umfeld zu treffen. Dann haben wir ein neues Modell namens RetinaVLM trainiert, um diese wichtigen Fähigkeiten zu entwickeln. RetinaVLM kann Berichte schreiben, die viel besser sind als die von anderen bestehenden medizinischen VLMs bei der Evaluierung von Krankheiten und der Überweisung von Patienten. Es kommt nah an die Leistung von Junior-Augenärzten heran. In einer Studie mit zwei erfahrenen Augenärzten wurden die Berichte von RetinaVLM als fast genauso genau und vollständig wie die von Juniorärzten befunden.

Diese Ergebnisse zeigen, dass unsere Trainingsmethode dabei helfen kann, allgemeinen VLMs besser zu werden im Umgang mit echten klinischen Aufgaben. RetinaVLM ist das erste spezialisierte VLM für medizinische Zwecke.

Wie RetinaVLM entwickelt wurde

Mit einem zielgerichteten Trainingsansatz haben wir RetinaVLM die wichtigen medizinischen Fähigkeiten beigebracht, die den meisten grundlegenden VLMs fehlen. RetinaVLM kann Bilder von optischer Kohärenztomographie (OCT) effektiv analysieren und auf Textfragen antworten. Zu seinen Funktionen gehört die Analyse von wichtigen Anzeichen der AMD, dem Fortschritt der Krankheit und ob ein Patient eine Überweisung zur Behandlung benötigt.

Medizinische Bilder sind entscheidend für Entscheidungen über die Diagnose und Behandlung von Patienten. Ärzte brauchen viel Zeit, um ihre Beobachtungen aufzuschreiben. VLMs können helfen, indem sie Bilder schnell interpretieren und detaillierte schriftliche Berichte erstellen. Bis jetzt waren die meisten medizinischen VLMs darauf beschränkt, fixe Antworten zu geben. Neuere Entwicklungen, die grosse Sprachmodelle mit der Verarbeitung medizinischer Bilder kombinieren, haben zur Schaffung fortgeschrittenerer VLMs geführt, die umfassende Berichte schreiben oder komplexe Fragen beantworten können.

Diese neue Generation medizinischer Modelle basiert auf grossen Mengen von Trainingsdaten, die aus medizinischen Lehrbüchern, wissenschaftlichen Artikeln oder Social-Media-Posts von Gesundheitsfachkräften gesammelt wurden. Während diese Modelle beeindruckende Ergebnisse bei standardisierten medizinischen Tests gezeigt haben, ist es immer noch unklar, ob sie für spezialisierte medizinische Bereiche nützlich sind. Trotz ihrer Grösse konzentriert sich das verwendete Trainingsmaterial nicht auf die spezifischen Herausforderungen, mit denen Ärzte in ihren täglichen Aufgaben konfrontiert sind.

In unserer Studie wollten wir diese Lücke schliessen, indem wir VLMs entwickeln, die einen echten klinischen Wert haben. Wir haben klinische Aufgaben in die notwendigen Fähigkeiten zerlegt und VLMs gezielt in diesen Bereichen trainiert. Wir haben diese Methode in der Augenheilkunde getestet und RetinaVLM eingeführt.

RetinaVLM wurde mit einem fokussierten Lehrplan trainiert, der auf die Behandlung von AMD abzielt, die die häufigste Ursache für Sehverlust bei älteren Erwachsenen ist. Es kann OCT-Bilder analysieren und auf verschiedene Arten von Textanweisungen reagieren. Wir haben gründliche Experimente durchgeführt, um die Fähigkeiten von RetinaVLM in der Krankheitsbewertung, Patientenüberweisung und Analyse medizinischer Bilder zu bewerten.

Hauptbestandteile von RetinaVLM

RetinaVLM hat zwei Hauptbestandteile: eine Bildverarbeitungseinheit (den Vision-Encoder), die OCT-Bilder liest, und eine Sprachverarbeitungseinheit (das grosse Sprachmodell), die Text bearbeitet. Der Vision-Encoder basiert auf früheren erfolgreichen Arbeiten, die für gute Leistungen mit retinalen Bildern bekannt sind. Wir haben Metas Llama 3 als Sprachmodell ausgewählt, das die besten Ergebnisse lieferte, als wir diese Studie durchgeführt haben.

Trotz ihres robusten Trainings fehlt diesen Modellen ohne weitere Anweisungen das spezifische Wissen, das für die Analyse von OCT-Bildern und die Verwaltung von AMD erforderlich ist. Beide Komponenten waren vorab mit grossen Datensätzen trainiert worden, und wir haben ihr Training verfeinert, um den Bedürfnissen unserer Studie gerecht zu werden.

Spezialtraining für RetinaVLM

Wir haben einen spezifischen Trainingsplan erstellt, um RetinaVLM das notwendige Wissen für die Verwaltung von AMD beizubringen. Eine einfache Möglichkeit, VLMs zu spezialisieren und gleichzeitig ihre Fähigkeit zu bewahren, flexibel auf Textanweisungen zu reagieren, besteht darin, ihnen medizinische Bilder und die dazugehörigen Fragen und Antworten zur Verfügung zu stellen. Leider gibt es nicht viele visuelle Frage-Antwort-Datensätze, die für medizinische Spezialgebiete wie die Augenheilkunde entwickelt wurden.

Mit einem Team von Augenpflegefachleuten haben wir wichtige Fähigkeiten identifiziert, die für die effektive Verwaltung von AMD notwendig sind. Diese Fähigkeiten umfassen das Erkennen von Anzeichen von AMD in OCT-Bildern, das Verknüpfen dieser Anzeichen mit dem Krankheitsstadium und das Bestimmen der angemessenen Überweisung und Behandlung, die für den Patienten erforderlich sind. Anschliessend entwickelten wir einen Trainingsplan, der aus Tausenden von OCT-Bildern sowie vielen visuellen Fragen und Antworten bestand, die die VLMs schrittweise in diesen Fähigkeiten trainierten.

Wir haben unser Training in zwei Teile unterteilt. Im ersten Teil wurde RetinaVLM mit dem Aussehen der Netzhaut und den Anzeichen von AMD, die während der OCT-Bildgebung sichtbar sind, vertraut gemacht. Wir sammelten eine grosse Anzahl von Berichten zu diesen Bildern. Die Berichte beschrieben, welche Merkmale in den Bildern sichtbar waren, und enthielten Diagnosedaten.

Als Nächstes beauftragten wir ein Sprachmodell, Frage-Antwort-Paare aus diesen Berichten zu erstellen. Dieser Prozess ermöglichte es uns, einen grossen Datensatz von Fragen und Antworten zu erstellen. Die Fragen konzentrierten sich auf das Vorhandensein oder Fehlen bestimmter Marker, die auf AMD hindeuten.

Im zweiten Teil des Trainings hatten wir das Ziel, die identifizierten Marker mit dem Krankheitsstadium zu verknüpfen und Behandlungen zu empfehlen. Dies erforderte die Erstellung detaillierter Berichte, die über typische Notizen hinausgingen. Ein erfahreneres Team von Augenärzten erstellte diese Berichte, und wir nutzten erneut ein unabhängiges Modell, um basierend auf diesen Erkenntnissen Frage-Antwort-Paare zu erstellen.

Das Ergebnis war, dass zwei Sets von Fragen und Antworten erstellt wurden, um VLMs mit Wissen über AMD zu spezialisieren.

Leistung von RetinaVLM im Vergleich zu anderen Modellen

Wir haben die Leistung verschiedener VLMs bei der Erstellung von Berichten basierend auf retinalen OCT-Bildern und der Bestimmung von AMD-Krankheitsstadien bewertet. Wir verglichen RetinaVLM mit zwei bestehenden Grundmodellen, Med-Flamingo und LLaVA-Med. Insgesamt wurden 276 OCT-Bilder von diesen Modellen analysiert, und ihre Berichte wurden mit den Expertenbewertungen von Junior-Augenärzten verglichen.

Unsere Ergebnisse zeigten, dass selbst die anfängliche Version von RetinaVLM viel besser abschnitt als die allgemeinen Modelle, die spezifisches Wissen in der Augenheilkunde fehlte. Med-Flamingo erzielte eine der niedrigsten Punktzahlen, während RetinaVLM-Specialist signifikant höher punktete. Es kam nahe an die Genauigkeit von Juniorärzten heran.

In unseren Tests stellten wir fest, dass das fortgeschrittenere RetinaVLM-Specialist für alle analysierten Fälle gültige Berichte erstellte, während viele Berichte von den Grundmodellen entweder unvollständig oder fehlerhaft formatiert waren. Das zeigte, dass RetinaVLM nicht nur die Bilder effektiv analysieren konnte, sondern auch zuverlässige Berichte erstellen konnte.

Richtigkeit und Qualität der Berichte von RetinaVLM

In einer weiteren Evaluation liessen wir erfahrene Ophthalmologen die Qualität der von RetinaVLM erstellten Berichte bewerten. Die obersten Ärzte überprüften eine Auswahl von Berichten von RetinaVLM, LLaVA-Med und Juniorärzten. Sie bewerteten die Genauigkeit, Vollständigkeit und wie prägnant die Berichte waren.

Die Ergebnisse zeigten, dass die Berichte von RetinaVLM fast ebenso korrekt und vollständig waren wie die von Juniorärzten, was die Fähigkeiten des Modells im Verständnis und der Interpretation klinischer Informationen zeigt. Allerdings, während RetinaVLM hochwertige Berichte lieferte, beinhaltete es manchmal unnötige Details, die zu etwas niedrigeren Prägnanzbewertungen im Vergleich zu den Juniorärzten führten.

Effektivität bei Patientenüberweisung und Screening

AMD wird immer häufiger, da die Bevölkerung altert, und Screening-Programme werden eingerichtet, um dieses Problem zu bewältigen. In Ländern wie dem Vereinigten Königreich beginnen Optiker damit, OCT-Bilder zu interpretieren, um hochriskante Patienten zu identifizieren.

Wir haben die Fähigkeit verschiedener VLMs getestet, die Dringlichkeit von Patientenüberweisungen zur Behandlung basierend auf bereitgestellten Richtlinien zu bestimmen. Unsere Ergebnisse zeigten, dass sowohl Grundmodelle als auch sogar RetinaVLM-Base schlechter abschnitten als menschliche Augenärzte, wenn es darum ging, dringende Überweisungen zu empfehlen.

RetinaVLM-Specialist hingegen identifizierte erfolgreich einen grossen Prozentsatz von hochriskanten Patienten, die sofortige Behandlung benötigten, während es auch die Anzahl unnötiger Überweisungen im Vergleich zu Nicht-Spezialisten reduzierte.

Analyse der Biomarker-Erkennung

Wir wollten sicherstellen, dass die Modelle kritische Biomarker, die in OCT-Bildern zu sehen sind, genau identifizieren konnten. Wir bewerteten, wie gut RetinaVLM und andere Modelle das Vorhandensein von zehn wichtigen Biomarkern, die mit AMD assoziiert sind, bestimmen konnten. Die Antworten wurden mit Beurteilungen von Junior-Ophthalmologen verglichen.

RetinaVLM schnitt bemerkenswert gut ab und übertraf beide Grundmodelle bei der Erkennung wichtiger AMD-Indikatoren. Es zeigte eine hohe Fähigkeit, schwerwiegende Merkmale der Krankheit zu identifizieren, was seinen Nutzen in klinischen Umgebungen demonstriert.

Fazit und zukünftige Richtungen

In dieser Studie haben wir RetinaVLM eingeführt, ein spezialisiertes Tool, das OCT-Bilder lesen und detaillierte schriftliche Berichte über AMD erstellen kann. Es zeigt vielversprechende Ergebnisse bei der Bereitstellung genauer Bewertungen, Empfehlungen und Analysen, die in Bezug auf die Leistung nah an Juniorärzten herankommen.

Wir glauben, dass es noch Verbesserungen geben sollte. Zukünftige Bemühungen sollten darauf abzielen, RetinaVLM mit einer breiteren Vielfalt von Berichten zu trainieren, die von erfahrenen Spezialisten erstellt wurden. Das könnte helfen, eine noch bessere Leistung in klinischen Situationen zu erreichen. Wir sehen auch einen Bedarf, Wissen über zusätzliche Augenerkrankungen und Bildgebungstechniken zu integrieren, um RetinaVLM noch vielseitiger zu machen.

Durch die Befolgung unseres massgeschneiderten Trainingsansatzes zeigen wir, dass es möglich ist, VLMs zu schaffen, die in der Lage sind, reale klinische Herausforderungen zu bewältigen und sicherzustellen, dass sie einen greifbaren Wert im Gesundheitswesen bieten.

Originalquelle

Titel: Specialist vision-language models for clinical ophthalmology

Zusammenfassung: Clinicians spend a significant amount of time reviewing medical images and transcribing their findings regarding patient diagnosis, referral and treatment in text form. Vision-language models (VLMs), which automatically interpret images and summarize their findings as text, have enormous potential to alleviate clinical workloads and increase patient access to high-quality medical care. While foundational models have stirred considerable interest in the medical community, it is unclear whether their general capabilities translate to real-world clinical utility. In this work, we show that foundation VLMs markedly underperform compared to practicing ophthalmologists on specialist tasks crucial to the care of patients with age-related macular degeneration (AMD). To address this, we initially identified the essential capabilities required for image-based clinical decision-making, and then developed a curriculum to selectively train VLMs in these skills. The resulting model, RetinaVLM, can be instructed to write reports that significantly outperform those written by leading foundation medical VLMs in disease staging (F1 score of 0.63 vs. 0.11) and patient referral (0.67 vs. 0.39), and approaches the diagnostic performance of junior ophthalmologists (who achieve 0.77 and 0.78 on the respective tasks). Furthermore, in a reader study involving two senior ophthalmologists with up to 32 years of experience, RetinaVLM's reports were found to be similarly correct (78.6% vs. 82.1%) and complete (both 78.6%) as reports written by junior ophthalmologists with up to 10 years of experience. These results demonstrate that our curriculum-based approach provides a blueprint for specializing generalist foundation medical VLMs to handle real-world clinical tasks.

Autoren: Robbie Holland, Thomas R. P. Taylor, Christopher Holmes, Sophie Riedl, Julia Mai, Maria Patsiamanidi, Dimitra Mitsopoulou, Paul Hager, Philip Müller, Hendrik P. N. Scholl, Hrvoje Bogunović, Ursula Schmidt-Erfurth, Daniel Rueckert, Sobha Sivaprasad, Andrew J. Lotery, Martin J. Menten

Letzte Aktualisierung: 2024-07-11 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.08410

Quell-PDF: https://arxiv.org/pdf/2407.08410

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Ähnliche Artikel