Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung# Künstliche Intelligenz

Merlin: Ein neuer Ansatz zur Interpretation von Bauch-CT-Scans

Das KI-Modell Merlin verbessert das Lesen von Bauch-CT-Scans.

― 7 min Lesedauer


Merlin verwandelt dieMerlin verwandelt dieCT-Scan-Analyse.CT-Daten zu interpretieren.KI hilft Radiologen dabei, komplexe
Inhaltsverzeichnis

Jedes Jahr werden Millionen von Computertomographie (CT)-Scans gemacht, viele davon mit Fokus auf den Bauch. Die Nachfrage nach Ärzten, die diese Scans lesen können, ist hoch, aber es gibt nicht genug Radiologen, um die Arbeitslast zu bewältigen. Als Lösung wird Künstliche Intelligenz (KI) genutzt, um bei der Interpretation dieser Scans zu helfen und wichtige Gesundheitsindikatoren zu finden, die möglicherweise übersehen werden. Traditionelle KI-Methoden arbeiten oft mit flachen, 2D-Bildern und nutzen keine detaillierten Patientendaten aus elektronischen Gesundheitsakten (EHRs). Um diese Einschränkungen speziell für Bauch-CT-Scans zu adressieren, wurde ein neues Modell namens Merlin entwickelt. Merlin kann sowohl mit der 3D-Natur von CT-Bildern als auch mit unstrukturiertem Text aus Radiologieberichten und EHR-Daten umgehen.

Der Bedarf an besseren Lösungen in der Radiologie

CT-Scans sind eine häufige Art der medizinischen Bildgebung, die Ärzten hilft, das Innere des Körpers zu sehen. Allein in den Vereinigten Staaten werden jährlich über 85 Millionen CT-Scans durchgeführt, viele davon mit Fokus auf den Bauchbereich. Diese Scans enthalten oft Hunderte von Schichten, was es für Radiologen schwierig macht, sie schnell zu interpretieren. Im Durchschnitt dauert es etwa 20 Minuten, um einen einzigen Scan zu lesen. Zusätzlich hat die Forschung gezeigt, dass CT-Scans frühe Anzeichen von Krankheiten enthalten können, die oft unbemerkt bleiben.

Trotz der steigenden Nutzung medizinischer Bildgebung steigt die Anzahl der Radiologen nicht entsprechend. Die Zahl der Ausbildungsplätze in der Radiologie ist über die Jahre konstant geblieben. Dieses Ungleichgewicht führt zu einem Mangel an Radiologen, wobei Prognosen darauf hindeuten, dass der Mangel bis 2036 über 19.000 Stellen übersteigen könnte.

Maschinelles Lernen (ML) hat sich als vielversprechendes Werkzeug zur Unterstützung bei der Auswertung medizinischer Bilder herausgestellt. Viele ML-Geräte wurden zur Nutzung in der Radiologie genehmigt, aber die meisten Modelle arbeiten derzeit mit 2D-Bildern und haben keinen umfassenden Ansatz, der EHR-Daten einbezieht. Um Labels für das Training dieser Modelle zu erstellen, sind in der Regel medizinische Experten erforderlich, was kostspielig und zeitaufwendig sein kann.

Der Aufstieg von Vision-Language-Modellen

In den letzten Jahren haben Vision-Language-Modelle (VLMs) grosses Potenzial gezeigt, wie KI mit Bildern und Texten interagiert. Diese Modelle bringen visuelle Informationen mit textuellen Beschreibungen in Einklang, wodurch sie Daten effizienter verstehen und verarbeiten können. Im Gegensatz zu traditionellen Methoden können VLMs grosse Mengen an Bildern und dazugehörigem Text aus dem Internet nutzen, was sie anpassungsfähiger und weniger auf streng kuratierte Datensätze angewiesen macht.

Während VLMs im Bereich der Radiologie Fortschritte machen, haben sie sich hauptsächlich auf 2D-Bilder konzentriert, obwohl die meisten medizinischen Bilder 3D sind. Aktuelle Methoden beinhalten oft die Analyse jeder 2D-Schicht eines 3D-Volumens separat, was nicht der effizienteste Weg ist, umfassende volumetrische Daten zu interpretieren.

Was ist Merlin?

Merlin ist ein neues 3D-Vision-Language-Modell, das speziell zur Interpretation von Bauch-CT-Scans entwickelt wurde. Es nutzt sowohl strukturierte Daten aus elektronischen Gesundheitsakten als auch unstrukturierten Text aus Radiologieberichten. Dieser Ansatz ermöglicht es dem Modell, aus einer breiteren Palette von Informationen zu lernen, ohne zusätzliche manuelle Datenbeschriftung zu benötigen.

Das Training von Merlin wurde an einem grossen klinischen Datensatz durchgeführt, der Millionen von Bildern, Diagnosecodes und Tokens aus Radiologieberichten umfasste. Durch die Nutzung dieses vielfältigen Datensatzes wurde Merlin entwickelt, um verschiedene Aufgaben zu bewältigen, wie das Klassifizieren von Befunden in Scans, das Erstellen von Radiologieberichten und sogar das Vorhersagen der Wahrscheinlichkeit chronischer Krankheiten bei Patienten.

Training und Bewertung von Merlin

Merlin wurde mit Fokus auf 3D-CT-Scans trainiert, und zwar mit einem hochwertigen Datensatz, der aus gepaarten Bildern und klinischen Informationen bestand. Das Modell wird anhand mehrerer Arten von Aufgaben bewertet, um seine Effektivität zu demonstrieren.

Zu diesen Aufgaben gehören:

  1. Zero-Shot-Befundklassifikation: Kann das Modell spezifische Befunde in CT-Bildern richtig identifizieren, ohne vorheriges Training zu diesen speziellen Bedingungen?
  2. Phänotypklassifikation: Kann das Modell spezifische Gesundheitszustände basierend auf CT-Bildern vorhersagen?
  3. Cross-Modal-Retrieval: Kann das Modell CT-Bilder ihren entsprechenden Radiologieberichten oder umgekehrt zuordnen?
  4. 5-Jahres-Krankheitsvorhersage: Wie gut kann das Modell vorhersagen, ob ein Patient innerhalb der nächsten fünf Jahre an einer chronischen Krankheit erkrankt?
  5. Generierung von Radiologieberichten: Kann das Modell genaue Berichte basierend auf CT-Bildern erstellen?
  6. 3D-sematische Segmentierung: Kann das Modell verschiedene anatomische Strukturen innerhalb eines 3D-CT-Bildes effektiv segmentieren?

Für jede dieser Aufgaben wurde die Leistung von Merlin mit bestehenden Modellen verglichen. Es zeigte überlegene oder vergleichbare Ergebnisse in allen Bereichen und demonstrierte seine Vielseitigkeit und Effizienz.

Einblicke in Merlins Leistung

Zero-Shot-Befundklassifikation

Diese Aufgabe testet Merlins Fähigkeit, das Vorhandensein bestimmter medizinischer Bedingungen aus CT-Bildern allein anhand von Texthinweisen zu erkennen. Bei Bewertungen erzielte Merlin beeindruckende Ergebnisse und konnte viele häufige abdominale Befunde effektiv erkennen, wie z. B. Pleurafusion oder Aszites. Es zeigte jedoch auch, dass subtilere Befunde wie Lymphadenopathie oder metastatische Erkrankungen schwieriger genau zu klassifizieren waren.

Phänotypklassifikation

Merlin wurde auch auf seine Fähigkeit getestet, breitere Gesundheitszustände basierend auf CT-Scans vorherzusagen. Es klassifizierte erfolgreich eine Reihe von Zuständen und erreichte starke Leistungskennzahlen. Die Ergebnisse deuten darauf hin, dass Merlin in der Lage ist, verschiedene Gesundheitsprobleme mit angemessener Genauigkeit zu identifizieren, was es zu einem nützlichen Werkzeug in der Patientendiagnostik macht.

Cross-Modal-Retrieval

In Bezug auf die Zuordnung von Bildern zu Berichten schnitt Merlin gut ab und zeigte seine Fähigkeit, CT-Bilder effizient mit relevanten textlichen Informationen zu verknüpfen. Diese Aufgabe ist entscheidend, da sie Gesundheitsfachleuten hilft, die relevanten Befunde schnell zu finden, ohne durch lange Berichte blättern zu müssen.

Vorhersage chronischer Krankheiten

Merlin wurde bewertet, um zu sehen, ob es vorhersagen kann, ob Patienten innerhalb von fünf Jahren chronische Krankheiten entwickeln würden. Es erzielte wünschenswerte Ergebnisse, selbst bei begrenzten Trainingsdaten. Diese Fähigkeit ist bedeutend, da eine frühzeitige Erkennung von Krankheiten zu besseren Behandlungsergebnissen für Patienten führen kann.

Generierung von Radiologieberichten

Während der Bewertungen wurde Merlin auch mit der Erstellung von Radiologieberichten aus CT-Bildern beauftragt. Die Ergebnisse zeigten, dass die generierten Berichte strukturell einwandfrei waren, es aber Fälle gab, in denen positive Befunde unterberichtet wurden. Dieser Aspekt bietet Raum für weitere Verbesserungen, zeigt aber auch Merlins Fähigkeit, Berichte zu entwerfen, die Radiologen unterstützen können.

3D-sematische Segmentierung

Schliesslich wurde Merlin auf seine Fähigkeit bewertet, anatomische Strukturen aus CT-Bildern zu segmentieren. Es übertraf alternative Modelle, insbesondere bei der Identifizierung kleinerer Organe oder komplexer Formen. Diese Leistung deutet darauf hin, dass es potenziell Radiologen helfen kann, anatomische Details effektiver zu visualisieren und zu verstehen.

Bedeutung der Datenqualität und -quantität

Eine der wichtigen Erkenntnisse aus dem Training und der Bewertung von Merlin ist, dass grössere Datensätze zu einer besseren Modellleistung führen können. Dies betont die Notwendigkeit robuster Datensätze im KI-Training. Bemühungen, sowohl die Qualität als auch die Quantität der Trainingsdaten zu erhöhen, können die Leistung von Modellen wie Merlin erheblich verbessern.

Zukünftige Verbesserungsrichtungen

Während Merlin grosses Potenzial zeigt, gibt es mehrere Bereiche, in denen es weiter verbessert werden könnte:

  1. Grössere Datensätze: Zukünftige Trainingsbemühungen könnten von grösseren Datensätzen profitieren, um die Modellleistung und Anpassungsfähigkeit zu maximieren.
  2. Höhere Bildauflösungen: Die Verwendung besserer Bildauflösungen könnte die Fähigkeit des Modells verbessern, subtile Gesundheitsindikatoren in Scans zu identifizieren.
  3. Optimierung der Batch-Grössen: Die Anpassung der Batch-Grössen während des Trainings kann zu einer besseren Leistung führen, insbesondere bei Modellen, die mit komplexen Daten wie 3D-Bildern umgehen.
  4. Breitere anatomische Abdeckung: Das Trainieren von Modellen auf zusätzlichen anatomischen Regionen oder anderen Bildgebungsverfahren könnte deren Nützlichkeit im gesamten medizinischen Bereich verbessern.

Fazit

Merlin stellt einen bedeutenden Fortschritt im Einsatz von KI zur Interpretation von Bauch-CT-Scans dar. Durch die Nutzung von sowohl strukturierten EHR-Daten als auch unstrukturierten Radiologieberichten bietet es einen umfassenden Ansatz, der die Effizienz und Genauigkeit der Bildinterpretation verbessert. Mit weiteren Verbesserungen und Anpassungen könnte Merlin eine entscheidende Rolle dabei spielen, die Belastung der Radiologen zu verringern und die Patientenversorgung durch frühzeitige Krankheitsentdeckung und genaue diagnostische Unterstützung zu verbessern.

Originalquelle

Titel: Merlin: A Vision Language Foundation Model for 3D Computed Tomography

Zusammenfassung: Over 85 million computed tomography (CT) scans are performed annually in the US, of which approximately one quarter focus on the abdomen. Given the current radiologist shortage, there is a large impetus to use artificial intelligence to alleviate the burden of interpreting these complex imaging studies. Prior state-of-the-art approaches for automated medical image interpretation leverage vision language models (VLMs). However, current medical VLMs are generally limited to 2D images and short reports, and do not leverage electronic health record (EHR) data for supervision. We introduce Merlin - a 3D VLM that we train using paired CT scans (6+ million images from 15,331 CTs), EHR diagnosis codes (1.8+ million codes), and radiology reports (6+ million tokens). We evaluate Merlin on 6 task types and 752 individual tasks. The non-adapted (off-the-shelf) tasks include zero-shot findings classification (31 findings), phenotype classification (692 phenotypes), and zero-shot cross-modal retrieval (image to findings and image to impressions), while model adapted tasks include 5-year disease prediction (6 diseases), radiology report generation, and 3D semantic segmentation (20 organs). We perform internal validation on a test set of 5,137 CTs, and external validation on 7,000 clinical CTs and on two public CT datasets (VerSe, TotalSegmentator). Beyond these clinically-relevant evaluations, we assess the efficacy of various network architectures and training strategies to depict that Merlin has favorable performance to existing task-specific baselines. We derive data scaling laws to empirically assess training data needs for requisite downstream task performance. Furthermore, unlike conventional VLMs that require hundreds of GPUs for training, we perform all training on a single GPU.

Autoren: Louis Blankemeier, Joseph Paul Cohen, Ashwin Kumar, Dave Van Veen, Syed Jamal Safdar Gardezi, Magdalini Paschali, Zhihong Chen, Jean-Benoit Delbrouck, Eduardo Reis, Cesar Truyts, Christian Bluethgen, Malte Engmann Kjeldskov Jensen, Sophie Ostmeier, Maya Varma, Jeya Maria Jose Valanarasu, Zhongnan Fang, Zepeng Huo, Zaid Nabulsi, Diego Ardila, Wei-Hung Weng, Edson Amaro Junior, Neera Ahuja, Jason Fries, Nigam H. Shah, Andrew Johnston, Robert D. Boutin, Andrew Wentland, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, Akshay S. Chaudhari

Letzte Aktualisierung: 2024-06-10 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2406.06512

Quell-PDF: https://arxiv.org/pdf/2406.06512

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel