Evaluation von SAM 2 für die Segmentierung medizinischer Bilder
SAM 2 verbessert die medizinische Bildsegmentierung für 2D- und 3D-Datensätze.
― 7 min Lesedauer
Inhaltsverzeichnis
- Datensammlung
- Methodik
- Bewertungseinstellungen
- Auswahl des anfänglichen Rahmens
- Ausbreitungsrichtung
- Eingabesimulation
- Auswahl der Vorhersagen
- Interaktive Segmentierung
- Ergebnisse
- Segmentierung von Einzelbildern in 2D
- Segmentierung von Mehrfachbildern in 3D
- Vergleiche mit anderen Methoden
- Diskussion
- Fazit
- Originalquelle
- Referenz Links
Die Segmentierung medizinischer Bilder ist wichtig für die Diagnose von Krankheiten und die Analyse klinischer Daten. Trotz der Fortschritte in der medizinischen Bildgebungstechnologie ist die Segmentierung dieser Bilder nach wie vor schwierig. Diese Schwierigkeit entsteht hauptsächlich aus dem Bedarf an vielen manuellen Datenbeschriftungen und der komplexen Natur medizinischer Bilder.
Ein neues Tool namens Segment Anything Model (SAM) hilft, diese Herausforderungen anzugehen. SAM kann verschiedene Objekte in Bildern mithilfe von Eingaben segmentieren, was den Aufwand für umfangreiche manuelle Beschriftungen erheblich reduziert. Es gab Bestrebungen, SAM für spezifische Aufgaben zu verbessern, was eine bessere Leistung als traditionelle Segmentierungsmethoden gezeigt hat. Allerdings hat sich SAM zunächst auf 2D-Bilder konzentriert, was seine Anwendung in Situationen, in denen ein 3D-Verständnis erforderlich ist, einschränkt.
Kürzlich wurde eine neue Version namens SAM 2 eingeführt. Diese neue Version kann mit Videos arbeiten, was neue Möglichkeiten eröffnet, sie auf 3D-medizinische Bilder anzuwenden, eine wichtige Aufgabe im Bereich der medizinischen Bildgebung. Dieser Artikel beschäftigt sich damit, wie SAM 2 abschneidet, wenn es darum geht, sowohl 2D- als auch 3D-medizinische Bilder zu segmentieren.
Datensammlung
In unserer Studie haben wir 21 Datensätze aus der medizinischen Bildgebung gesammelt, die verschiedene Arten von Bildern umfassen. Dazu gehören chirurgische Videos, gängige 3D-Bildgebungstechniken wie Computertomographie (CT), Magnetresonanztomographie (MRT) und Positronen-Emissions-Tomographie (PET) sowie 2D-Bildgebungsverfahren wie Röntgen und Ultraschall.
Wir haben SAM 2 auf zwei Arten getestet:
- Bei der ersten Methode haben wir Eingaben für eine oder wenige ausgewählte Schnitte von 3D-Bildern gegeben.
- Die zweite Methode beinhaltete, Eingaben für jeden Schnitt bereitzustellen. Die erste Methode gilt nur für Videos und 3D-Bilder, während die zweite Methode für alle Datensätze geeignet ist.
Unsere Ergebnisse deuten darauf hin, dass SAM 2 in Bezug auf einzelne 2D-Bilder ähnlich wie das Original SAM abschneidet. Allerdings variiert die Leistung bei 3D-Bildern je nach Faktoren wie den ausgewählten Schnitten zur Annotation, wie das Modell diese Schnitte verarbeitet und den Vorhersagen, die im Prozess verwendet werden.
Methodik
Um die Effektivität von SAM 2 zu bewerten, haben wir unseren Ansatz in mehrere Teile unterteilt:
Bewertungseinstellungen
Wir haben SAM 2 in zwei Hauptsettings bewertet: Segmentierung von Einzelbildern in 2D und Segmentierung von Mehrfachbildern in 3D.
Segmentierung von Einzelbildern in 2D: In diesem Setting haben wir getestet, wie gut SAM 2 einzelne 2D-Bilder segmentieren kann. Wir haben während dieser Bewertung vier verschiedene Eingabemethoden verwendet, um zu sehen, wie effektiv sie waren, um genaue Segmentierungen zu erreichen.
Segmentierung von Mehrfachbildern in 3D: Hier haben wir untersucht, wie SAM 2 Bilder verarbeiten kann, die in einer Reihe präsentiert werden, z. B. ein Video oder mehrere Schnitte eines 3D-Bildes. Dieses Setting ermöglicht es uns zu sehen, wie gut das Modell Segmente vorhersagen kann, die über direkt annotierte Schnitte hinausgehen.
Auswahl des anfänglichen Rahmens
Bei der Arbeit mit Videos wird normalerweise ein anfänglicher Rahmen gewählt, um einen Ausgangspunkt für die Segmentierung zu bieten. In typischen Fällen wird der erste Rahmen ausgewählt, aber das könnte in der 3D-medizinischen Bildgebung weniger effektiv sein, da das erste Erscheinen eines Objekts variieren kann. Wir haben vier verschiedene Strategien in Betracht gezogen, um den Startrahmen auszuwählen:
- Den ersten Schnitt auswählen, in dem das Objekt erscheint.
- Den Schnitt wählen, der den auffälligsten Teil des Objekts zeigt.
- Den Schnitt auswählen, der die grösste Fläche des Objekts hat.
- Drei Schnitte gleichmässig über das Volumen verteilen.
Ausbreitungsrichtung
Nachdem wir den anfänglichen Schnitt ausgewählt haben, besteht der nächste Schritt darin, Informationen zu propagieren, um andere Schnitte vorherzusagen. Wir haben zwei Methoden dafür untersucht:
- Vorwärtspropagation: Hier beginnen wir mit dem ausgewählten Schnitt und bewegen uns vorwärts durch das Volumen.
- Bidirektionale Propagation: Diese Strategie beginnt mit dem annotierten Schnitt, indem zuerst rückwärts und dann vorwärts gearbeitet wird.
Eingabesimulation
Wir haben auch in Betracht gezogen, wie Eingaben simuliert werden können, wenn Segmente identifiziert werden müssen. Wir haben mehrere Modi für die Bereitstellung von Eingaben angewendet, darunter:
- Punkt-Eingaben an bestimmten Stellen des Objekts.
- Box-Eingaben, die das Objekt umfassen.
- Eingabe von Ground-Truth-Masken als Eingaben.
Auswahl der Vorhersagen
Beim Segmentieren medizinischer Bilder ist es oft hilfreich, mehrere potenzielle Vorhersagen für jedes Objekt zu haben. SAM 2 verwendet verschiedene Strategien zur Auswahl, welche Vorhersage verwendet werden soll, wie die Auswahl der, die am zuversichtlichsten scheint oder einfach die erste Ausgabe, die erzeugt wurde.
Interaktive Segmentierung
Interaktive Segmentierung umfasst die Verfeinerung von Vorhersagen basierend auf Benutzerinteraktionen. In unserem Setup haben wir zwei Szenarien für die interaktive Segmentierung bereitgestellt:
- Offline-Bewertung: Benutzer können Segmente mehrere Male überprüfen, bevor sie Korrekturen vornehmen.
- Online-Bewertung: Benutzer treffen Entscheidungen in Echtzeit, während das Video läuft.
Ergebnisse
Segmentierung von Einzelbildern in 2D
In unserer Bewertung der Segmentierungsleistung von SAM 2 für Einzelbilder zeigten die Ergebnisse, dass SAM 2 weitgehend mit seinem Vorgänger vergleichbar ist, auch wenn es von Datensatz zu Datensatz Variationen gibt. Zum Beispiel erzielte das Modell gute Ergebnisse bei den Röntgendatensätzen, hatte jedoch Schwierigkeiten mit den MRT-Datensätzen.
Wir stellten fest, dass Box-Eingaben im Allgemeinen zu einer besseren Leistung als Punkt-Eingaben führten. Interessanterweise verbesserte das blosse Hinzufügen von mehr Punkt-Eingaben nicht immer die Genauigkeit. In vielen medizinischen Datensätzen sind die Zielobjekte normalerweise verbunden, sodass zusätzliche Eingaben manchmal eher Verwirrung als Klarheit bringen können.
Segmentierung von Mehrfachbildern in 3D
Bei der Untersuchung der 3D-Leistung von SAM 2 stellten wir signifikante Unterschiede fest, je nachdem, wie wir unsere experimentellen Konfigurationen einstellten. Die durchschnittliche Leistung zeigte, dass die bidirektionale Propagation die Vorwärtspropagation konstant übertraf. Diese Verbesserung war besonders deutlich, als Schnitte mit auffälligen Objekten ausgewählt wurden.
Die Strategien zur Auswahl, welchen Vorhersagen man vertrauen sollte, beeinflussten ebenfalls die Gesamtergebnisse. In Fällen, in denen Punkt-Eingaben verwendet wurden, führte die Auswahl der anfänglichen Vorhersage oft zu besseren Ergebnissen im Vergleich zur Abhängigkeit von der zuversichtlichsten Option.
Vergleiche mit anderen Methoden
SAM 2 wurde auch mit anderen Modellen verglichen, die sich auf die 3D-medizinische Bildgebung konzentrieren. Insgesamt zeigte es eine überlegene Leistung im Vergleich zu Modellen, die speziell für 3D-Aufgaben entwickelt wurden. Die einzigartige Struktur des Speicherbank von SAM 2 ermöglichte es, frühere Vorhersagen effektiv zu nutzen, was wesentlich zu seiner Genauigkeit beitrug.
Diskussion
Die Ergebnisse aus unseren Experimenten mit SAM 2 zeigen mehrere wichtige Erkenntnisse:
Eingabesstrategie: Klare Eingaben, insbesondere Box-Eingaben, führen in der Regel zu besseren Ergebnissen als Punkt-Eingaben sowohl in 2D- als auch in 3D-Settings.
Auswahl des Rahmens ist wichtig: Der anfängliche Schnitt, der zur Annotation ausgewählt wird, kann die Ergebnisse erheblich beeinflussen. Das Auswählen von Schnitten mit erheblichen Teilen des interessierenden Objekts führt in der Regel zu einer besseren Leistung.
Ausbreitungsansätze: Bidirektionale Propagation ist im Allgemeinen effektiver, insbesondere im Kontext der 3D-Bildgebung.
Menschliche Interaktion: Interaktive Segmentierung kann die Ergebnisse erheblich verbessern, insbesondere wenn Benutzer die Flexibilität haben, Vorhersagen basierend auf visuellen Rückmeldungen zu korrigieren.
Fazit
Diese Studie untersucht die Fähigkeiten des Segment Anything Model 2 in der Segmentierung medizinischer Bilder. Durch Tests mit sowohl 2D- als auch 3D-Datensätzen haben wir festgestellt, dass SAM 2 zwar erheblich fortschrittlicher als sein Vorgänger ist, seine Leistung jedoch stark von den Methoden zur Eingabe, der Auswahl des anfänglichen Rahmens und dem Ansatz zur Propagation beeinflusst wird.
Die Fortschritte, die mit SAM 2 erzielt wurden, stellen einen grundlegenden Schritt in Richtung einer effizienteren und effektiveren Segmentierung in der medizinischen Bildgebung dar, obwohl weitere Verbesserungen und Verfeinerungen erforderlich sein könnten, um seine Anwendung in klinischen Umgebungen vollständig zu optimieren. Zukünftige Bemühungen könnten sich darauf konzentrieren, die Gedächtnisstrategien innerhalb von SAM 2 zu verbessern und zu verfeinern, wie das Modell komplexe medizinische Bilder versteht und verarbeitet.
Insgesamt hat SAM 2 grosses Potenzial gezeigt, um einen Prozess zu vereinfachen, der traditionell sehr arbeitsintensiv war, und bringt Hoffnung auf eine bessere, schnellere und genauere Segmentierung in der medizinischen Bildgebung.
Titel: Segment anything model 2: an application to 2D and 3D medical images
Zusammenfassung: Segment Anything Model (SAM) has gained significant attention because of its ability to segment various objects in images given a prompt. The recently developed SAM 2 has extended this ability to video inputs. This opens an opportunity to apply SAM to 3D images, one of the fundamental tasks in the medical imaging field. In this paper, we extensively evaluate SAM 2's ability to segment both 2D and 3D medical images by first collecting 21 medical imaging datasets, including surgical videos, common 3D modalities such as computed tomography (CT), magnetic resonance imaging (MRI), and positron emission tomography (PET) as well as 2D modalities such as X-ray and ultrasound. Two evaluation settings of SAM 2 are considered: (1) multi-frame 3D segmentation, where prompts are provided to one or multiple slice(s) selected from the volume, and (2) single-frame 2D segmentation, where prompts are provided to each slice. The former only applies to videos and 3D modalities, while the latter applies to all datasets. Our results show that SAM 2 exhibits similar performance as SAM under single-frame 2D segmentation, and has variable performance under multi-frame 3D segmentation depending on the choices of slices to annotate, the direction of the propagation, the predictions utilized during the propagation, etc. We believe our work enhances the understanding of SAM 2's behavior in the medical field and provides directions for future work in adapting SAM 2 to this domain. Our code is available at: https://github.com/mazurowski-lab/segment-anything2-medical-evaluation.
Autoren: Haoyu Dong, Hanxue Gu, Yaqian Chen, Jichen Yang, Yuwen Chen, Maciej A. Mazurowski
Letzte Aktualisierung: 2024-08-22 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2408.00756
Quell-PDF: https://arxiv.org/pdf/2408.00756
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.