Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Elektrotechnik und Systemtechnik# Bild- und Videoverarbeitung# Computer Vision und Mustererkennung

Evaluierung von Deep-Learning-Modellen in der medizinischen Bildgebung

Eine Studie darüber, wie Deep-Learning-Modelle mit Grössenänderungen von Bildern in der medizinischen Diagnostik umgehen.

― 5 min Lesedauer


Deep Learning in derDeep Learning in dermedizinischen Bildanalyseunterschiedlichen Bildgrössen bewerten.Die Leistung von Modellen bei
Inhaltsverzeichnis

Die medizinische Bildanalyse nutzt Technologie, um Ärzten bei der Diagnose und Behandlung von Krankheiten zu helfen, indem sie Bilder des Körpers anschaut. Dazu gehören Bilder, die mit verschiedenen Methoden wie Röntgen, MRT und Biopsien erstellt werden. Eine Schlüsseltechnologie, die oft für diese Aufgabe verwendet wird, ist das Deep Learning, eine Art künstlicher Intelligenz, die aus Daten lernt.

Insbesondere sind Convolutional Neural Networks (CNNs) beliebt für die Analyse medizinischer Bilder. Sie funktionieren meistens gut, können aber Schwierigkeiten haben, wenn die Vergrösserung oder Grösse der Bilder zwischen Training und Testen variiert. Das bedeutet, wenn ein Modell auf Bildern einer bestimmten Grösse trainiert wird, könnte es bei Bildern einer anderen Grösse nicht gut abschneiden. Das könnte zu Fehlern in der Diagnose führen, was in medizinischen Umgebungen problematisch ist.

Das Problem mit Grössenänderungen

Das Training von Deep-Learning-Modellen auf Bildern unterschiedlicher Grössen kann zu Leistungsproblemen führen. Wenn ein CNN auf Bildern einer bestimmten Grösse trainiert wird und dann an einer anderen Grösse getestet wird, sind die Ergebnisse möglicherweise nicht zuverlässig. Das ist ein grosses Problem, wenn es darum geht, Bilder von Biopsien zu analysieren, da Ärzte oft mit Bildern in verschiedenen Grössen arbeiten.

Es gibt zwar einige Methoden, die die Leistung von CNNs durch Grössenänderungen während des Trainings leicht verbessern, aber es ist wichtig, nach Modellen zu suchen, die mit Grössenänderungen besser umgehen können. Das bedeutet, neue Deep-Learning-Methoden zu finden oder zu entwickeln, die Genauigkeit und Zuverlässigkeit unabhängig von der Vergrösserung der Bilder aufrechterhalten.

Verschiedene Deep-Learning-Modelle in der medizinischen Bildanalyse

Im Kontext dieses Problems wurden verschiedene Arten von Deep-Learning-Modellen bewertet, um zu sehen, wie sie mit unterschiedlichen Vergrösserungsstufen umgehen. Dazu gehörten CNNs, die traditionelle Modelle für die Bildanalyse sind, sowie neuere Modelle wie Vision Transformers und Token Mixer.

CNN-basierte Modelle

CNN-Modelle wie ResNet und MobileNet werden oft in der medizinischen Bildanalyse eingesetzt. Diese Modelle lernen, indem sie Muster innerhalb von Bildern analysieren. Allerdings können sie Schwierigkeiten haben, wenn sie mit Bildern unterschiedlicher Grössen konfrontiert werden. Daher liefern sie möglicherweise nicht immer genaue Ergebnisse in einer realen klinischen Umgebung.

Vision Transformers

Vision Transformers (ViT) sind ein anderer Ansatz. Sie unterscheiden sich von CNNs, indem sie sich auf die Beziehungen zwischen Bildteilen konzentrieren, anstatt nur auf Muster. Auch wenn sie in bestimmten Szenarien Vorteile haben, stehen sie immer noch vor Herausforderungen bei unterschiedlichen Bildgrössen.

Token Mixer

Token Mixer sind eine neuere Art von Modell, die Aspekte sowohl von CNNs als auch von Transformers kombiniert. Sie wurden entwickelt, um Bilddaten flexibler zu handhaben. Einige Beispiele sind FNet, ConvMixer und MLP-Mixer. Diese Modelle können potenziell bessere Leistungen bieten, wenn sich die Grösse der Bilder ändert, da sie verschiedene Techniken verwenden, um Informationen aus verschiedenen Teilen der Bilder zu mischen.

Die Studie und ihr Datensatz

Die Studie untersuchte die Robustheit dieser verschiedenen Modelle anhand eines weithin anerkannten Datensatzes, der als BreakHis bekannt ist. Dieser Datensatz enthält Biopsiebilder von Brustgewebe in unterschiedlichen Vergrösserungen: 40X, 100X, 200X und 400X. Es sind Bilder von gutartigen und bösartigen Tumoren enthalten, was ihn zu einem guten Benchmark für die Testleistung von Modellen macht, wegen seiner Vielfalt.

Der Datensatz umfasst insgesamt 7.909 Bilder, die von 82 Patienten gesammelt wurden. Die Daten sind leicht unausgewogen, das heisst, es gibt mehr Bilder von bösartigen Fällen als von gutartigen. Diese Ungleichheit kann beeinflussen, wie gut ein Modell lernt und funktioniert.

Ziel war es, zu bewerten, wie gut diese verschiedenen Deep-Learning-Modelle funktionieren, wenn sie auf einer Vergrösserungsstufe trainiert und an anderen getestet werden. Dies hilft festzustellen, welche Modelle besser darin sind, die Genauigkeit trotz Änderungen in der Vergrösserung aufrechtzuerhalten.

Bewertung verschiedener Modelle

Bei der Bewertung der Modelle wurden verschiedene Konfigurationen getestet. Für CNNs wurden Modelle wie ResNet-18, ResNet-34 und MobileNet berücksichtigt. Für transformerbasierte Ansätze wurden verschiedene Versionen von Vision Transformers und Swin Transformers evaluiert. Auch Token Mixer wie FNet, ConvMixer und MLP-Mixer wurden getestet.

Jedes Modell wurde auf Bildern einer bestimmten Vergrösserungsstufe trainiert und dann auf Bildern aus verschiedenen Vergrösserungsstufen getestet, um zu sehen, wie genau sie abschneiden. Der Hauptfokus lag darauf, herauszufinden, welche Modelle in allen getesteten Szenarien stabile und zuverlässige Ergebnisse lieferten.

Ergebnisse und Erkenntnisse

Die Ergebnisse zeigten, dass WaveMix, ein Typ von Token Mixer-Modell, besonders stark darin war, die Genauigkeit unabhängig von den Vergrösserungsunterschieden zwischen Training und Testen aufrechtzuerhalten. Es lieferte konstant gute Ergebnisse und fiel bei verschiedenen Bedingungen nicht unter 87 % Genauigkeit.

Im Vergleich dazu zeigten andere Modelle wie ResNet und ConvMixer grössere Schwankungen in der Leistung. Auch wenn sie gut abschneiden können, wenn die Trainings- und Testvergrösserungen gleich sind, haben sie Schwierigkeiten, wenn sich die Vergrösserung ändert.

Die Erkenntnisse zeigten auch, dass Token Mixer in etwa gleichauf mit Transformers abschneiden, während CNNs im Allgemeinen besser abschnitten als Transformers. Das unterstreicht die Bedeutung, ein Modell zu finden, das in klinischen Situationen, in denen die Bildvergrösserung variieren kann, konstant arbeitet.

Fazit

Zusammenfassend hat die Studie die Fähigkeit mehrerer Deep-Learning-Modelle zur Analyse medizinischer Bilder bewertet, mit einem Fokus darauf, wie gut sie mit Änderungen in der Vergrösserung umgehen. Die Ergebnisse hoben die Robustheit des WaveMix-Modells hervor, das die Genauigkeit über alle getesteten Vergrösserungen hinweg stabil hielt.

Diese Ergebnisse sind entscheidend für zukünftige Forschungen und Anwendungen in der medizinischen Bildanalyse. Die Gewährleistung zuverlässiger Leistungen dieser Modelle kann die diagnostische Genauigkeit in realen Situationen erheblich beeinflussen und zu besseren Ergebnissen für die Patienten führen. Während sich die Technologie in diesem Bereich weiterentwickelt, bleibt das Ziel, Modelle zu schaffen, die konstant mit der Variabilität umgehen können, die oft in medizinischen Bildern zu sehen ist, um den Diagnoseprozess zuverlässiger und effektiver zu gestalten.

Originalquelle

Titel: Magnification Invariant Medical Image Analysis: A Comparison of Convolutional Networks, Vision Transformers, and Token Mixers

Zusammenfassung: Convolution Neural Networks (CNNs) are widely used in medical image analysis, but their performance degrade when the magnification of testing images differ from the training images. The inability of CNNs to generalize across magnification scales can result in sub-optimal performance on external datasets. This study aims to evaluate the robustness of various deep learning architectures in the analysis of breast cancer histopathological images with varying magnification scales at training and testing stages. Here we explore and compare the performance of multiple deep learning architectures, including CNN-based ResNet and MobileNet, self-attention-based Vision Transformers and Swin Transformers, and token-mixing models, such as FNet, ConvMixer, MLP-Mixer, and WaveMix. The experiments are conducted using the BreakHis dataset, which contains breast cancer histopathological images at varying magnification levels. We show that performance of WaveMix is invariant to the magnification of training and testing data and can provide stable and good classification accuracy. These evaluations are critical in identifying deep learning architectures that can robustly handle changes in magnification scale, ensuring that scale changes across anatomical structures do not disturb the inference results.

Autoren: Pranav Jeevan, Nikhil Cherian Kurian, Amit Sethi

Letzte Aktualisierung: 2023-02-22 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2302.11488

Quell-PDF: https://arxiv.org/pdf/2302.11488

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel