Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Maschinelles Lernen# Computer Vision und Mustererkennung

Verbesserung der medizinischen Bildklassifizierung mit aktivem Label-Reinigen

Eine neue Methode verbessert die Klassifikation trotz rauschhaften Labels und unausgewogenen Datensätzen.

― 5 min Lesedauer


Umgang mit ungenauenUmgang mit ungenauenLabels in dermedizinischen BildgebungKlassifizierung medizinischer Bilder.Eine Methode zur robusten
Inhaltsverzeichnis

Die Klassifikation medizinischer Bilder kann bei der Diagnose von Krankheiten echt helfen. Aber oft gibt's Probleme mit falschen Labels, was das Trainieren genauer Modelle schwierig macht. Das betrifft besonders Krankheiten, die selten sind und weniger Bilder haben. In diesem Zusammenhang können rauschende oder falsche Labels zu einem Leistungsabfall des Modells führen. In diesem Artikel wird eine Methode vorgestellt, die darauf abzielt, das Training von Klassifikatoren bei rauschenden Labels und unausgewogenen Datensätzen zu verbessern.

Das Problem der rauschenden Labels

In der realen Welt können viele Faktoren zu rauschenden Labels in medizinischen Bildern führen. Schlechte Annotationsqualität, automatisierte Label-Generierung oder auch das Verlassen auf irreführende Labels können Fehler einführen. Dieses Rauschen kann den Lernprozess verzerren, bei dem ein Modell versucht, die Trainingsdaten anzupassen, und diese Verzerrung kann seine Fähigkeit reduzieren, gut mit neuen, unbekannten Daten umzugehen.

In medizinischen Datensätzen können die Bedingungen unterschiedlich häufig vorkommen. Einige Krankheiten haben viele verfügbare Bilder, während andere viel weniger haben. Zum Beispiel könnte eine seltene Hautkrankheit nur eine kleine Anzahl von Bildern im Datensatz haben, was es dem Modell schwer macht, effektiv darüber zu lernen. Wenn man mit solchen unausgewogenen Daten arbeitet, haben traditionelle Methoden, die sich auf rauschende Labels stützen, oft Schwierigkeiten, die Minderheitsklassen richtig zu erkennen.

Bedeutung von sauberen Labels

Für präzise Vorhersagen ist es entscheidend, saubere Labels zu bekommen. Ein sauberes Label ist einfach ein korrektes Label, das ein Bild genau beschreibt. Wenn das Modell mit rauschenden Labels trainiert wird, kann es wichtige Bilder falsch klassifizieren, besonders solche aus Minderheitsklassen. Das bedeutet, dass spezielle Strategien nötig sind, um diese Labels zu identifizieren und zu bereinigen, damit das Modell seine Leistung schrittweise verbessern kann.

Aktiver Ansatz zur Label-Bereinigung

Um das Problem der rauschenden Labels anzugehen, wird ein zweiphasiger Ansatz empfohlen. Die erste Phase konzentriert sich auf robustes Training, selbst wenn rauschende Labels vorhanden sind. In der zweiten Phase geht es darum, diese Labels aktiv zu bereinigen. Durch die Kombination dieser beiden Phasen kann die Methode die Klassifikationsleistung erheblich verbessern.

Phase 1: Lernen mit rauschenden Labels

In der Anfangsphase wird das Modell unter Berücksichtigung des Rauschens in den Labels trainiert. Die Idee ist, zu lernen, welche Proben wahrscheinlich sauber und welche rauschend sind. Das beinhaltet, die Labels nach ihrer Zuverlässigkeit zu trennen. Allerdings sind standardmässige Methoden oft überfordert, wenn es um unausgewogene Datensätze geht, da sie unterrepräsentierte Proben fälschlicherweise als rauschend identifizieren könnten.

Phase 2: Aktive Label-Bereinigung

Nach der ersten Phase ist der nächste Schritt, die rauschenden Labels zu bereinigen. Ein Annotationsbudget wird festgelegt, das begrenzt, wie viele Proben umlabelt werden können. Ein aktiver Lernsampler wird dann verwendet, um die wichtigsten Proben zur Bereinigung auszuwählen. Indem man sich während des Umlabelungsprozesses auf entscheidende Proben konzentriert, kann das Modell erheblich verbessert werden. Die ausgewählten Proben werden dann an Experten zur Umlabelung geschickt, und das Modell wird entsprechend aktualisiert.

Umgang mit Klassenungleichgewicht

Die Herausforderung des Klassenungleichgewichts kommt ins Spiel, wenn bestimmte Klassen deutlich weniger Proben haben. Zum Beispiel könnte in einem Datensatz mit mehreren Hautzuständen eine Bedingung deutlich weniger Bilder aufweisen als die anderen. Um sicherzustellen, dass das Modell effektiv lernt, sollten Strategien darauf abzielen, die Repräsentation der Klassen auszugleichen.

Varianz der Gradienten

Eine neuartige Technik, die in diesem Ansatz eingeführt wird, ist die Varianz der Gradienten (VOG). Während traditionelle Methoden sich auf den Verlust einer Probe verlassen, um ihren Status als sauber oder rauschend zu bestimmen, hilft VOG, die Veränderung der Gradienten über die Zeit zu analysieren. Das hilft, unterrepräsentierte Proben genauer zu identifizieren und sicherzustellen, dass Minderheitsklassen während des Trainingsprozesses erkannt werden.

Verwendete Datensätze

Die Wirksamkeit der vorgeschlagenen Methode wird anhand von zwei spezifischen Datensätzen gezeigt: ISIC-2019 und NCT-CRC-HE-100K. Der ISIC-2019-Datensatz enthält Bilder von Hautkrankheiten, während der NCT-CRC-HE-100K-Datensatz histopathologische Bilder enthält. Beide Datensätze weisen deutliche Klassenungleichgewichte auf, was eine geeignete Grundlage bietet, um zu testen, wie gut die Methode unter realen Bedingungen funktioniert.

ISIC-2019-Datensatz

Dieser Datensatz umfasst über 25.000 Bilder verschiedener Hautkrankheiten, die in Trainings-, Validierungs- und Testsets unterteilt sind. Die Verteilung unter den Klassen ist ungleich, was Herausforderungen beim Training von Klassifikatoren mit sich bringt. Das Ziel bleibt, sicherzustellen, dass das Modell effektiv über alle vertretenen Bedingungen lernt, trotz des Ungleichgewichts.

NCT-CRC-HE-100K-Datensatz

Der langgestreckte NCT-CRC-HE-100K-Datensatz ist eine weitere wichtige Datenquelle mit zahlreichen histopathologischen Bildern. Ähnlich wie ISIC-2019 leidet auch dieser Datensatz unter Klassenungleichgewicht, was eine gründliche Bewertung der vorgeschlagenen Methode und ihrer Fähigkeit ermöglicht, rauschende Labels effektiv zu verwalten.

Experimente und Ergebnisse

Um die Effektivität der vorgeschlagenen Methode zu validieren, wurden verschiedene Experimente durchgeführt. Die Leistung des aktiven Label-Bereinigungsansatzes wurde mit mehreren Basislinienmethoden verglichen.

Vergleich aktiven Lernens

Es wurden verschiedene aktive Lernstrategien getestet, darunter Zufallsstichproben und entropiebasierte Stichproben. Das Ziel war zu sehen, wie gut diese Strategien Proben zur Umlabelung auswählen und die Leistung des Modells verbessern konnten. Die Ergebnisse zeigten, dass es im Allgemeinen weniger effektiv war, mit einem Modell zu starten, das auf rauschenden Daten trainiert wurde, als mit sauberen Proben, die zunächst durch die vorgeschlagene Methode identifiziert wurden.

Fazit

Der vorgeschlagene zweiphasige Ansatz, der das Lernen mit rauschenden Labels und die aktive Label-Bereinigung kombiniert, zeigt signifikante Verbesserungen bei der Klassifikation medizinischer Bilder, besonders im Umgang mit rauschenden Labels und Klassenungleichgewicht. Durch effektives Umlabeln wichtiger Proben und den Einsatz innovativer Techniken wie der Varianz der Gradienten bietet die Methode einen praktischen Weg, die Robustheit von Klassifikatoren angesichts von Label-Rauschen zu verbessern.

Zusammenfassend sind die wichtigsten Erkenntnisse die Bedeutung sauberer Labels, die Effektivität aktiven Lernens bei der Bereinigung rauschender Labels und die Vorteile der Behandlung von Klassenungleichgewicht. Wenn man sich auf diese Bereiche konzentriert, kann die Klassifikation medizinischer Bilder genauer werden, was letztlich zu besseren Diagnosen und Behandlungen verschiedener Gesundheitszustände führt.

Originalquelle

Titel: Active Label Refinement for Robust Training of Imbalanced Medical Image Classification Tasks in the Presence of High Label Noise

Zusammenfassung: The robustness of supervised deep learning-based medical image classification is significantly undermined by label noise. Although several methods have been proposed to enhance classification performance in the presence of noisy labels, they face some challenges: 1) a struggle with class-imbalanced datasets, leading to the frequent overlooking of minority classes as noisy samples; 2) a singular focus on maximizing performance using noisy datasets, without incorporating experts-in-the-loop for actively cleaning the noisy labels. To mitigate these challenges, we propose a two-phase approach that combines Learning with Noisy Labels (LNL) and active learning. This approach not only improves the robustness of medical image classification in the presence of noisy labels, but also iteratively improves the quality of the dataset by relabeling the important incorrect labels, under a limited annotation budget. Furthermore, we introduce a novel Variance of Gradients approach in LNL phase, which complements the loss-based sample selection by also sampling under-represented samples. Using two imbalanced noisy medical classification datasets, we demonstrate that that our proposed technique is superior to its predecessors at handling class imbalance by not misidentifying clean samples from minority classes as mostly noisy samples.

Autoren: Bidur Khanal, Tianhong Dai, Binod Bhattarai, Cristian Linte

Letzte Aktualisierung: 2024-10-24 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.05973

Quell-PDF: https://arxiv.org/pdf/2407.05973

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel