Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico# Visione artificiale e riconoscimento di modelli

Migliorare la classificazione delle immagini mediche con la pulizia attiva delle etichette

Un nuovo metodo migliora la classificazione nonostante etichette rumorose e set di dati squilibrati.

― 5 leggere min


Affrontare le etichetteAffrontare le etichetterumore nel imaging medicorobusta delle immagini mediche.Un metodo per la classificazione
Indice

La classificazione delle immagini mediche può essere di grande aiuto nella diagnosi delle malattie. Tuttavia, spesso si presenta un problema di etichette errate, che può rendere difficile addestrare modelli accurati. Questo è particolarmente vero quando alcune malattie sono rare e hanno meno immagini. In questo contesto, avere Etichette Rumorose o errate può portare a un calo delle performance del modello. Questo articolo discute un metodo che si propone di migliorare l'addestramento dei classificatori in presenza di etichette rumorose e dataset sbilanciati.

Il Problema delle Etichette Rumorose

Nel mondo reale, molti fattori possono portare a etichette rumorose nelle immagini mediche. Annotazioni di bassa qualità, generazione automatica delle etichette, o anche il fatto di basarsi su etichette fuorvianti possono introdurre errori. Questo rumore può distorcere il processo di apprendimento, dove un modello cerca di adattarsi ai dati di addestramento, e questa distorsione può ridurre la sua capacità di funzionare bene su nuovi dati non visti.

Nei dataset medici, le condizioni possono variare in quanto a frequenza. Alcune malattie hanno molte immagini disponibili, mentre altre ne hanno molte meno. Per esempio, una condizione cutanea rara potrebbe avere solo un numero limitato di immagini nel dataset, rendendo difficile per il modello apprendere efficacemente. Quando si lavora con dati così sbilanciati, i metodi tradizionali che si basano su etichette rumorose potrebbero avere difficoltà a riconoscere correttamente le classi minoritarie.

Importanza delle Etichette Pulite

Per fare previsioni accurate, ottenere etichette pulite è fondamentale. Un'etichetta pulita è semplicemente un'etichetta corretta che descrive accuratamente un'immagine. Se il modello viene addestrato con etichette rumorose, potrebbe classificare in modo errato immagini importanti, soprattutto quelle delle classi minoritarie. Questo significa che sono necessarie strategie speciali per identificare e pulire queste etichette, permettendo al modello di migliorare gradualmente le sue performance.

Approccio Attivo di Pulizia delle Etichette

Per affrontare il problema delle etichette rumorose, si consiglia un approccio in due fasi. La prima fase si concentra su un addestramento robusto, anche quando si affrontano etichette rumorose. La seconda fase implica una pulizia attiva di queste etichette. Combinando queste due fasi, il metodo può migliorare significativamente le performance di classificazione.

Fase 1: Apprendimento con Etichette Rumorose

Nella fase iniziale, il modello viene addestrato tenendo conto del rumore presente nelle etichette. L'idea è di imparare quali campioni probabilmente sono puliti e quali sono rumorosi. Questo comporta la separazione delle etichette in base alla loro affidabilità. Tuttavia, i metodi standard spesso non funzionano bene quando si tratta di dataset sbilanciati, poiché possono identificare erroneamente campioni sotto-rappresentati come rumorosi.

Fase 2: Pulizia Attiva delle Etichette

Dopo la prima fase, il passo successivo è pulire le etichette rumorose. Viene impostato un budget di annotazione che limita quanti campioni possono essere rietichettati. Viene quindi utilizzato un campionatore di apprendimento attivo per selezionare i campioni più cruciali da pulire. Concentrandosi su campioni chiave durante il processo di rietichettatura, il modello può migliorare significativamente. I campioni selezionati vengono poi inviati a esperti per la rietichettatura, e il modello viene aggiornato di conseguenza.

Affrontare lo Sbilanciamento delle classi

La sfida dello sbilanciamento delle classi entra in gioco quando alcune classi hanno un numero di campioni molto inferiore. Per esempio, in un dataset contenente più condizioni cutanee, una condizione potrebbe avere un numero di immagini significativamente inferiore rispetto ad altre. Per garantire che il modello apprenda in modo efficace, le strategie dovrebbero concentrarsi sul bilanciamento della rappresentazione delle classi.

Varianza dei Gradienti

Una tecnica innovativa introdotta in questo approccio è la Varianza dei Gradienti (VOG). Mentre i metodi tradizionali possono basarsi sulla perdita di un campione per determinare il suo stato come pulito o rumoroso, la VOG aiuta ad analizzare il cambiamento nei gradienti nel tempo. Questo aiuta a identificare più accuratamente i campioni sotto-rappresentati e garantisce che le classi minoritarie vengano riconosciute durante il processo di addestramento.

Dataset Utilizzati

L'efficacia del metodo proposto è dimostrata utilizzando due dataset specifici: ISIC-2019 e NCT-CRC-HE-100K. Il dataset ISIC-2019 contiene immagini di malattie cutanee, mentre il dataset NCT-CRC-HE-100K include immagini di istopatologia. Entrambi i dataset mostrano significativi sbilanciamenti di classe, fornendo una base adeguata per testare quanto bene il metodo funzioni in situazioni reali.

Dataset ISIC-2019

Questo dataset comprende oltre 25.000 immagini di varie malattie cutanee, suddivise in set di addestramento, validazione e test. La distribuzione tra le classi è disomogenea, portando a sfide durante l'addestramento dei classificatori. L'obiettivo rimane quello di garantire che il modello apprenda efficacemente tutte le condizioni rappresentate nonostante lo sbilanciamento.

Dataset NCT-CRC-HE-100K

Il lungo dataset NCT-CRC-HE-100K è un'altra fonte di dati fondamentale, con numerose immagini di istopatologia. Simile a ISIC-2019, anche questo dataset soffre di sbilanciamento delle classi, consentendo una valutazione approfondita del metodo proposto e della sua capacità di gestire efficacemente etichette rumorose.

Esperimenti e Risultati

Per convalidare l'efficacia del metodo proposto, sono stati condotti vari esperimenti. Le performance dell'approccio di pulizia attiva delle etichette sono state confrontate con diversi metodi di riferimento.

Confronto con l'Apprendimento Attivo

Sono state testate diverse strategie di apprendimento attivo, tra cui campionamento casuale e campionamento basato sull'entropia. L'obiettivo era vedere quanto bene queste strategie potessero selezionare campioni per la rietichettatura e migliorare le performance del modello. I risultati hanno mostrato che iniziare con un modello addestrato su dati rumorosi era generalmente meno efficace rispetto all'addestramento iniziale con campioni puliti identificati tramite il metodo proposto.

Conclusione

L'approccio proposto in due fasi che combina l'apprendimento con etichette rumorose e la pulizia attiva delle etichette dimostra significativi miglioramenti nei compiti di classificazione delle immagini mediche, soprattutto nella gestione delle etichette rumorose e dello sbilanciamento delle classi. Rietichettando efficacemente campioni importanti e utilizzando tecniche innovative come la Varianza dei Gradienti, il metodo offre un modo pratico per migliorare la robustezza dei classificatori di fronte al rumore delle etichette.

In sintesi, i punti chiave includono l'importanza delle etichette pulite, l'efficacia dell'apprendimento attivo nella pulizia delle etichette rumorose e i benefici di affrontare lo sbilanciamento delle classi. Concentrandosi su queste aree, la classificazione delle immagini mediche può diventare più accurata, aiutando in ultima analisi a una migliore diagnosi e trattamento di varie condizioni di salute.

Fonte originale

Titolo: Active Label Refinement for Robust Training of Imbalanced Medical Image Classification Tasks in the Presence of High Label Noise

Estratto: The robustness of supervised deep learning-based medical image classification is significantly undermined by label noise. Although several methods have been proposed to enhance classification performance in the presence of noisy labels, they face some challenges: 1) a struggle with class-imbalanced datasets, leading to the frequent overlooking of minority classes as noisy samples; 2) a singular focus on maximizing performance using noisy datasets, without incorporating experts-in-the-loop for actively cleaning the noisy labels. To mitigate these challenges, we propose a two-phase approach that combines Learning with Noisy Labels (LNL) and active learning. This approach not only improves the robustness of medical image classification in the presence of noisy labels, but also iteratively improves the quality of the dataset by relabeling the important incorrect labels, under a limited annotation budget. Furthermore, we introduce a novel Variance of Gradients approach in LNL phase, which complements the loss-based sample selection by also sampling under-represented samples. Using two imbalanced noisy medical classification datasets, we demonstrate that that our proposed technique is superior to its predecessors at handling class imbalance by not misidentifying clean samples from minority classes as mostly noisy samples.

Autori: Bidur Khanal, Tianhong Dai, Binod Bhattarai, Cristian Linte

Ultimo aggiornamento: 2024-10-24 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.05973

Fonte PDF: https://arxiv.org/pdf/2407.05973

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili