Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Elaborazione di immagini e video# Visione artificiale e riconoscimento di modelli

Valutare i modelli di deep learning nell'imaging medico

Uno studio su come i modelli di deep learning gestiscono le variazioni di dimensione delle immagini nella diagnostica medica.

― 5 leggere min


Deep LearningDeep Learningnell'Analisi delleImmagini Medichediverse dimensioni delle immagini.Valutare le prestazioni dei modelli con
Indice

L'analisi delle immagini mediche usa la tecnologia per aiutare i dottori a diagnosticare e curare malattie guardando le immagini del corpo. Questo include foto fatte con vari metodi come raggi X, risonanze magnetiche e biopsie. Una tecnologia chiave spesso usata per questo compito è il deep learning, un tipo di intelligenza artificiale che impara dai dati.

In particolare, le Convolutional Neural Networks (CNN) sono popolari per analizzare immagini mediche. Funzionano bene nella maggior parte dei casi, ma possono avere difficoltà quando il ingrandimento, o la dimensione, delle immagini cambia tra l'addestramento e il test. Questo significa che se un modello è addestrato su immagini di una certa dimensione, potrebbe non funzionare bene su immagini di dimensioni diverse. Questo potrebbe portare a errori nella diagnosi, che è un problema in ambito medico.

Il Problema con le Variazioni di Ingrandimento

Addestrare modelli di deep learning su immagini di dimensioni diverse può portare a problemi di prestazioni. Ad esempio, se una CNN è addestrata su immagini di una dimensione specifica e poi testata su un'altra dimensione, i risultati potrebbero non essere affidabili. Questo è particolarmente preoccupante quando si analizzano immagini da biopsie, poiché i dottori spesso si trovano a gestire immagini di varie dimensioni.

Anche se esistono alcuni metodi per migliorare leggermente le prestazioni delle CNN cambiando le dimensioni delle immagini durante l'addestramento, è fondamentale cercare modelli che possano gestire meglio i cambiamenti di dimensione. Questo significa trovare o sviluppare nuovi metodi di deep learning che mantengano precisione e affidabilità qualunque sia l'ingrandimento delle immagini.

Diversi Modelli di Deep Learning nell'Analisi delle Immagini Mediche

Nel contesto di questo problema, sono stati valutati vari tipi di modelli di deep learning per vedere come gestiscono i diversi livelli di ingrandimento. Questo include le CNN, che sono modelli tradizionali per l'analisi delle immagini, così come modelli più recenti, come Vision Transformers e token mixers.

Modelli Basati su CNN

I modelli CNN come ResNet e MobileNet sono comunemente usati nell'analisi delle immagini mediche. Questi modelli imparano analizzando i modelli all'interno delle immagini. Tuttavia, possono avere difficoltà quando si trovano di fronte a immagini di dimensioni diverse. Quindi, potrebbero non dare sempre risultati precisi quando usati in un contesto clinico reale.

Vision Transformers

I Vision Transformers (ViT) sono un altro approccio. Si differenziano dalle CNN perché si concentrano sulle relazioni tra pezzi dell'immagine invece che solo su modelli. Anche se possono avere vantaggi in scenari specifici, affrontano ancora sfide con dimensioni delle immagini variabili.

Token Mixers

I token mixers sono un tipo di modello più recente che combina aspetti sia delle CNN che dei transformers. Sono progettati per gestire i dati delle immagini in modo più flessibile. Alcuni esempi sono FNet, ConvMixer e MLP-Mixer. Questi modelli possono potenzialmente offrire migliori prestazioni quando le immagini cambiano dimensione, poiché usano diverse tecniche per mescolare le informazioni da varie parti delle immagini.

Lo Studio e il Suo Dataset

Lo studio ha esaminato la robustezza di questi diversi modelli utilizzando un dataset ampiamente riconosciuto noto come BreakHis. Questo dataset contiene immagini di biopsie di tessuti mammari a diversi ingrandimenti: 40X, 100X, 200X e 400X. Include immagini di tumori benigni e maligni, il che lo rende un buon punto di riferimento per testare le prestazioni dei modelli grazie alla sua varietà.

Il dataset include un totale di 7.909 immagini raccolte da 82 pazienti. I dati sono leggermente sbilanciati, il che significa che ci sono più immagini di casi maligni rispetto a quelli benigni. Questo sbilanciamento può influenzare il modo in cui un modello impara e si comporta.

L'obiettivo era valutare quanto bene lavorano questi vari modelli di deep learning quando sono addestrati su un livello di ingrandimento e testati su altri. Questo aiuta a indicare quali modelli siano migliori nel mantenere precisione nonostante i cambiamenti nell'ingrandimento.

Valutazione dei Diversi Modelli

Nella valutazione dei modelli, sono state testate diverse configurazioni. Per le CNN, sono stati considerati modelli come ResNet-18, ResNet-34 e MobileNet. Per gli approcci basati su transformer, sono state valutate diverse versioni di Vision Transformers e Swin Transformers. I token mixers, inclusi FNet, ConvMixer e MLP-Mixer, sono stati anch'essi testati.

Ogni modello è stato addestrato su immagini a un specifico livello di ingrandimento, quindi testato su immagini di diversi livelli di ingrandimento per vedere quanto accuratamente si comportavano. L'obiettivo principale era trovare quali modelli fornissero risultati stabili e affidabili in tutti gli scenari testati.

Risultati e Scoperte

I risultati hanno mostrato che WaveMix, un tipo di modello di token mixer, era particolarmente forte nel mantenere l'accuratezza indipendentemente dalle differenze di ingrandimento tra l'addestramento e il test. Ha costantemente ottenuto buoni risultati e non è sceso sotto l'87% di accuratezza in diverse condizioni.

In confronto, altri modelli come ResNet e ConvMixer hanno mostrato maggiore fluttuazione nelle prestazioni. Anche se potrebbero funzionare bene quando gli ingrandimenti di addestramento e test sono gli stessi, faticano quando l'ingrandimento cambia.

Le scoperte hanno anche rivelato che i token mixers hanno performato alla pari con i transformers, mentre le CNN generalmente hanno superato i transformers. Questo sottolinea l'importanza di trovare un modello che funzioni in modo coerente in situazioni cliniche in cui l'ingrandimento delle immagini può variare.

Conclusione

In sintesi, lo studio ha valutato la capacità di diversi modelli di deep learning di analizzare immagini mediche, concentrandosi su quanto bene gestiscono le variazioni di ingrandimento. I risultati hanno messo in evidenza la robustezza del modello WaveMix, che ha mantenuto un'accuratezza stabile in tutti gli ingrandimenti testati.

Questi risultati sono fondamentali per la futura ricerca e applicazione nell'analisi delle immagini mediche. Garantire prestazioni affidabili di questi modelli può avere un impatto significativo sulla precisione diagnostica in situazioni reali, portando a migliori risultati per i pazienti. Man mano che la tecnologia in questo campo si sviluppa, l'obiettivo rimane quello di creare modelli che possano gestire costantemente la variabilità spesso vista nelle immagini mediche, rendendo il processo diagnostico più affidabile ed efficace.

Fonte originale

Titolo: Magnification Invariant Medical Image Analysis: A Comparison of Convolutional Networks, Vision Transformers, and Token Mixers

Estratto: Convolution Neural Networks (CNNs) are widely used in medical image analysis, but their performance degrade when the magnification of testing images differ from the training images. The inability of CNNs to generalize across magnification scales can result in sub-optimal performance on external datasets. This study aims to evaluate the robustness of various deep learning architectures in the analysis of breast cancer histopathological images with varying magnification scales at training and testing stages. Here we explore and compare the performance of multiple deep learning architectures, including CNN-based ResNet and MobileNet, self-attention-based Vision Transformers and Swin Transformers, and token-mixing models, such as FNet, ConvMixer, MLP-Mixer, and WaveMix. The experiments are conducted using the BreakHis dataset, which contains breast cancer histopathological images at varying magnification levels. We show that performance of WaveMix is invariant to the magnification of training and testing data and can provide stable and good classification accuracy. These evaluations are critical in identifying deep learning architectures that can robustly handle changes in magnification scale, ensuring that scale changes across anatomical structures do not disturb the inference results.

Autori: Pranav Jeevan, Nikhil Cherian Kurian, Amit Sethi

Ultimo aggiornamento: 2023-02-22 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2302.11488

Fonte PDF: https://arxiv.org/pdf/2302.11488

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili