Avanzamenti nella segmentazione delle immagini in microscopia con i transformer
Questo articolo confronta i modelli U-Net e quelli basati su transformer per la segmentazione di immagini da microscopio.
Illia Tsiporenko, Pavel Chizhov, Dmytro Fishman
― 7 leggere min
Indice
Segmentare le immagini in microscopia è un passaggio fondamentale per analizzare queste immagini. Negli anni sono state sviluppate molte tecniche, dai metodi più vecchi a modelli avanzati di deep learning. Un modello popolare nel campo della Segmentazione delle immagini biomediche è l'U-Net. Recentemente, nuovi modelli chiamati transformer hanno mostrato promesse per migliorare il modo in cui segmentiamo le immagini di microscopia. In questo articolo, daremo un'occhiata a diversi modelli basati su transformer, tra cui UNETR, il Segment Anything Model e Swin-UPerNet, e confronteremo le loro prestazioni con il collaudato modello U-Net.
Importanza della Segmentazione
Identificare e separare diversi oggetti nelle immagini di microscopia è essenziale per un'analisi approfondita. Segmentare accuratamente varie strutture all'interno di queste immagini, come i nuclei cellulari, aiuta i ricercatori a raccogliere informazioni importanti su di essi. Tuttavia, ottenere una segmentazione efficace può essere difficile a causa della natura complicata dei dati di microscopia.
Gli algoritmi di deep learning sono strumenti che possono aiutare con i compiti di segmentazione perché possono apprendere e riconoscere caratteristiche chiave nelle immagini. Per molti anni, il modello U-Net, basato su Reti Neurali Convoluzionali (CNN), è stato ampiamente utilizzato e ha fornito buoni risultati nella segmentazione delle immagini di microscopia. Tuttavia, sono emersi molti nuovi modelli, con i transformer che spiccano come particolarmente promettenti. I transformer catturano caratteristiche complesse nelle immagini e considerano meglio i contesti locali rispetto alle CNN tradizionali, il che può aiutare a perfezionare i processi di segmentazione.
Modelli Transformer nella Segmentazione delle Immagini
In questa discussione, valuteremo modelli di segmentazione popolari che utilizzano i vision transformer come codificatori di immagini. Questi includono due tipi principali: il Vision Transformer (ViT) nel modello UNETR e il Swin Transformer nel modello Swin-UPerNet. Daremo anche un'occhiata al Segment Anything Model (SAM), che utilizza input definiti dall'utente per migliorare i risultati di segmentazione. Durante questo confronto, utilizzeremo il modello U-Net come nostro benchmark.
Il Swin Transformer, quando abbinato al decoder UPerNet, ha mostrato risultati promettenti nella segmentazione delle immagini. Tuttavia, il suo metodo di elaborazione dei patch delle immagini può a volte portare alla perdita di dettagli importanti. Inoltre, la sua dipendenza dall'interpolazione bilineare potrebbe influenzare l'accuratezza della segmentazione finale. Per contrastare questi problemi, proponiamo modifiche all'architettura per migliorare le prestazioni e la cattura dei dettagli.
Valutando questi modelli basati su transformer, puntiamo a mostrare i loro potenziali vantaggi e sfide rispetto al tradizionale modello U-Net.
Lavoro Correlato
Sebbene l'U-Net rimanga uno dei modelli più utilizzati per la segmentazione nelle applicazioni biomediche, negli ultimi anni sono emersi numerosi modelli basati su transformer. Questi possono generalmente essere raggruppati in due categorie: modelli transformer-CNN e modelli ibridi. Nei modelli transformer-CNN, i transformer agiscono come codificatori di immagini principali mentre i layer CNN nel decoder generano maschere di segmentazione. Esempi includono UNETR, Swin UNETR e Swin-UPerNet. I modelli ibridi incorporano sia layer transformer che CNN ma mantengono i layer CNN nel decoder.
Nonostante la natura flessibile dei modelli ibridi, i modelli transformer-CNN spesso performano meglio. Questo è principalmente dovuto al vantaggio dei transformer pre-addestrati che sono stati addestrati su grandi dataset. Di conseguenza, i modelli ibridi sono spesso meno preferiti nella ricerca.
Recentemente, i modelli fondamentali hanno guadagnato attenzione. Questi sono addestrati su dataset enormi e possono generalizzare senza la necessità di ulteriore addestramento per compiti specifici. Un esempio di questo è il Segment Anything Model (SAM), che utilizza input definiti dall'utente come riquadri o punti per la segmentazione.
Il Swin Transformer è diventato popolare per molti compiti di imaging, portando allo sviluppo di nuovi modelli basati sulla sua architettura, come Swin-UPerNet. Anche se la ricerca sull'originale Swin-UPerNet è limitata, puntiamo a trovare opportunità per migliorare le sue prestazioni mantenendo la sua struttura fondamentale.
Dati e Metodologia
Condurremo una valutazione comparativa dell'U-Net contro modelli basati su transformer notevoli, tra cui UNETR, Swin-UPerNet e SAM. Includeremo anche modifiche personalizzate a Swin-UPerNet per migliorare le sue prestazioni. Innanzitutto, delineeremo i dataset scelti per la nostra valutazione.
Per valutare le prestazioni dei modelli, abbiamo scelto quattro dataset, offrendo sfide uniche attraverso diverse modalità di immagine. Il dataset di Microscopia Elettronica consiste in immagini focalizzate sulla microscopia elettronica, mentre il dataset di Sette Linee Cellulari include immagini a campo chiaro mirate ai nuclei cellulari. Il dataset LIVECell presenta immagini a contrasto di fase concentrate su cellule singole, e il dataset MoNuSeg include immagini di istopatologia a tutto campo. Questa varietà consente una valutazione completa dei modelli in più scenari.
Modelli di Segmentazione
L'U-Net funge da baseline grazie alla sua comprovata efficacia nei compiti di segmentazione. La sua architettura presenta una struttura simmetrica encoder-decoder con connessioni skip per migliorare la mappatura delle caratteristiche.
Per i modelli transformer, abbiamo selezionato UNETR, che utilizza ViT per la codifica, e Swin-UPerNet, che impiega il Swin Transformer con meccanismi di attenzione unici. Includiamo anche il Segment Anything Model, che si basa su suggerimenti dell'utente per la segmentazione.
Abbiamo utilizzato il framework Segmentation Models PyTorch per costruire il modello U-Net, utilizzando un ResNet34 pre-addestrato come backbone. Per UNETR, l'abbiamo adattato per la segmentazione delle immagini 2D, mantenendo il design architettonico centrale.
Modifiche a Swin-UPerNet
Durante la valutazione di Swin-UPerNet, abbiamo identificato problemi derivanti dall'uso di una dimensione di patch di 4x, che riduce la dimensione dell'input e porta a disallineamenti nel decoder. Il modello originale si basa su un'interpolazione bilineare per allineare la maschera di segmentazione finale con l'immagine di input, ma questo metodo potrebbe introdurre artefatti e ridurre le prestazioni complessive.
Per risolvere queste sfide, proponiamo miglioramenti architettonici. Questi includono:
- Ridurre la dimensione della patch per catturare dettagli più fini.
- Aggiungere connessioni skip dall'immagine di input al decoder per migliorare il contesto locale.
- Introdurre ulteriori fasi nel backbone della rete per migliorare la flessibilità.
Queste modifiche mirano a potenziare le prestazioni del modello nella segmentazione delle immagini di microscopia.
Formazione e Valutazione
Abbiamo creato una pipeline di formazione per addestrare e valutare efficientemente diversi modelli. Le immagini di input sono state preprocessate utilizzando tecniche standard, inclusa la normalizzazione e l'applicazione di augmentazioni per migliorare il riconoscimento delle strutture.
Ogni modello è stato addestrato per 150 epoche. Abbiamo utilizzato una dimensione del batch di 16 e campionato immagini dal dataset per esempi di addestramento diversificati. Le metriche di valutazione per misurare le prestazioni includevano punteggi F1 e IoU, valutati su dataset di test separati.
Risultati
Abbiamo confrontato le prestazioni dell'U-Net contro modelli transformer selezionati, tra cui UNETR, Swin-UPerNet e SAM. L'U-Net ha dimostrato costantemente forti prestazioni attraverso i dataset. UNETR ha performato in modo comparabile, ma ha ottenuto risultati inferiori nel dataset di microscopia elettronica. L'originale Swin-UPerNet ha faticato dietro sia all'U-Net che all'UNETR, sottolineando l'efficacia degli approcci CNN tradizionali.
Analizzando le prestazioni delle modifiche a Swin-UPerNet, i nostri risultati hanno mostrato miglioramenti significativi, in particolare con la variante Swin-S-TB-Skip. Questa modifica ha superato l'originale Swin-UPerNet e l'U-Net in diversi dataset, mostrando i benefici delle nostre modifiche proposte.
Conclusione
Questo studio mette in evidenza i progressi fatti nella segmentazione delle immagini di microscopia tramite modelli basati su transformer. Sebbene l'U-Net rimanga altamente efficace, i nuovi modelli mostrano un grande potenziale, specialmente con modifiche thoughtful. I nostri risultati rivelano anche aree per futuri sviluppi, sottolineando la necessità di affinare queste architetture per un uso pratico in vari strumenti di analisi della microscopia.
Esplorando e migliorando questi modelli, possiamo ulteriormente migliorare l'accuratezza e l'efficienza dei compiti di segmentazione nella microscopia, rendendoli più preziosi per la ricerca scientifica e applicazioni pratiche.
Titolo: Going Beyond U-Net: Assessing Vision Transformers for Semantic Segmentation in Microscopy Image Analysis
Estratto: Segmentation is a crucial step in microscopy image analysis. Numerous approaches have been developed over the past years, ranging from classical segmentation algorithms to advanced deep learning models. While U-Net remains one of the most popular and well-established models for biomedical segmentation tasks, recently developed transformer-based models promise to enhance the segmentation process of microscopy images. In this work, we assess the efficacy of transformers, including UNETR, the Segment Anything Model, and Swin-UPerNet, and compare them with the well-established U-Net model across various image modalities such as electron microscopy, brightfield, histopathology, and phase-contrast. Our evaluation identifies several limitations in the original Swin Transformer model, which we address through architectural modifications to optimise its performance. The results demonstrate that these modifications improve segmentation performance compared to the classical U-Net model and the unmodified Swin-UPerNet. This comparative analysis highlights the promise of transformer models for advancing biomedical image segmentation. It demonstrates that their efficiency and applicability can be improved with careful modifications, facilitating their future use in microscopy image analysis tools.
Autori: Illia Tsiporenko, Pavel Chizhov, Dmytro Fishman
Ultimo aggiornamento: 2024-09-25 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2409.16940
Fonte PDF: https://arxiv.org/pdf/2409.16940
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.