Avanzamenti nella segmentazione delle immagini mediche con Mamba-Ahnet
Mamba-Ahnet migliora la segmentazione delle immagini mediche per una rilevazione precisa delle lesioni.
― 10 leggere min
Indice
Il deep learning sta cambiando il modo in cui guardiamo le immagini mediche. Fornisce nuove idee e soluzioni per problemi difficili nella sanità. I metodi tradizionali spesso hanno problemi ad adattare le caratteristiche come necessario, il che significa che non rappresentano sempre bene i dati. Questo è particolarmente vero per compiti come la segmentazione delle immagini, dove definire con precisione le strutture è cruciale. Inoltre, i metodi più vecchi possono essere lenti e richiedere molta potenza di calcolo.
Per affrontare queste sfide, presentiamo un nuovo sistema chiamato Mamba-Ahnet. Questo combina due modelli esistenti: State Space Model (SSM) e Advanced Hierarchical Network (AHNet). Questo nuovo sistema è progettato specificamente per segmentare immagini in contesti medici, in particolare per rilevare lesioni.
Mamba-Ahnet utilizza l'SSM per estrarre caratteristiche e comprendere i dati, mentre l'AHNet si concentra sui meccanismi di attenzione e sulla ricostruzione delle immagini. Suddividendo le immagini in parti più piccole e raffinando come vengono comprese le caratteristiche usando l'auto-attenzione, questo approccio migliora il modo in cui risolviamo le caratteristiche nelle immagini.
Con l'AHNet aggiunto al framework MAMBA, Mamba-Ahnet migliora come segmentiamo le immagini concentrandosi su aree importanti e imparando rappresentazioni ricche. I test su un dataset di lesioni mostrano che Mamba-Ahnet supera altri metodi leader, raggiungendo un alto punteggio di somiglianza di Dice e metriche di Intersection over Union. Questi punteggi evidenziano il potenziale di Mamba-Ahnet di migliorare diagnosi, piani di trattamento e risultati per i pazienti.
Contesto
Ogni anno, il numero di scansioni CT aumenta, il che aggiunge carico di lavoro ai radiologi. L'aumento dei casi di cancro nel mondo è previsto per spingere ulteriormente questo incremento. I pazienti con cancro di solito subiscono più scansioni nel tempo per monitorare la loro condizione, il che può portare a carichi di lavoro pesanti per i professionisti della salute.
In molte situazioni, misurare lesioni su scansioni CT richiede lavoro manuale, inclusa la misurazione lungo assi specifici come definito da linee guida. Questo può richiedere tempo, specialmente quando si analizza la dimensione delle lesioni. Di conseguenza, la segmentazione automatica delle lesioni è fondamentale per vari sforzi di diagnosi assistita da computer, incluso il monitoraggio della crescita dei tumori e la conduzione di valutazioni della malattia.
C'è stata una considerevole attenzione nel migliorare le tecniche di segmentazione automatica delle lesioni per alleggerire il carico sui radiologi e migliorare la precisione delle diagnosi. Alcuni metodi avanzati richiedono solo un clic da parte di un radiologo per avviare il processo. Segmentando automaticamente le lesioni, possiamo raccogliere informazioni importanti senza bisogno di un input esteso da parte dei professionisti medici.
Di recente, le tecniche di deep learning hanno fatto grandi passi avanti, specialmente con le reti neurali convoluzionali (CNN). Questi progressi hanno migliorato notevolmente i modelli di segmentazione automatica per i tumori. Tuttavia, c'è ancora un'urgenza di modelli che possano segmentare efficacemente vari tipi di lesioni, specialmente quelle che si trovano in diverse parti del corpo.
Le prestazioni dei modelli di segmentazione sono fortemente influenzate dalla qualità dei dati di addestramento annotati. Tuttavia, ottenere immagini mediche è una sfida a causa delle preoccupazioni sulla privacy e della natura laboriosa del processo di annotazione. Questo ha portato a una carenza di dataset pubblicamente disponibili per compiti di segmentazione.
Inoltre, i dataset medici esistenti spesso si concentrano su tipi specifici di lesioni, rendendo difficile sviluppare un modello in grado di gestire una varietà di lesioni. Di solito, i modelli attuali sono progettati per segmentare un tipo di lesione alla volta. Tuttavia, nella realtà, le lesioni spesso hanno connessioni. Ad esempio, il cancro può diffondersi in diverse aree del corpo attraverso il sangue o i linfonodi.
Per affrontare questi problemi, utilizziamo il dataset del Universal Lesion Segmentation '23 Challenge. Questo dataset contiene oltre 6.500 lesioni 3D completamente annotate in diverse parti del corpo. Anche se ricerche precedenti hanno utilizzato questo dataset, gran parte del lavoro si è basato su dati parzialmente annotati, concentrandosi su singole fette anziché su volumi completi.
Le lesioni vengono in varie dimensioni, forme e apparenze, il che complica l'uso delle tecniche di segmentazione esistenti per la segmentazione universale delle lesioni. Sono stati fatti molti sforzi per semplificare la misurazione delle dimensioni delle lesioni, e le reti di deep learning hanno mostrato risultati efficaci nell'identificare tumori in molte regioni del corpo. Tuttavia, la maggior parte di questi metodi è progettata per tipi specifici di lesioni, e uno strumento ideale dovrebbe essere in grado di gestire diverse lesioni comunemente viste nella pratica clinica.
Recenti sviluppi nel deep learning mirati alla rilevazione o segmentazione universale delle lesioni in immagini CT hanno mostrato promesse nell'aiutare la diagnosi di varie condizioni mediche. Questi algoritmi, addestrati su dataset diversificati, mostrano una migliore efficienza e adattabilità rispetto a quelli focalizzati esclusivamente su un tipo di lesione.
Per controbattere le difficoltà poste da annotazioni manuali che richiedono tempo, gli algoritmi di segmentazione universale delle lesioni addestrati su vari dataset di ultrasuoni hanno mostrato potenziale nell'aumentare la qualità delle annotazioni attraverso il transfer learning. Questo riduce il carico di raccolta di grandi quantità di dati mantenendo la qualità.
Metodologia
Il nostro approccio mira a creare un modello di segmentazione universale delle lesioni più forte integrando metodologie avanzate. Il nuovo metodo combina l'Advanced Hierarchical Network (AHNet) nel modello di spazio di stato selettivo (MAMBA). Questa configurazione è ispirata all'inserimento di HUNet in MAMBA.
AHNet impiega meccanismi di attenzione e blocchi residui per migliorare le prestazioni di segmentazione semantica. L'architettura inizia con il modello AHNet, una versione su misura di UNet, incorporata nel framework MAMBA per migliorare le capacità di segmentazione delle immagini mediche.
Integrando l'architettura di AHNet includendo blocchi Mamba, porte di attenzione e blocchi residui all'interno dei percorsi di upsampling della rete, questo processo migliora la capacità del modello di catturare schemi complessi nei dati mentre mantiene una comprensione spaziale.
Per confrontare il nostro nuovo approccio con metodi precedenti, abbiamo costruito un benchmark completo che include tecniche di segmentazione di immagini mediche e semantiche consolidate. Abbiamo valutato i nostri risultati utilizzando metriche bennote nella segmentazione delle immagini mediche.
I risultati sperimentali rivelano che il nostro approccio supera costantemente i metodi all'avanguardia precedenti. Questo crea un benchmark robusto per futuri sforzi di ricerca e presenta una risorsa preziosa mentre continuiamo a esplorare i progressi in questo campo.
Contributi
- La combinazione di HUNet con AHNet migliora l'accuratezza della segmentazione nei compiti di imaging medico.
- L'introduzione di blocchi di upsampling migliorati in attenzione consente aggiustamenti dinamici dell'importanza delle caratteristiche, aumentando le prestazioni di segmentazione.
- L'integrazione dei blocchi Mamba migliora la capacità del modello di catturare schemi intricati, contribuendo a risultati migliori nell'analisi delle immagini biomediche.
- Le porte di attenzione per l'upsampling migliorano l'enfasi delle caratteristiche di input per migliorare la qualità della ricostruzione nei compiti di segmentazione.
- I blocchi residui aiutano a preservare i dettagli fini durante il processo di ricostruzione, portando a risultati di segmentazione migliorati.
- Le prestazioni di Mamba-AHNet con la ricostruzione delle immagini sono enfatizzate dal raggiungimento dei migliori risultati sul dataset ULS23.
Raccolta e annotazione dei dati
I dati utilizzati in questo studio sono archiviati nel formato NIfTI. Includono volumi di interesse ritagliati intorno a lesioni annotate singolarmente che soddisfano i criteri di dimensione. Ogni volume è centrato su un voxel di lesione scelto casualmente, aiutando a garantire una rappresentazione equilibrata.
Abbiamo impiegato un nuovo metodo di annotazione dei dati, utilizzando studenti biomedicali formati che hanno applicato linee guida di misurazione esistenti per la segmentazione 3D. Questo metodo ha coinvolto la segmentazione di ogni lesione più volte e la selezione delle migliori maschere per creare le etichette finali.
Oltre a utilizzare il dataset ULS23, abbiamo raccolto dataset specifici mirati a condizioni ossee e pancreatiche. Questi dataset sono stati creati basandosi su referti radiologici che evidenziavano aree di interesse, e un radiologo esperto ha gestito la segmentazione per la visualizzazione 3D.
Preprocessing dei dati
I passaggi di preprocessing dei dati sono cruciali per garantire la qualità degli input alimentati nel modello. Inizialmente, estraiamo fette di immagine dai file NIfTI e eseguiamo la normalizzazione per standardizzare le immagini. Ogni fetta viene quindi convertita in formato PNG in scala di grigi e ridimensionata a una dimensione coerente.
Successivamente, armonizziamo le coppie di immagini e etichette, il che garantisce che ogni immagine sia accuratamente abbinata alla sua corrispondente etichetta di segmentazione. Questa integrazione è importante per addestrare efficacemente il modello.
Utilizzando identificatori dei pazienti, possiamo archiviare i dati in modo organizzato. Creiamo archivi personalizzati per ogni paziente contenenti i loro dati di immagine e etichetta. Questa struttura è utile per futuri sforzi di ricerca e sviluppo del modello.
Metriche di valutazione
Nel nostro studio, abbiamo valutato le prestazioni degli algoritmi di segmentazione utilizzando diverse metriche. Alcune delle metriche chiave includono:
- Coefficiente di somiglianza di Dice (DSC): Questa metrica quantifica la sovrapposizione tra la maschera prevista e la verità di base. Fornisce una chiara misurazione dell'accuratezza della segmentazione.
- Intersection over Union (IoU): Questa metrica valuta l'accuratezza dei compiti di segmentazione e aiuta a determinare quanto bene le annotazioni si allineano con le aspettative.
- Distanza Hausdorff media (MHD): Questa metrica valuta la distanza media tra punti nella maschera prevista e quelli nella verità di base, fornendo un'idea delle discrepanze nei confini.
- Differenza volumetrica assoluta relativa (RAVD): Questa metrica si concentra sulla comprensione delle differenze relative al volume tra le maschere previste e quelle effettive.
- Distanza media delle superfici (ASD): Questa metrica calcola la distanza media tra le superfici della maschera prevista e quella di verità, valutando l'accuratezza dei confini.
Tempo di calcolo
Abbiamo analizzato il tempo di calcolo associato all'implementazione di Mamba-AHNet. I test sono stati condotti su hardware ad alte prestazioni. I tempi di addestramento osservati variano significativamente a seconda dell'architettura della rete neurale e se sono state utilizzate tecniche di ricostruzione delle immagini.
I modelli che incorporano tecniche di ricostruzione delle immagini richiedono generalmente più tempo per essere addestrati. Tuttavia, i miglioramenti delle prestazioni visti con modelli che utilizzano tecniche di ricostruzione giustificano il costo computazionale extra.
Risultati
I risultati dei nostri esperimenti dimostrano che Mamba-AHNet con ricostruzione delle immagini supera costantemente i modelli di base su vari dataset, tra cui Deeplesion, ULS Bone e ULS Pancreas. Mamba-AHNet ha ottenuto un punteggio impressionante nella metrica DSC, indicando una forte sovrapposizione tra le segmentazioni previste e quelle effettive.
Per la segmentazione delle strutture ossee, Mamba-AHNet ha mostrato miglioramenti notevoli rispetto ai modelli di base, migliorando l'efficacia complessiva. Allo stesso modo, nel dataset pancreatico, Mamba-AHNet ha eccelso, mostrando la sua capacità di delineare accuratamente le strutture.
Rappresentazioni visive dei risultati di segmentazione forniscono ulteriori approfondimenti qualitativi. Le prestazioni superiori di Mamba-AHNet sono evidenti, validando ulteriormente le misure quantitative ottenute attraverso le varie metriche di valutazione.
Conclusione
In sintesi, la nostra metodologia, Mamba-AHNet, combina efficacemente le capacità di SSM e AHNet all'interno del framework MAMBA. Questo approccio migliora l'accuratezza e la robustezza della segmentazione nell'analisi delle immagini mediche.
Attraverso test approfonditi su più dataset, Mamba-AHNet ha costantemente superato i modelli esistenti, raggiungendo punteggi notevoli su varie metriche. I risultati rafforzano il potenziale del modello per migliorare diagnosi e pianificazione del trattamento.
L'integrazione di SSM e AHNet rappresenta un avanzamento significativo nel campo della segmentazione delle immagini mediche. I miglioramenti significativi ottenuti da Mamba-AHNet sottolineano il suo ruolo nel supportare migliori risultati per i pazienti facilitando un'analisi accurata delle immagini in contesti clinici.
Titolo: Optimizing Universal Lesion Segmentation: State Space Model-Guided Hierarchical Networks with Feature Importance Adjustment
Estratto: Deep learning has revolutionized medical imaging by providing innovative solutions to complex healthcare challenges. Traditional models often struggle to dynamically adjust feature importance, resulting in suboptimal representation, particularly in tasks like semantic segmentation crucial for accurate structure delineation. Moreover, their static nature incurs high computational costs. To tackle these issues, we introduce Mamba-Ahnet, a novel integration of State Space Model (SSM) and Advanced Hierarchical Network (AHNet) within the MAMBA framework, specifically tailored for semantic segmentation in medical imaging.Mamba-Ahnet combines SSM's feature extraction and comprehension with AHNet's attention mechanisms and image reconstruction, aiming to enhance segmentation accuracy and robustness. By dissecting images into patches and refining feature comprehension through self-attention mechanisms, the approach significantly improves feature resolution. Integration of AHNet into the MAMBA framework further enhances segmentation performance by selectively amplifying informative regions and facilitating the learning of rich hierarchical representations. Evaluation on the Universal Lesion Segmentation dataset demonstrates superior performance compared to state-of-the-art techniques, with notable metrics such as a Dice similarity coefficient of approximately 98% and an Intersection over Union of about 83%. These results underscore the potential of our methodology to enhance diagnostic accuracy, treatment planning, and ultimately, patient outcomes in clinical practice. By addressing the limitations of traditional models and leveraging the power of deep learning, our approach represents a significant step forward in advancing medical imaging technology.
Autori: Kazi Shahriar Sanjid, Md. Tanzim Hossain, Md. Shakib Shahariar Junayed, M. Monir Uddin
Ultimo aggiornamento: 2024-04-26 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2404.17235
Fonte PDF: https://arxiv.org/pdf/2404.17235
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.