Valutando SAM 2 per la segmentazione delle immagini mediche
SAM 2 migliora la segmentazione delle immagini mediche per dataset 2D e 3D.
― 7 leggere min
Indice
- Raccolta Dati
- Metodologia
- Impostazioni di Valutazione
- Selezione del Fotogramma Iniziale
- Direzione di Propagazione
- Simulazione dei Prompt
- Selezione delle Previsioni
- Segmentazione Interattiva
- Risultati
- Segmentazione 2D a Fotogramma Singolo
- Segmentazione 3D a Più Fotogrammi
- Confronti con Altri Metodi
- Discussione
- Conclusione
- Fonte originale
- Link di riferimento
La segmentazione delle immagini mediche è fondamentale per diagnosticare malattie e analizzare dati clinici. Nonostante i progressi nelle tecnologie di imaging medico, segmentare queste immagini è ancora complicato. Questa difficoltà deriva principalmente dalla necessità di etichettare manualmente molti dati e dalla complessità delle immagini mediche.
Un nuovo strumento chiamato Segment Anything Model (SAM) sta aiutando a affrontare queste sfide. SAM può segmentare diversi oggetti nelle immagini usando dei prompt, il che riduce notevolmente la necessità di etichettature manuali estensive. Ci sono stati sforzi per migliorare SAM per compiti specifici, mostrando prestazioni migliori rispetto ai metodi di segmentazione tradizionali. Tuttavia, SAM inizialmente si concentrava solo sulle immagini 2D, limitando il suo utilizzo in situazioni dove è necessaria una comprensione 3D.
Recentemente è stata introdotta una nuova versione chiamata SAM 2. Questa nuova versione può lavorare con video, aprendo opportunità per applicarla a immagini mediche 3D, un compito essenziale nel campo dell'imaging medico. Questo articolo analizza come SAM 2 si comporta quando deve segmentare immagini mediche sia 2D che 3D.
Raccolta Dati
Nel nostro studio, abbiamo raccolto 21 dataset di imaging medico che comprendono vari tipi di immagini. Questo include video chirurgici, tecniche di imaging 3D comuni come tomografia computerizzata (CT), risonanza magnetica (MRI) e tomografia a emissione di positroni (PET), oltre a modalità di imaging 2D come raggi X e ultrasuoni.
Abbiamo testato SAM 2 in due modi:
- Il primo modo prevedeva di dare prompt per una o poche fette selezionate di immagini 3D.
- Il secondo modo prevedeva di fornire prompt per ogni fetta. Il primo metodo si applica solo a video e immagini 3D, mentre il secondo è adatto a tutti i dataset.
I nostri risultati suggeriscono che SAM 2 si comporta in modo simile al SAM originale con immagini singole 2D. Tuttavia, le sue prestazioni variano con le immagini 3D in base a fattori come quali fette vengono scelte per l'annotazione, come il modello elabora queste fette e le previsioni utilizzate nel processo.
Metodologia
Per valutare l’efficacia di SAM 2, abbiamo suddiviso il nostro approccio in diverse parti:
Impostazioni di Valutazione
Abbiamo valutato SAM 2 utilizzando due impostazioni principali: segmentazione 2D a fotogramma singolo e segmentazione 3D a più fotogrammi.
Segmentazione 2D a Fotogramma Singolo: In questa impostazione, abbiamo testato quanto bene SAM 2 potesse segmentare singole immagini 2D. Abbiamo utilizzato quattro diversi metodi di prompting durante questa valutazione, concentrandoci su quanto fossero efficaci nel raggiungere segmentazioni accurate.
Segmentazione 3D a Più Fotogrammi: Qui, abbiamo investigato come SAM 2 potesse gestire immagini presentate in serie, come un video o più fette di un'immagine 3D. Questa impostazione ci consente di vedere quanto bene il modello può prevedere segmenti oltre le fette direttamente annotate.
Selezione del Fotogramma Iniziale
Quando si lavora con video, di solito si sceglie un fotogramma iniziale per fornire un punto di partenza per la segmentazione. Nei casi tipici, viene selezionato il primo fotogramma, ma questo potrebbe non essere così efficace nell'imaging medico 3D dove la prima apparizione di un oggetto può variare. Abbiamo considerato quattro diverse strategie per scegliere il fotogramma iniziale:
- Selezionare la prima fetta in cui appare l'oggetto.
- Scegliere la fetta che mostra la parte più prominente dell'oggetto.
- Selezionare la fetta con la maggiore area dell'oggetto.
- Scegliere tre fette uniformemente distribuite nel volume.
Direzione di Propagazione
Una volta selezionata la fetta iniziale, il passo successivo è propagare l'informazione per prevedere altre fette. Abbiamo esplorato due metodologie per questo:
- Propagazione Avanti: Qui partiamo dalla fetta selezionata e ci muoviamo in avanti attraverso il volume.
- Propagazione Bidirezionale: Questa strategia parte dalla fetta annotata, lavorando prima all'indietro e poi avanti.
Simulazione dei Prompt
Abbiamo anche considerato come simulare i prompt quando i segmenti devono essere identificati. Abbiamo applicato vari modi per fornire i prompt, inclusi:
- Usare prompt puntuali in posizioni specifiche dell'oggetto.
- Usare prompt a scatola che racchiudono l'oggetto.
- Inserire maschere di verità a terra come prompt.
Selezione delle Previsioni
Nella segmentazione delle immagini mediche, è spesso utile avere più previsioni potenziali per ogni oggetto. SAM 2 utilizza varie strategie per selezionare quale previsione utilizzare, come scegliere quella che sembra più sicura o semplicemente prendere il primo output prodotto.
Segmentazione Interattiva
La segmentazione interattiva implica affinare le previsioni basate sull'input dell'utente. Nel nostro setup, abbiamo fornito due scenari per la segmentazione interattiva:
- Valutazione Offline: Gli utenti possono rivedere i segmenti più volte prima di fare correzioni.
- Valutazione Online: Gli utenti prendono decisioni in tempo reale mentre il video viene riprodotto.
Risultati
Segmentazione 2D a Fotogramma Singolo
Nella nostra valutazione delle prestazioni di segmentazione a fotogramma singolo di SAM 2, i risultati hanno indicato che SAM 2 è in gran parte comparabile al suo predecessore, anche se ci sono variazioni da dataset a dataset. Ad esempio, il modello ha ottenuto buoni punteggi sui dataset di raggi X ma ha avuto difficoltà con i dataset di MRI.
Abbiamo scoperto che i prompt a scatola portavano generalmente a prestazioni migliori rispetto ai prompt puntuali. È interessante notare che semplicemente aggiungere più prompt puntuali non ha sempre migliorato l'accuratezza. In molti dataset medici, gli oggetti target sono spesso collegati, quindi prompt aggiuntivi possono talvolta portare a confusione piuttosto che chiarezza.
Segmentazione 3D a Più Fotogrammi
Esaminando le prestazioni 3D di SAM 2, abbiamo notato differenze significative a seconda di come abbiamo impostato le nostre configurazioni sperimentali. La prestazione media ha mostrato che la propagazione bidirezionale ha costantemente superato la propagazione avanti. Questo miglioramento è stato particolarmente evidente quando sono state selezionate fette con oggetti prominenti.
Le strategie per selezionare quali previsioni fidarsi hanno anche influenzato i risultati complessivi. Nei casi in cui sono stati utilizzati prompt puntuali, selezionare la previsione iniziale ha spesso fornito risultati migliori rispetto a fare affidamento sull'opzione più sicura.
Confronti con Altri Metodi
SAM 2 è stata anche confrontata con altri modelli che si concentrano sull'imaging medico 3D. In generale, ha mostrato prestazioni superiori rispetto a modelli progettati specificamente per lavorare su compiti 3D. La struttura unica della memoria di SAM 2 ha consentito di sfruttare efficacemente le previsioni passate, contribuendo notevolmente alla sua accuratezza.
Discussione
I risultati dei nostri esperimenti con SAM 2 rivelano diversi spunti chiave:
Strategia di Prompting: Fornire prompt chiari, in particolare prompt a scatola, tende a produrre risultati migliori rispetto ai prompt puntuali sia in contesti 2D che 3D.
La Selezione del Fotogramma Conta: La fetta iniziale scelta per l'annotazione può influenzare significativamente i risultati. Selezionare fette con porzioni sostanziali dell'oggetto di interesse generalmente porta a migliori prestazioni.
Approcci di Propagazione: La propagazione bidirezionale è generalmente più efficace, specialmente nei contesti di imaging 3D.
Interazione Umana: La segmentazione interattiva può migliorare significativamente i risultati, soprattutto quando agli utenti viene data la flessibilità di correggere le previsioni basate su feedback visivi.
Conclusione
Questo studio esplora le capacità del Segment Anything Model 2 nella segmentazione delle immagini mediche. Testandolo con dataset sia 2D che 3D, abbiamo scoperto che mentre SAM 2 è significativamente più avanzato rispetto al suo predecessore, le sue prestazioni sono influenzate fortemente dai metodi di prompting, dalla selezione del fotogramma iniziale e dall'approccio alla propagazione.
I progressi apportati da SAM 2 forniscono un passo fondamentale verso una segmentazione più efficiente ed efficace nell'imaging medico, sebbene possano essere necessarie ulteriori migliorie e affinamenti per ottimizzare completamente il suo utilizzo in contesti clinici. Futuri sforzi potrebbero concentrarsi sul miglioramento delle strategie di memoria utilizzate all'interno di SAM 2, affinando il modo in cui il modello comprende e elabora immagini mediche complesse.
In generale, SAM 2 ha mostrato grandi promesse nel semplificare quello che è stato tradizionalmente un processo molto laborioso, portando speranza per segmentazioni migliori, più rapide e più accurate nell'imaging medico.
Titolo: Segment anything model 2: an application to 2D and 3D medical images
Estratto: Segment Anything Model (SAM) has gained significant attention because of its ability to segment various objects in images given a prompt. The recently developed SAM 2 has extended this ability to video inputs. This opens an opportunity to apply SAM to 3D images, one of the fundamental tasks in the medical imaging field. In this paper, we extensively evaluate SAM 2's ability to segment both 2D and 3D medical images by first collecting 21 medical imaging datasets, including surgical videos, common 3D modalities such as computed tomography (CT), magnetic resonance imaging (MRI), and positron emission tomography (PET) as well as 2D modalities such as X-ray and ultrasound. Two evaluation settings of SAM 2 are considered: (1) multi-frame 3D segmentation, where prompts are provided to one or multiple slice(s) selected from the volume, and (2) single-frame 2D segmentation, where prompts are provided to each slice. The former only applies to videos and 3D modalities, while the latter applies to all datasets. Our results show that SAM 2 exhibits similar performance as SAM under single-frame 2D segmentation, and has variable performance under multi-frame 3D segmentation depending on the choices of slices to annotate, the direction of the propagation, the predictions utilized during the propagation, etc. We believe our work enhances the understanding of SAM 2's behavior in the medical field and provides directions for future work in adapting SAM 2 to this domain. Our code is available at: https://github.com/mazurowski-lab/segment-anything2-medical-evaluation.
Autori: Haoyu Dong, Hanxue Gu, Yaqian Chen, Jichen Yang, Yuwen Chen, Maciej A. Mazurowski
Ultimo aggiornamento: 2024-08-22 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2408.00756
Fonte PDF: https://arxiv.org/pdf/2408.00756
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.