Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Avanzamenti nella classificazione delle immagini a tutto slide

FALFormer migliora la precisione nell'analisi delle WSI mediche per la diagnostica.

― 5 leggere min


FALFormer: Un NuovoFALFormer: Un NuovoApproccio a WSIrilevazione del cancro.una maggiore precisione nellaMigliorare la classificazione WSI per
Indice

La classificazione delle immagini a scansione intera (WSI) è un'area importante nella diagnostica medica, specialmente in patologia. Le WSI sono grandi immagini digitali che rappresentano campioni di tessuto. Queste immagini possono raggiungere diverse gigabyte di dimensione, rendendo difficile analizzare ogni singolo pixel o piccola sezione dell'immagine. Invece, i ricercatori spesso suddividono queste immagini in sezioni più piccole chiamate patch. L'obiettivo è determinare se queste patch indicano la presenza di malattia, come il cancro.

Sfide nell'analizzare le WSI

La principale sfida lavorando con le WSI è la loro grandezza. Poiché le WSI sono composte da un numero enorme di patch, diventa difficile gestire e interpretare tutti i dati in modo efficiente. Un modo comune per affrontare questo problema è utilizzare l'apprendimento a istanze multiple (MIL). Nel MIL, le patch vengono trattate come istanze separate, e le previsioni vengono fatte sulla base delle informazioni complessive provenienti da queste patch. Tuttavia, mentre questo metodo può essere utile, non riesce sempre a catturare il quadro completo poiché le relazioni tra le patch potrebbero essere trascurate.

Ci sono due approcci principali nel MIL: modelli basati su istanze e modelli basati su embedding di sacchetti. I modelli basati su istanze esaminano ogni patch e poi compilano i risultati per prendere una decisione finale sull'intera immagine. Al contrario, i modelli basati su embedding di sacchetti convertono tutte le patch in una singola rappresentazione e fanno previsioni basate su quella. Recentemente, i modelli di embedding di sacchetti sono diventati più favoriti perché tendono a essere più efficienti. Molti di questi modelli si basano su meccanismi di attenzione e sull'architettura Transformer per fare previsioni.

Modelli precedenti e le loro limitazioni

Modelli come CLAM e TransMIL sono stati sviluppati per migliorare la classificazione delle WSI. CLAM utilizza punteggi di attenzione per concentrarsi su determinate patch, mentre TransMIL si basa su un design Transformer per mantenere le informazioni spaziali tra le patch. Anche se sono stati un successo, questi modelli faticano ancora a utilizzare l'enorme quantità di dati provenienti dalle patch perché si concentrano sul riassumere queste informazioni piuttosto che utilizzare efficacemente il contenuto di ogni patch.

Per migliorare le prestazioni di classificazione, c'è bisogno di un modello che possa elaborare tutte le patch insieme, concentrandosi sulle loro relazioni senza sacrificare l'efficienza.

Introducendo FALFormer

Il modello proposto, noto come FALFormer, cerca di affrontare le carenze degli approcci esistenti. FALFormer elabora una WSI nel suo insieme, tenendo conto di tutto l'insieme di patch. È costruito sull'architettura Transformer, che ha guadagnato popolarità per la sua capacità di catturare relazioni complesse nei dati.

Per ottimizzare le risorse informatiche, FALFormer utilizza una tecnica speciale chiamata autoregolazione Nyström, che approssima i calcoli utilizzando meno patch importanti, note come landmarks. Questo aiuta a ridurre il carico sulla potenza di elaborazione, pur analizzando efficacemente l'immagine.

Caratteristiche chiave di FALFormer

FALFormer introduce un metodo chiamato Feature-Aware Landmarks Nyström Self-Attention (FALSA), che migliora la qualità dei landmarks. Buoni landmarks portano a previsioni migliori. Questo nuovo approccio consente a FALFormer di sfruttare caratteristiche di alto livello dalle patch, migliorando sia la rappresentazione dei dati sia l'accuratezza della classificazione.

Funzionamento di FALFormer

Il processo inizia suddividendo una WSI in patch più piccole, concentrandosi principalmente sulle aree di tessuto. Queste patch vengono quindi raggruppate in segmenti utilizzando un metodo di clustering chiamato K-means. I segmenti sono raccolte di patch simili, e il modello calcola i landmarks per questi segmenti per riassumere le informazioni in modo efficace.

FALFormer utilizza quindi questi landmarks per elaborare i dati delle patch, offrendo un metodo di classificazione più efficiente rispetto ai modelli precedenti. Concentrandosi sulle informazioni più rilevanti e combinandole efficacemente, FALFormer può fornire previsioni più accurate.

Valutazione delle prestazioni

Per testare l'efficacia di FALFormer, i ricercatori hanno valutato le sue prestazioni su due dataset disponibili pubblicamente: CAMELYON16, che si concentra sul rilevamento delle metastasi tumorali, e TCGA-BRCA, che tratta i sottotipi di cancro al seno.

Dataset CAMELYON16

Il dataset CAMELYON16 consiste di 399 WSI, dove il compito di classificazione è distinguere tra patch tumorali e non tumorali. In totale, oltre 3,6 milioni di patch derivano da queste WSI. Utilizzando FALFormer, i ricercatori hanno scoperto che il modello ha raggiunto un'accuratezza impressionante superiore al 96%, superando altri modelli sullo stesso compito.

Dataset TCGA-BRCA

Il dataset TCGA-BRCA contiene 875 WSI, concentrandosi sulla classificazione dei diversi sottotipi di cancro al seno. FALFormer ha anche eccelso in questo dataset, raggiungendo un'accuratezza di classificazione del 96,3%. Questi risultati dimostrano la forza di FALFormer nell'identificare accuratamente la presenza di malattia quando applicato a dati del mondo reale.

Il ruolo degli estrattori di caratteristiche

Negli esperimenti, sono stati utilizzati due strumenti diversi per l'estrazione delle caratteristiche: ResNet-50 e CTransPath. Questi strumenti convertono le patch delle immagini in vettori numerici che il modello può utilizzare per la classificazione. È stato notato che la scelta dell'estrattore di caratteristiche influisce notevolmente sulle prestazioni complessive. FALFormer ha costantemente performato meglio quando utilizzava CTransPath.

Confronto con altri modelli

Per un confronto equo, FALFormer è stato testato contro modelli esistenti come CLAM e TransMIL. Entrambi i concorrenti avevano i loro punti di forza, ma FALFormer si è distinto per la sua capacità di elaborare e analizzare efficientemente tutte le patch senza perdere informazioni cruciali.

Complessità ed efficienza

Sebbene FALFormer abbia dimostrato prestazioni notevoli, ha anche richiesto maggiori risorse in termini di tempo di elaborazione e risorse. Questo porta a considerare i compromessi tra efficienza e accuratezza. Anche se FALFormer richiedeva più potenza computazionale, ha comunque raggiunto un equilibrio che lo rende uno strumento prezioso per i professionisti della salute in cerca di supporto diagnostico affidabile.

Conclusione

FALFormer rappresenta un passo significativo in avanti nel campo della classificazione delle WSI. Analizzando in modo efficiente le intere diapositive ed estraendo relazioni significative tra le patch, questo modello può migliorare diagnosi e prognosi nelle impostazioni cliniche. Il suo approccio innovativo che utilizza FALSA garantisce che dettagli importanti non vengano persi, portando a risultati più accurati e affidabili. Man mano che l'imaging medico continua a crescere, modelli come FALFormer giocheranno un ruolo critico nel migliorare il modo in cui i professionisti della salute rilevano e trattano le malattie.

Fonte originale

Titolo: FALFormer: Feature-aware Landmarks self-attention for Whole-slide Image Classification

Estratto: Slide-level classification for whole-slide images (WSIs) has been widely recognized as a crucial problem in digital and computational pathology. Current approaches commonly consider WSIs as a bag of cropped patches and process them via multiple instance learning due to the large number of patches, which cannot fully explore the relationship among patches; in other words, the global information cannot be fully incorporated into decision making. Herein, we propose an efficient and effective slide-level classification model, named as FALFormer, that can process a WSI as a whole so as to fully exploit the relationship among the entire patches and to improve the classification performance. FALFormer is built based upon Transformers and self-attention mechanism. To lessen the computational burden of the original self-attention mechanism and to process the entire patches together in a WSI, FALFormer employs Nystr\"om self-attention which approximates the computation by using a smaller number of tokens or landmarks. For effective learning, FALFormer introduces feature-aware landmarks to enhance the representation power of the landmarks and the quality of the approximation. We systematically evaluate the performance of FALFormer using two public datasets, including CAMELYON16 and TCGA-BRCA. The experimental results demonstrate that FALFormer achieves superior performance on both datasets, outperforming the state-of-the-art methods for the slide-level classification. This suggests that FALFormer can facilitate an accurate and precise analysis of WSIs, potentially leading to improved diagnosis and prognosis on WSIs.

Autori: Doanh C. Bui, Trinh Thi Le Vuong, Jin Tae Kwak

Ultimo aggiornamento: 2024-07-11 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.07340

Fonte PDF: https://arxiv.org/pdf/2407.07340

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili