Migliorare il rilevamento degli artefatti in patologia usando la distillazione della conoscenza
La ricerca mostra come la Distillazione della Conoscenza possa migliorare il rilevamento di artefatti nei campioni di tessuto.
― 6 leggere min
Indice
Lo studio dei campioni di tessuto è fondamentale per diagnosticare malattie, soprattutto il cancro. Questo implica esaminare fette sottili di tumori su vetrini. Tuttavia, durante la preparazione di questi vetrini, possono succedere errori che portano a segni indesiderati o difetti chiamati artefatti. Questi artefatti, come le bolle d'aria, possono interferire con la capacità dei medici di fare diagnosi accurate, poiché possono rendere alcune zone del vetrino strane o poco chiare. I patologi spesso ignorano queste aree quando valutano i vetrini perché non contribuiscono alla diagnosi.
I sistemi di Patologia Computazionale (CPATH) sono strumenti automatizzati progettati per analizzare questi vetrini digitali, chiamati Immagini di Vetrini Completi (WSIs). Possono aiutare nella diagnosi delle malattie fornendo un secondo parere o individuando regioni che necessitano di un esame più approfondito. Tuttavia, se sono presenti artefatti, possono influire negativamente sui risultati di questi sistemi. Pertanto, è fondamentale prima rilevare e rimuovere questi artefatti prima di analizzare il tessuto rilevante per la diagnosi.
Rilevare artefatti come le bolle d'aria non è comunemente enfatizzato nella ricerca attuale, e non c'è molto focus su come farlo in modo efficace nel campo del CPATH. Le tecniche di Deep Learning (DL) hanno mostrato promesse nell'identificare artefatti, ma addestrare questi modelli tipicamente richiede molti dati etichettati, che sono spesso difficili da ottenere nel campo medico. Molti dataset esistenti non sono pubblicamente disponibili, rendendo ancora più difficile costruire modelli robusti.
Il Transfer Learning (TL) è un metodo che è stato utilizzato per colmare il divario causato dalla mancanza di dati. Permette a un modello addestrato su un compito di essere affinato per un altro compito. Tuttavia, molti metodi TL si basano su modelli pre-addestrati che potrebbero non funzionare bene nel nostro contesto; questi modelli spesso portano con sé una certa complessità inutile.
Con la popolarità dei transformers nell'elaborazione del linguaggio naturale, i ricercatori hanno iniziato a esplorare il loro uso nell'analisi delle immagini. I Vision Transformers (ViTs) hanno stabilito nuovi standard per performance ed efficienza in vari compiti di classificazione delle immagini. A differenza dei modelli tradizionali, che usano filtri fissi, i ViTs guardano l'immagine intera e prestano attenzione a diverse aree in base al contesto. Possono essere più adattabili, ma di solito hanno anche bisogno di dataset molto grandi per l'addestramento, il che è una sfida nei campi medici.
Per affrontare queste sfide, consideriamo un metodo chiamato Distillazione della Conoscenza (KD), dove la conoscenza di un modello insegnante più grande e complesso viene trasferita a un modello studente più piccolo. Questo approccio può aiutarci ad addestrare i ViTs su dataset più piccoli in modo efficace.
Il Processo di Rilevamento delle Bolle d'Aria
Per affrontare il compito di rilevare le bolle d'aria, definiamo un metodo che collega un modello complesso, che chiamiamo insegnante, a un modello più semplice, chiamato studente. Il modello insegnante è un modello di deep learning ben consolidato addestrato su un grande dataset. Il modello studente è il ViT, progettato per apprendere in modo più efficiente dall'insegnante.
Iniziamo preparando un dataset di immagini contenenti bolle d'aria e tessuto chiaro. Questo dataset è composto da patch estratte da WSIs che sono state scansionate da campioni di biopsia della vescica. Ognuna di queste patch è etichettata per indicare se contiene bolle d'aria o è priva di artefatti. Questo dataset di addestramento è diviso in tre parti: addestramento, validazione e test.
Per analizzare queste grandi immagini, utilizziamo un metodo chiamato patching, dove le immagini del vetrino vengono suddivise in sezioni più piccole. Questo consente di elaborare più facilmente. Prima, identifichiamo le parti delle immagini che contengono il tessuto e le separiamo dallo sfondo. Poi creiamo patch non sovrapposte da queste aree da inserire nei nostri modelli.
Il nostro obiettivo è addestrare il modello studente, il ViT, con la guida del modello insegnante. Il modello insegnante aiuta lo studente a imparare fornendo intuizioni basate sul suo addestramento precedente. Questo significa che quando il modello studente è esposto ai dati, può imparare non solo dalle etichette, ma anche dagli output del modello insegnante.
Addestramento dei Modelli
Una volta che abbiamo impostato i nostri modelli, iniziamo il processo di addestramento. L'obiettivo è consentire al modello studente di migliorare la sua capacità di classificare le bolle d'aria imparando dal modello insegnante. Questo addestramento implica la normalizzazione degli output di entrambi i modelli e l'uso di metodi per garantire che lo studente benefici dalla conoscenza dell'insegnante.
Per valutare quanto bene funzioni questo addestramento, utilizzeremo vari metriche. Queste includono accuratezza, F1-score e una misura chiamata Coefficiente di Correlazione di Matthews (MCC). Ognuna di queste metriche ci fornisce un'idea di quanto bene i modelli stiano performando nel rilevare bolle d'aria rispetto al tessuto chiaro.
Conduciamo una serie di esperimenti per confrontare diverse architetture e configurazioni, cercando di trovare le migliori configurazioni sia per l'insegnante che per lo studente. I nostri esperimenti mostrano che utilizzare il modello insegnante migliora significativamente le performance dello studente, specialmente quando l'insegnante ha conoscenze specializzate riguardo al compito da affrontare.
Risultati e Scoperte
Attraverso numerosi esperimenti, osserviamo come si comportano diverse configurazioni di modelli. Nel nostro primo set di test, valutiamo varie combinazioni di modelli. Diventa chiaro che modelli più semplici possono insegnare efficacemente agli studenti quando sono allineati con il compito-come il rilevamento delle bolle d'aria.
Scopriamo che avere il giusto modello insegnante è cruciale. Quando l'insegnante ha conoscenze rilevanti, lo studente performa significativamente meglio. I nostri test mostrano che il modello ViT può raggiungere un livello di performance comparabile ai modelli di deep learning tradizionali quando addestrato usando KD. Questo significa che possiamo addestrare efficacemente un modello più piccolo e più efficiente per eseguire un compito complesso con dati limitati.
In un'altra fase di test, analizziamo l'influenza di diversi parametri sul processo di addestramento. Modificando questi parametri, troviamo modi per migliorare l'esperienza di apprendimento del modello studente. Questi aggiustamenti ci permettono di massimizzare la conoscenza trasferita dall'insegnante allo studente.
In generale, gli esperimenti dimostrano che KD è un approccio promettente per addestrare i ViTs, in particolare quando si lavora con dataset limitati. Il processo ci consente di estrarre preziose intuizioni da modelli più complessi, rendendo il nostro processo di addestramento sia efficiente che efficace.
Conclusione e Direzioni Future
Questa ricerca sottolinea il potenziale di utilizzare la Distillazione della Conoscenza per migliorare le performance di Vision Transformers più piccoli nel contesto impegnativo del rilevamento delle bolle d'aria nelle immagini istologiche. Sfruttando i punti di forza di modelli più grandi e pre-addestrati, possiamo migliorare le capacità di modelli più semplici, puntando a creare strumenti più efficienti per la diagnostica medica.
Guardando avanti, questo metodo ha il potenziale per essere applicato a dataset più grandi, dove possiamo incorporare variazioni come diversi metodi di colorazione. Ci immaginiamo anche di estendere il nostro approccio per rilevare vari tipi di artefatti, il che migliorerebbe ulteriormente l'accuratezza dei sistemi di Patologia Computazionale.
In futuro, speriamo di integrare questo metodo di rilevamento degli artefatti come passo di preprocessing in sistemi diagnostici più ampi, fornendo un supporto prezioso e migliorando il processo decisionale nelle situazioni sanitarie. I risultati di questo studio aprono la strada allo sviluppo di soluzioni innovative che possono avere un impatto significativo sull'analisi delle immagini mediche e migliorare gli esiti per i pazienti.
Titolo: Vision Transformers for Small Histological Datasets Learned through Knowledge Distillation
Estratto: Computational Pathology (CPATH) systems have the potential to automate diagnostic tasks. However, the artifacts on the digitized histological glass slides, known as Whole Slide Images (WSIs), may hamper the overall performance of CPATH systems. Deep Learning (DL) models such as Vision Transformers (ViTs) may detect and exclude artifacts before running the diagnostic algorithm. A simple way to develop robust and generalized ViTs is to train them on massive datasets. Unfortunately, acquiring large medical datasets is expensive and inconvenient, prompting the need for a generalized artifact detection method for WSIs. In this paper, we present a student-teacher recipe to improve the classification performance of ViT for the air bubbles detection task. ViT, trained under the student-teacher framework, boosts its performance by distilling existing knowledge from the high-capacity teacher model. Our best-performing ViT yields 0.961 and 0.911 F1-score and MCC, respectively, observing a 7% gain in MCC against stand-alone training. The proposed method presents a new perspective of leveraging knowledge distillation over transfer learning to encourage the use of customized transformers for efficient preprocessing pipelines in the CPATH systems.
Autori: Neel Kanwal, Trygve Eftestol, Farbod Khoraminia, Tahlita CM Zuiverloon, Kjersti Engan
Ultimo aggiornamento: 2023-05-27 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.17370
Fonte PDF: https://arxiv.org/pdf/2305.17370
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.