Sfide nell'analisi delle immagini istopatologiche usando il deep learning
Indagine sui problemi del dataset che influenzano l'accuratezza della classificazione delle immagini tessutali.
Andrey Ignatov, Grigory Malivenko
― 5 leggere min
Indice
L'istopatologia è lo studio delle malattie nei tessuti. Si tratta di esaminare campioni di tessuto al microscopio per identificare malattie come il cancro. Recentemente, la tecnologia ha reso possibile analizzare queste immagini ad alta risoluzione usando il deep learning, un tipo di intelligenza artificiale. Questo approccio mira ad aiutare medici e ricercatori a identificare e classificare i campioni di tessuto in modo più accurato e veloce.
Il Problema con i Dataset Attuali
Molti approcci che usano il deep learning hanno mostrato alta precisione nell'analizzare le immagini dei tessuti. Tuttavia, c'è un problema cruciale: la qualità dei dataset usati per addestrare questi modelli può influenzare molto i risultati. Alcuni dataset potrebbero avere dei bias a causa di come sono state scattate o elaborate le immagini, che non hanno nulla a che fare con le malattie reali in studio.
Per esempio, un dataset popolare, NCT-CRC-HE-100K, è stato ampiamente usato ma ha molti problemi che ne minano l'affidabilità. I problemi includono una scarsa correzione del colore, artefatti di qualità dell'immagine e anche alcune immagini completamente inutilizzabili. Questi problemi possono ingannare i modelli facendoli sbagliare nelle previsioni.
Analisi del Dataset NCT-CRC-HE
Il dataset NCT-CRC-HE è composto da 100.000 immagini usate per l'addestramento e 7.180 immagini per il test. Queste immagini sono suddivise in nove classi in base ai tipi di tessuti, incluso il tessuto sano e diversi tipi di tessuti cancerosi. Questo dataset è popolare tra i ricercatori per sviluppare e testare nuovi modelli.
Nonostante il suo utilizzo, questo dataset presenta delle incoerenze. Diverse immagini potrebbero essere state catturate in condizioni diverse, portando a variazioni nell'aspetto dei tessuti. Questa situazione può confondere i modelli, poiché potrebbero apprendere da queste incoerenze invece di concentrarsi sulle reali caratteristiche del tessuto che indicano la malattia.
Deep Learning e Analisi delle Immagini
I modelli di deep learning sono progettati per apprendere schemi complessi dai dati. Lo fanno analizzando molte caratteristiche automaticamente, invece di dipendere dagli esseri umani per programmare regole specifiche. Questo significa che possono identificare differenze sottili nelle immagini che potrebbero sfuggire all'occhio umano. Tuttavia, se i dati contengono molti artefatti o bias, i modelli potrebbero concentrarsi su questi problemi invece che sulle caratteristiche rilevanti necessarie per un'analisi accurata.
Quando i ricercatori hanno iniziato a esaminare i dataset come NCT-CRC-HE più da vicino, hanno trovato problemi significativi. Ad esempio, le differenze di colore tra i tipi di tessuto possono creare una firma unica che i modelli riconoscono, portandoli a classificare le immagini principalmente in base al colore invece che a reali indicatori di malattia.
Risultati dall'Analisi del Dataset
L'analisi del dataset NCT-CRC-HE ha svelato diversi problemi chiave:
Problemi di Normalizzazione del Colore: Il metodo usato per regolare i colori nelle immagini non ha risolto adeguatamente le variazioni. Di conseguenza, ogni tipo di tessuto mostra ancora una forte firma di colore che può ingannare i modelli.
Artefatti di Compressione JPEG: Molte immagini salvate in formato JPEG mostrano artefatti evidenti a causa della scarsa qualità di compressione. Questi artefatti possono essere facilmente riconosciuti dai modelli di deep learning, il che potrebbe portarli a concentrarsi su questi difetti invece che sulle caratteristiche importanti del tessuto stesso.
Immagini corrotte: Alcune immagini erano state così male elaborate che non avevano più alcuna informazione biologica significativa. Ad esempio, alcune zone delle immagini risultavano pixelate o avevano tonalità di colore strane, rendendole inutilizzabili per un'analisi accurata.
Qualità Incoerente tra le Classi: La qualità delle immagini variava non solo tra classi diverse ma anche all'interno della stessa classe. Questa incoerenza può portare i modelli ad apprendere a identificare le classi in base alle differenze di qualità anziché a criteri biologici reali.
Risultati Sperimentali
Per dimostrare l'ampiezza di questi problemi, i ricercatori hanno condotto esperimenti per vedere quanto bene anche modelli semplici potessero classificare le immagini. Hanno trovato che:
- Un modello base che usava solo tre caratteristiche di colore (intensità di rosso, verde e blu) ha raggiunto oltre il 50% di accuratezza.
- Un modello che analizzava gli istogrammi dei colori riusciva a classificare correttamente circa l'82% delle immagini, ancora senza fare affidamento su caratteristiche biologiche complesse.
- Usando un modello di deep learning pre-addestrato, i ricercatori hanno ottenuto una precisione superiore al 97,7%, indicando che il livello elevato di accuratezza non era dovuto alle sofisticate capacità del deep learning, ma piuttosto alle caratteristiche del dataset stesso.
Questi risultati hanno sollevato preoccupazioni su quanto bene i modelli di deep learning potessero funzionare in ambienti clinici reali. Se le previsioni di un modello si basano più su colori o artefatti delle immagini piuttosto che sui segni biologici della malattia, la sua utilità è notevolmente limitata.
Implicazioni per la Ricerca Futura
I risultati di questa analisi hanno diverse implicazioni:
Design del Modello: I futuri modelli devono essere progettati e valutati con attenzione per garantire che si concentrino sulle caratteristiche rilevanti per la classificazione. Semplicemente utilizzare modelli di deep learning potenti senza affrontare i problemi dei dati può portare a overfitting, dove il modello impara a identificare il rumore invece dei veri schemi.
Preparazione del Dataset: È fondamentale migliorare la qualità dei dataset. Devono essere sviluppate e applicate tecniche di normalizzazione adeguate per minimizzare le variazioni causate da attrezzature, metodi di elaborazione e altri fattori esterni.
Interpretazione dei Risultati: I ricercatori e i clinici devono essere cauti quando interpretano i risultati di modelli addestrati su dataset difettosi. Alti livelli di accuratezza potrebbero non rappresentare il reale potere predittivo legato alla biologia sottostante delle malattie.
Pratiche di Standardizzazione: Stabilire pratiche standard per la raccolta e l'elaborazione dei dati in istopatologia potrebbe aiutare a creare dataset più affidabili. Questa standardizzazione consentirebbe una migliore formazione e valutazione dei modelli, portando a strumenti diagnostici più robusti.
Conclusione
L'analisi del dataset NCT-CRC-HE evidenzia sfide significative nell'analisi delle immagini istopatologiche. Nonostante i progressi nel deep learning, la qualità dei dati di addestramento influisce direttamente sulle prestazioni del modello. Man mano che il campo avanza, garantire l'integrità dei dati e l'affidabilità dei modelli sarà fondamentale per sviluppare strumenti diagnostici efficaci da utilizzare nella salute. Affrontando questi problemi, i ricercatori possono aprire la strada a applicazioni più accurate e utili dell'IA in medicina.
Titolo: NCT-CRC-HE: Not All Histopathological Datasets Are Equally Useful
Estratto: Numerous deep learning-based solutions have been proposed for histopathological image analysis over the past years. While they usually demonstrate exceptionally high accuracy, one key question is whether their precision might be affected by low-level image properties not related to histopathology but caused by microscopy image handling and pre-processing. In this paper, we analyze a popular NCT-CRC-HE-100K colorectal cancer dataset used in numerous prior works and show that both this dataset and the obtained results may be affected by data-specific biases. The most prominent revealed dataset issues are inappropriate color normalization, severe JPEG artifacts inconsistent between different classes, and completely corrupted tissue samples resulting from incorrect image dynamic range handling. We show that even the simplest model using only 3 features per image (red, green and blue color intensities) can demonstrate over 50% accuracy on this 9-class dataset, while using color histogram not explicitly capturing cell morphology features yields over 82% accuracy. Moreover, we show that a basic EfficientNet-B0 ImageNet pretrained model can achieve over 97.7% accuracy on this dataset, outperforming all previously proposed solutions developed for this task, including dedicated foundation histopathological models and large cell morphology-aware neural networks. The NCT-CRC-HE dataset is publicly available and can be freely used to replicate the presented results. The codes and pre-trained models used in this paper are available at https://github.com/gmalivenko/NCT-CRC-HE-experiments
Autori: Andrey Ignatov, Grigory Malivenko
Ultimo aggiornamento: 2024-09-17 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2409.11546
Fonte PDF: https://arxiv.org/pdf/2409.11546
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.