Migliorare la Radioterapia attraverso Tecniche di Auto-Segmentazione
Uno studio rivela risultati importanti sui bisogni di dati per le CNN nella radioterapia.
― 6 leggere min
Indice
Molte persone affrontano il cancro nella loro vita e un numero significativo riceverà radioterapia come parte del trattamento. Quando i pazienti di radioterapia seguono il trattamento, fanno una scansione speciale chiamata tomografia computerizzata (TC). Questa scansione aiuta i medici a pianificare come somministrare la radiazione in modo da colpire il tumore proteggendo gli organi sani vicini, noti come organi a rischio (OAR). Ottenere immagini accurate di questi organi è fondamentale per garantire i migliori risultati di trattamento. Tuttavia, contrassegnare manualmente questi organi nelle scansioni può essere lento e può variare da un medico all'altro. Per questo motivo, gli scienziati si stanno orientando verso una tecnologia chiamata reti neurali convoluzionali (CNN) per identificare automaticamente questi organi nelle scansioni.
Il Problema
Il Deep Learning, che include le CNN, è noto per funzionare meglio quando è addestrato su set di dati più ampi. Ma per la radioterapia, non ci sono molte immagini di alta qualità disponibili e contrassegnare queste immagini richiede molto tempo. Quindi, è importante scoprire quanti dati siano effettivamente necessari per addestrare le CNN a identificare con precisione gli OAR nelle scansioni TC 3D. Questo studio si concentra sulla comprensione di questa necessità specificamente per le regioni della testa e del collo.
Inoltre, i ricercatori hanno esaminato anche diverse strategie, note come metodi di ensemble, in cui le previsioni di diversi modelli addestrati vengono combinate per migliorare le prestazioni di segmentazione.
Impostazione dello Studio
In questo studio, i dati sono stati raccolti da un'istituzione, che includeva 1215 scansioni TC già segmentate da professionisti per il tronco encefalico, le ghiandole parotidi e una parte del midollo spinale. Di queste scansioni, 215 sono state messe da parte per testare le prestazioni del modello in un secondo momento, lasciando 1000 scansioni utilizzate per addestrare il modello.
Il modello stabilito per la segmentazione automatica degli organi della testa e del collo è stato addestrato da zero utilizzando vari set di dati più piccoli: 25, 50, 100, 250, 500, 800 e 1000 scansioni. Per ciascun set, è stato utilizzato un metodo chiamato validazione incrociata a 5 pieghe, che prevede di dividere i dati in cinque parti, addestrare su quattro parti e testare sulla quinta. Questo passaggio è stato ripetuto in modo che ciascuna parte potesse essere utilizzata per testare ad un certo punto.
Strategie di Inferenza
Dopo l’addestramento, è stato scelto il modello con le migliori performance da ognuna delle cinque parti, in base a quanto bene ha segmentato gli organi. I ricercatori hanno esaminato due misure specifiche per valutare le prestazioni, che aiutano a indicare quanto bene le segmentazioni corrispondano alle forme reali degli organi.
Successivamente, sono stati testati quattro diversi metodi di ensemble per vedere se combinare le previsioni dei cinque modelli potesse fornire risultati migliori:
- Somma dei Logits: le probabilità previste da tutti i modelli sono state sommate prima di creare una maschera di segmentazione finale.
- Somma del Softmax: simile al primo metodo, ma qui le probabilità di ciascun modello sono passate attraverso un processo chiamato Softmax prima di essere combinate e convertite in una maschera.
- Voto di Maggioranza: ogni modello ha creato la propria maschera. La maschera finale è stata decisa in base alla classe che appariva più frequentemente per ogni posizione nell'immagine.
- STAPLE: ogni modello ha creato la propria maschera e poi è stato applicato un algoritmo comunemente usato per creare una maschera di consenso.
Tutti questi metodi sono stati testati sul set di 215 scansioni non viste. I risultati sono stati confrontati per vedere quale metodo ha fornito le migliori prestazioni.
Risultati dello Studio
I risultati hanno mostrato che man mano che la dimensione dei Dati di addestramento aumentava, anche le prestazioni dei modelli miglioravano. Tuttavia, dopo aver raggiunto una dimensione di 250 scansioni, ulteriori dati non sembravano fornire benefici significativi in termini di prestazioni.
Le tecniche di ensemble hanno prodotto tutte risultati migliori rispetto all'uso di un solo modello. I primi tre metodi di ensemble sono stati notevolmente migliori per tutte le dimensioni dei dati. In particolare, il metodo STAPLE, pur essendo ancora utile, non ha funzionato bene come gli altri e a volte ha dato segmentazioni meno accurate rispetto al modello singolo migliore.
È interessante notare che, anche se STAPLE non ha fornito la migliore qualità complessiva, non ha commesso gravi errori nelle segmentazioni. Tendeva spesso ad essere leggermente troppo generoso nel delineare i volumi organici, il che significava che a volte marcava più area di quanto avrebbe dovuto.
Classifica dei Metodi di Ensemble
Lo studio ha anche incluso un sistema di valutazione per classificare quanto bene questi metodi di ensemble hanno funzionato. I metodi che hanno avuto migliori performance sono stati la somma del Softmax e le tecniche di voto di maggioranza. D'altra parte, STAPLE si è classificato al di sotto in termini di efficacia ma ha comunque mostrato miglioramenti rispetto al modello singolo migliore.
Conclusioni
Questo studio ha chiarito di quanto dato di addestramento sia necessario per addestrare le CNN per una segmentazione automatica efficace nelle scansioni della testa e del collo. È stato concluso che 250 campioni clinici erano sufficienti, poiché ulteriori dati non portavano a miglioramenti sostanziali nelle prestazioni.
Inoltre, lo studio ha evidenziato che alcune strategie di ensemble possono migliorare notevolmente le prestazioni di segmentazione, soprattutto quando la quantità di dati di addestramento è bassa.
Tecniche di segmentazione automatica efficaci sono particolarmente vitali quando i dati sono limitati, come nei casi che coinvolgono anatomie rare o strutture complesse. In questi scenari, l'applicazione di metodi di ensemble può portare a una maggiore accuratezza e affidabilità nelle segmentazioni automatiche.
Importanza dei Dati di Alta Qualità
Sebbene siano stati fatti progressi nell'uso di tecniche di ensemble per migliorare le prestazioni di segmentazione, lo studio ha anche sottolineato l'importanza di avere dati di addestramento di alta qualità. Il modello CNN utilizzato era originariamente progettato per dati limitati e ha funzionato bene quando addestrato con solo un piccolo numero di scansioni di alta qualità. Tuttavia, in questo studio, i modelli sono stati addestrati utilizzando scansioni cliniche che possono variare da un praticante all'altro. Pertanto, ci sono ancora possibilità di migliorare i risultati concentrandosi sulla raccolta di dati di addestramento consistenti e di alta qualità.
Direzioni Future
Andando avanti, i ricercatori mirano a sviluppare metodi che possano ulteriormente migliorare le prestazioni di segmentazione. Un approccio potrebbe includere il perfezionamento del processo di raccolta e annotazione dei dati di addestramento per garantire coerenza e standard di alta qualità.
L'uso di tecniche di ensemble sembra promettente, soprattutto in situazioni in cui i dati sono limitati. Concentrandosi sulla combinazione di più previsioni, è possibile ottenere risultati più affidabili e accurati, il che è cruciale per piani di trattamento efficace per i pazienti. I risultati di questo studio possono servire da trampolino di lancio per sviluppare metodi più efficienti e robusti per la segmentazione automatica nell'imaging medico.
Titolo: The impact of training dataset size and ensemble inference strategies on head and neck auto-segmentation
Estratto: Convolutional neural networks (CNNs) are increasingly being used to automate segmentation of organs-at-risk in radiotherapy. Since large sets of highly curated data are scarce, we investigated how much data is required to train accurate and robust head and neck auto-segmentation models. For this, an established 3D CNN was trained from scratch with different sized datasets (25-1000 scans) to segment the brainstem, parotid glands and spinal cord in CTs. Additionally, we evaluated multiple ensemble techniques to improve the performance of these models. The segmentations improved with training set size up to 250 scans and the ensemble methods significantly improved performance for all organs. The impact of the ensemble methods was most notable in the smallest datasets, demonstrating their potential for use in cases where large training datasets are difficult to obtain.
Autori: Edward G. A. Henderson, Marcel van Herk, Eliana M. Vasquez Osorio
Ultimo aggiornamento: 2023-03-30 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.17318
Fonte PDF: https://arxiv.org/pdf/2303.17318
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.