Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Elaborazione di immagini e video# Apprendimento automatico

Presentiamo il dataset 2DeteCT per l'imaging CT

Un nuovo dataset che offre immagini CT sperimentali reali per la ricerca nel machine learning.

― 7 leggere min


Lancio del DatasetLancio del Dataset2DeteCTsull'imaging CT.Una risorsa fondamentale per la ricerca
Indice

Nel campo delle immagini, soprattutto in settori come la medicina e la produzione, la tomografia computerizzata (TC) gioca un ruolo fondamentale. La TC utilizza i raggi X per creare immagini dell'interno degli oggetti, permettendo di avere una vista dettagliata senza doverli aprire. Tuttavia, sviluppare tecniche di machine learning (ML) che migliorano l'imaging TC richiede un sacco di dati per l'addestramento. Purtroppo, non ci sono abbastanza dataset sperimentali disponibili. La maggior parte degli studi esistenti si basa su dati simulati, che non sono affidabili come i dati reali. Ed è qui che entra in gioco il dataset 2DeteCT.

La Necessità di Più Dati

Il machine learning, in particolare il deep learning, ha bisogno di molti dati di alta qualità per apprendere in modo efficace. Per l'imaging TC, questo significa avere un gran numero di immagini che mostrano diversi tipi di oggetti in varie situazioni. Anche se ci sono alcuni dataset là fuori, spesso hanno limitazioni come essere troppo piccoli o provenire da dati simulati invece che da scansioni reali. Questo rende difficile per i ricercatori sviluppare e testare nuove tecniche di imaging.

Il dataset 2DeteCT mira a colmare questa lacuna. Offre un dataset aperto e diversificato di immagini TC 2D a fascio conico che possono essere utilizzate per sviluppare e testare una varietà di nuovi metodi di imaging. Questo dataset è composto da migliaia di fette TC, ognuna presa in diverse condizioni, rendendolo uno strumento prezioso per i ricercatori.

Come è Stato Creato il Dataset

Creare un dataset così ampio non è stato facile. Ha comportato un processo dettagliato e ben pianificato. Prima, i ricercatori hanno progettato un setup di scansione che potesse gestire vari tipi di campioni. Hanno creato un misto di oggetti con forme e densità diverse per garantire che il dataset avesse un'alta variabilità naturale.

La scansione è stata effettuata fetta per fetta, per un totale di 5.000 fette, con immagini acquisite utilizzando diverse impostazioni: una modalità ad alta qualità, una modalità a bassa dose e una modalità che mostrava artefatti. Oltre a queste fette principali, sono state catturate 750 fette extra con impostazioni diverse per testare la robustezza delle tecniche di imaging.

Cosa Rende 2DeteCT Diverso

Uno dei principali vantaggi di 2DeteCT è che utilizza dati sperimentali reali invece di dati simulati. Questo è un grande beneficio per i ricercatori che vogliono applicare il machine learning a problemi reali. Avere accesso ai dati di proiezione grezzi insieme a ricostruzioni di riferimento e segmentazioni consente di testare e sviluppare nuove tecniche in modo approfondito.

Non solo il dataset include dati grezzi con cui i ricercatori possono lavorare, ma fornisce anche versioni elaborate che mostrano come appaiono le immagini finali dopo la ricostruzione. Questa caratteristica assicura che anche coloro che non hanno risorse di calcolo specializzate possano utilizzare il dataset in modo efficace.

Il Processo di Scansione

Per garantire che si potessero raccogliere il maggior numero possibile di fette con il minimo intervento umano, è stata sviluppata una procedura di scansione semi-automatica. L'obiettivo era automatizzare il processo il più possibile. I ricercatori hanno preparato diversi mix di campioni e poi hanno lasciato che il protocollo di scansione funzionasse da solo. Questa automazione ha permesso al team di raccogliere un gran numero di fette nel tempo.

Per creare immagini che assomigliano a quelle viste nelle scansioni TC mediche, i ricercatori hanno progettato un tubo cilindrico riempito con vari materiali campione. Questo tubo fungeva da oggetto da scansionare. I campioni includevano frutta secca e noci, scelti per la loro diversità di densità e forme che imitano i tessuti umani. I campioni sono stati accuratamente combinati per evitare sacche d'aria, che potrebbero influire sulla qualità delle scansioni.

L'Importanza della Scelta dei Campioni

La selezione degli oggetti usati come campioni era fondamentale. I ricercatori hanno scelto oggetti che potessero produrre variazioni di densità, creando una rappresentazione più realistica dell'anatomia umana. Ad esempio, hanno usato noci per rappresentare le ossa, poiché la loro densità assomiglia molto a quella delle ossa reali. Altri oggetti come uvetta e fichi sono stati inclusi per fornire una gamma di rappresentazioni di tessuti più morbidi.

Il mix scelto doveva essere stabile per esposizioni prolungate ai raggi X. Questo era importante perché i campioni dovevano mantenere la loro forma e densità durante il processo di scansione. Poiché le scansioni sono state condotte nel corso di diversi mesi, i ricercatori hanno sostituito più volte il mix di campioni per evitare che si seccassero.

Il Setup di Scansione

Il setup di scansione è stato progettato per garantire flessibilità. Doveva supportare varie applicazioni, come ridurre il rumore nelle immagini o gestire diversi angoli di scansione. Il setup includeva una sorgente di raggi X a fascio conico e un rivelatore a pannello piatto che catturava le immagini. Sono stati utilizzati anche filtri di fascio diversi per ridurre artefatti.

Per massimizzare la qualità dell'immagine, diversi fattori dovevano essere considerati. Questo includeva l'aggiustamento della distanza tra la sorgente di raggi X e il rivelatore per garantire una copertura ottimale. Il processo di scansione ha comportato più passaggi, tra cui l'acquisizione di immagini a campo scuro e a campo piatto, che hanno aiutato a migliorare i risultati finali delle scansioni.

Raccolta e Gestione dei Dati

Una volta completate le sessioni di scansione, i dati sono stati organizzati meticolosamente per renderli accessibili ai ricercatori. Il dataset è composto da migliaia di immagini di proiezione, che sono state compilate in sinogrammi. Un sinogramma combina i dati di proiezione per ogni fetta, rendendo più facile la gestione.

Ogni fetta ha file associati, inclusi i dati di proiezione grezzi e le loro corrispondenti ricostruzioni. Questi file sono memorizzati in modo organizzato, consentendo agli utenti di trovare e utilizzare facilmente i dati di cui hanno bisogno. Il dataset è diviso in più archivi per garantire che rimanga gestibile e facile da scaricare.

Accessibilità per gli Utenti

Per migliorare ulteriormente l'accessibilità, il dataset fornisce non solo dati grezzi ma anche immagini di riferimento. Queste ricostruzioni di riferimento sono essenziali per i ricercatori che devono confrontare i propri risultati con standard noti. Il dataset include tutti gli strumenti e gli script necessari per aiutare gli utenti a elaborare i dati in modo efficace.

Per gli utenti con meno potenza di calcolo, le ricostruzioni di riferimento servono come una risorsa utile. Possono essere utilizzate per convalidare nuovi algoritmi o come verità di base per l'addestramento di modelli di machine learning. Il dataset consente una vasta gamma di esperimenti, compreso il test di diverse tecniche di imaging e lo sviluppo di nuovi algoritmi.

Potenziali Usi del Dataset

Il dataset 2DeteCT apre numerose possibilità per la ricerca e lo sviluppo. Può essere utilizzato per migliorare le tecniche di imaging esistenti o per svilupparne di nuove. Ad esempio, i ricercatori possono esplorare modi per migliorare l'imaging a bassa dose, rendendo le scansioni più sicure per i pazienti. Il dataset è anche adatto per costruire algoritmi che mirano a ridurre il rumore e gli artefatti nelle immagini.

Inoltre, il dataset può servire come piattaforma per addestrare modelli di machine learning. La disponibilità di dati accoppiati, come immagini a bassa dose accanto a fette ad alta fedeltà, consente agli sviluppatori di creare algoritmi capaci di migliorare la qualità delle immagini in tempo reale.

Future Espansioni

Anche se il dataset ha già una grande quantità di informazioni, ci sono piani per espanderlo ulteriormente. I ricercatori sono incoraggiati a suggerire nuovi mix di campioni o fette aggiuntive per migliorare la raccolta dati. L'obiettivo è continuare a migliorare il dataset per soddisfare le esigenze in evoluzione della comunità di ricerca.

Aggiungendo più campioni o creando segmentazioni multi-classe, il dataset può crescere in complessità e usabilità. Questo approccio assicura che il dataset 2DeteCT rimanga rilevante e prezioso per la ricerca futura.

Conclusione

Il dataset 2DeteCT è un contributo significativo al campo della tomografia computerizzata e del machine learning. Fornendo una vastissima quantità di dati di imaging sperimentali di alta qualità, supporta lo sviluppo di nuove tecniche e algoritmi. Con la sua organizzazione dettagliata e l'accessibilità, questo dataset si preannuncia utile per un'ampia gamma di ricercatori, aprendo la strada a progressi nelle tecnologie e applicazioni di imaging.

Fonte originale

Titolo: 2DeteCT -- A large 2D expandable, trainable, experimental Computed Tomography dataset for machine learning

Estratto: Recent research in computational imaging largely focuses on developing machine learning (ML) techniques for image reconstruction, which requires large-scale training datasets consisting of measurement data and ground-truth images. However, suitable experimental datasets for X-ray Computed Tomography (CT) are scarce, and methods are often developed and evaluated only on simulated data. We fill this gap by providing the community with a versatile, open 2D fan-beam CT dataset suitable for developing ML techniques for a range of image reconstruction tasks. To acquire it, we designed a sophisticated, semi-automatic scan procedure that utilizes a highly-flexible laboratory X-ray CT setup. A diverse mix of samples with high natural variability in shape and density was scanned slice-by-slice (5000 slices in total) with high angular and spatial resolution and three different beam characteristics: A high-fidelity, a low-dose and a beam-hardening-inflicted mode. In addition, 750 out-of-distribution slices were scanned with sample and beam variations to accommodate robustness and segmentation tasks. We provide raw projection data, reference reconstructions and segmentations based on an open-source data processing pipeline.

Autori: Maximilian B. Kiss, Sophia B. Coban, K. Joost Batenburg, Tristan van Leeuwen, Felix Lucka

Ultimo aggiornamento: 2023-06-09 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.05907

Fonte PDF: https://arxiv.org/pdf/2306.05907

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili