Vorstellung des 2DeteCT-Datensatzes für CT-Bilder
Ein neuer Datensatz mit echten experimentellen CT-Bildern für die Forschung im Bereich maschinelles Lernen.
― 7 min Lesedauer
Inhaltsverzeichnis
Im Bereich der Bildgebung, besonders in Bereichen wie Medizin und Fertigung, spielt die Computertomographie (CT) eine entscheidende Rolle. CT nutzt Röntgenstrahlen, um Bilder vom Inneren von Objekten zu erstellen, was eine detaillierte Ansicht ermöglicht, ohne sie aufschneiden zu müssen. Allerdings erfordert die Entwicklung von Machine-Learning-Techniken (ML), die die CT-Bildgebung verbessern, eine Menge Daten zum Trainieren. Leider gibt es nicht genug experimentelle Datensätze. Die meisten bestehenden Studien stützen sich auf simulierte Daten, die nicht so zuverlässig sind wie echte Daten. Hier kommt der 2DeteCT-Datensatz ins Spiel.
Der Bedarf nach mehr Daten
Machine Learning, insbesondere Deep Learning, benötigt eine Menge hochwertiger Daten, um effektiv zu lernen. Für die CT-Bildgebung bedeutet das, eine grosse Anzahl von Bildern zu haben, die verschiedene Objekttypen in verschiedenen Situationen zeigen. Auch wenn es einige Datensätze gibt, haben sie oft Einschränkungen, wie zum Beispiel, dass sie zu klein sind oder aus simulierten Daten bestehen anstelle von echten Scans. Das macht es für Forscher schwierig, neue Bildgebungstechniken zu entwickeln und zu testen.
Der 2DeteCT-Datensatz hat sich zum Ziel gesetzt, diese Lücke zu füllen. Er bietet einen vielfältigen, offenen Datensatz von 2D-Fächerstrahl-CT-Bildern, der zur Entwicklung und Testung verschiedener neuer Bildgebungsverfahren genutzt werden kann. Dieser Datensatz besteht aus tausenden von CT-Schnitten, die unter unterschiedlichen Bedingungen aufgenommen wurden und ist damit ein wertvolles Tool für Forscher.
Wie der Datensatz erstellt wurde
Einen so grossen Datensatz zu erstellen, war nicht einfach. Es erforderte einen detaillierten und sorgfältig geplanten Prozess. Zuerst entwarfen die Forscher ein Scanning-Setup, das verschiedene Arten von Proben verarbeiten konnte. Sie erstellten eine Mischung aus Objekten mit unterschiedlichen Formen und Dichten, um sicherzustellen, dass der Datensatz eine hohe natürliche Variabilität aufweist.
Das Scannen wurde scheibenweise durchgeführt, insgesamt entstanden 5.000 Schnitte, mit Bildern, die mit verschiedenen Einstellungen aufgenommen wurden: einem Hochqualitätsmodus, einem Niedrigdosenmodus und einem Modus, der Artefakte zeigte. Zusätzlich zu diesen Hauptschnitten wurden 750 zusätzliche Schnitte mit anderen Einstellungen erfasst, um die Robustheit der Bildgebungstechniken zu testen.
Was 2DeteCT anders macht
Ein grosser Vorteil von 2DeteCT ist, dass er echte experimentelle Daten anstelle von simulierten Daten verwendet. Das ist ein riesiger Vorteil für Forscher, die Machine Learning auf reale Probleme anwenden wollen. Der Zugang zu Rohprojektdaten neben Referenzrekonstruktionen und Segmentierungen ermöglicht gründliche Tests und die Entwicklung neuer Techniken.
Der Datensatz enthält nicht nur Rohdaten, mit denen Forscher arbeiten können, sondern bietet auch verarbeitete Versionen, die zeigen, wie die endgültigen Bilder nach der Rekonstruktion aussehen. Dieses Feature stellt sicher, dass selbst diejenigen ohne spezialisierte Computerressourcen den Datensatz effektiv nutzen können.
Der Scan-Prozess
Um sicherzustellen, dass so viele Schnitte wie möglich mit minimalem menschlichem Eingreifen gesammelt werden konnten, wurde ein halbautomatisches Scanning-Verfahren entwickelt. Ziel war es, den Prozess so weit wie möglich zu automatisieren. Die Forscher bereiteten verschiedene Probenmischungen vor und liessen dann das Scanning-Protokoll selbstständig ablaufen. Diese Automatisierung ermöglichte es dem Team, über einen längeren Zeitraum eine grosse Anzahl von Schnitten zu sammeln.
Um Bilder zu erstellen, die denen in medizinischen CT-Scans ähneln, entwarfen die Forscher ein zylindrisches Rohr, das mit verschiedenen Probenmaterialien gefüllt war. Dieses Rohr diente als das zu scannende Objekt. Die Proben umfassten getrocknete Früchte und Nüsse, die aufgrund ihrer unterschiedlichen Dichten und Formen, die menschlichem Gewebe ähneln, ausgewählt wurden. Die Proben wurden sorgfältig kombiniert, um Lufttaschen zu vermeiden, die die Qualität der Scans beeinträchtigen könnten.
Die Wichtigkeit der Probenwahl
Die Auswahl der Objekte, die als Proben verwendet wurden, war entscheidend. Die Forscher wählten Gegenstände aus, die Variationen in der Dichte erzeugen würden, um eine realistischere Darstellung der menschlichen Anatomie zu schaffen. Beispielsweise wurden Walnüsse verwendet, um Knochen darzustellen, da ihre Dichte der echten Knochen dicht entspricht. Andere Gegenstände wie Rosinen und Feigen wurden hinzugefügt, um eine Bandbreite an weicheren Gewebedarstellungen zu bieten.
Die gewählte Mischung musste stabil sein, um lange Röntgenstrahlen ausgesetzt zu werden. Das war wichtig, denn die Proben mussten ihre Form und Dichte während des Scanprozesses beibehalten. Da die Scans über mehrere Monate durchgeführt wurden, ersetzten die Forscher die Probenmischung mehrmals, um ein Austrocknen zu vermeiden.
Das Scanning-Setup
Das Scanning-Setup wurde so gestaltet, dass es flexibel ist. Es musste verschiedene Anwendungen unterstützen, wie zum Beispiel das Reduzieren von Rauschen in Bildern oder das Handhaben unterschiedlicher Scanning-Winkel. Das Setup beinhaltete eine Kegelstrahl-Röntgenquelle und einen Flachbilddetektor, der die Bilder aufnahm. Verschiedene Strahlfilter wurden ebenfalls verwendet, um Artefakte zu reduzieren.
Um die Bildqualität zu maximieren, mussten mehrere Faktoren berücksichtigt werden. Dazu gehörte die Anpassung des Abstands zwischen der Röntgenquelle und dem Detektor, um eine optimale Abdeckung zu gewährleisten. Der Scanprozess umfasste mehrere Schritte, einschliesslich des Erwerbs von Dunkelfeld- und Flachfeldbildern, die halfen, die endgültigen Ergebnisse der Scans zu verbessern.
Datensammlung und -management
Nachdem die Scanning-Sitzungen abgeschlossen waren, wurden die Daten sorgfältig organisiert, um sie für Forscher zugänglich zu machen. Der Datensatz besteht aus tausenden von Projektbildern, die in Sinogramme kompiliert wurden. Ein Sinogramm kombiniert die Projektdaten für jeden Schnitt, was die Verwaltung erleichtert.
Jeder Schnitt hat zugehörige Dateien, einschliesslich der Rohprojektdaten und der entsprechenden Rekonstruktionen. Diese Dateien sind organisiert gespeichert, sodass die Nutzer die benötigten Daten leicht finden und nutzen können. Der Datensatz ist in mehrere Archive unterteilt, um sicherzustellen, dass er handhabbar bleibt und einfach heruntergeladen werden kann.
Benutzerzugänglichkeit
Um die Zugänglichkeit weiter zu verbessern, bietet der Datensatz nicht nur Rohdaten, sondern auch Referenzbilder. Diese Referenzrekonstruktionen sind entscheidend für Forscher, die ihre Ergebnisse mit bekannten Standards vergleichen müssen. Der Datensatz umfasst alle notwendigen Werkzeuge und Skripte, um den Nutzern zu helfen, die Daten effektiv zu verarbeiten.
Für Nutzer mit weniger Rechenleistung dienen die Referenzrekonstruktionen als nützliches Ressourcen. Sie können verwendet werden, um neue Algorithmen zu validieren oder als Grundlage für das Training von Machine-Learning-Modellen. Der Datensatz ermöglicht eine breite Palette von Experimenten, einschliesslich der Testung verschiedener Bildgebungstechniken und der Entwicklung neuer Algorithmen.
Mögliche Anwendungen des Datensatzes
Der 2DeteCT-Datensatz eröffnet zahlreiche Möglichkeiten für Forschung und Entwicklung. Er kann verwendet werden, um bestehende Bildgebungstechniken zu verbessern oder neue zu entwickeln. Beispielsweise können Forscher Möglichkeiten erkunden, um Niedrigdosen-Bildgebung zu verbessern, um Scans für Patienten sicherer zu machen. Der Datensatz eignet sich auch zum Erstellen von Algorithmen, die darauf abzielen, Rauschen und Artefakte in Bildern zu reduzieren.
Darüber hinaus kann der Datensatz als Plattform für das Training von Machine-Learning-Modellen dienen. Die Verfügbarkeit von gepaartem Material, wie Niedrigdosenbilder neben hochauflösenden Schnitten, ermöglicht Entwicklern, Algorithmen zu erstellen, die die Bildqualität in Echtzeit verbessern können.
Zukünftige Erweiterungen
Obwohl der Datensatz bereits eine Fülle von Informationen bietet, gibt es Pläne, ihn weiter auszubauen. Forscher sind eingeladen, neue Probenmischungen oder zusätzliche Schnitte vorzuschlagen, um die Datensammlung zu verbessern. Das Ziel ist es, den Datensatz weiterhin zu verbessern, um den sich entwickelnden Bedürfnissen der Forschungscommunity gerecht zu werden.
Durch das Hinzufügen weiterer Proben oder die Erstellung von Multiklassen-Segmentierungen kann der Datensatz in Komplexität und Nutzbarkeit wachsen. Dieser Ansatz stellt sicher, dass der 2DeteCT-Datensatz relevant und wertvoll für zukünftige Forschungen bleibt.
Fazit
Der 2DeteCT-Datensatz ist ein bedeutender Beitrag zum Bereich der Computertomographie und des Machine Learning. Durch die Bereitstellung einer Vielzahl hochwertiger, experimenteller Bildgebungsdaten unterstützt er die Entwicklung neuer Techniken und Algorithmen. Mit seiner detaillierten Organisation und Zugänglichkeit wird dieser Datensatz eine breite Palette von Forschern zugutekommen und den Weg für Fortschritte in der Bildgebungstechnologie und -anwendungen ebnen.
Titel: 2DeteCT -- A large 2D expandable, trainable, experimental Computed Tomography dataset for machine learning
Zusammenfassung: Recent research in computational imaging largely focuses on developing machine learning (ML) techniques for image reconstruction, which requires large-scale training datasets consisting of measurement data and ground-truth images. However, suitable experimental datasets for X-ray Computed Tomography (CT) are scarce, and methods are often developed and evaluated only on simulated data. We fill this gap by providing the community with a versatile, open 2D fan-beam CT dataset suitable for developing ML techniques for a range of image reconstruction tasks. To acquire it, we designed a sophisticated, semi-automatic scan procedure that utilizes a highly-flexible laboratory X-ray CT setup. A diverse mix of samples with high natural variability in shape and density was scanned slice-by-slice (5000 slices in total) with high angular and spatial resolution and three different beam characteristics: A high-fidelity, a low-dose and a beam-hardening-inflicted mode. In addition, 750 out-of-distribution slices were scanned with sample and beam variations to accommodate robustness and segmentation tasks. We provide raw projection data, reference reconstructions and segmentations based on an open-source data processing pipeline.
Autoren: Maximilian B. Kiss, Sophia B. Coban, K. Joost Batenburg, Tristan van Leeuwen, Felix Lucka
Letzte Aktualisierung: 2023-06-09 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2306.05907
Quell-PDF: https://arxiv.org/pdf/2306.05907
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.