Verbesserung der KI-Annotations in der medizinischen Bildgebung
Neue Methoden verbessern die Qualität von KI-generierten Annotationen in der medizinischen Bildgebung.
― 8 min Lesedauer
Inhaltsverzeichnis
- Der Bedarf an Annotationen
- KI in der Annotation
- Vorgeschlagene Methoden zur Qualitätskontrolle
- Interaktive Visualisierung der Ergebnisse
- Zusammenfassungsseite
- Plotseite
- Bewertung der linken vs. rechten Volumina der Rippen
- Konsistenz der Volumen innerhalb von Patienten
- Vergleich mit Bevölkerungsstudien
- Einschränkungen der Heuristiken
- Zukünftige Richtungen
- Fazit
- Originalquelle
- Referenz Links
Medizinische Bildgebung ist mega wichtig für die Diagnose und Behandlung von Krankheiten. Aber eine grosse Herausforderung ist es, detaillierte Annotationen für grosse medizinische Bildgebungs-Datensätze zu erstellen, die für eine bessere Patientenanalyse gebraucht werden. Die manuelle Erstellung dieser Annotationen kostet viel Zeit und Mühe, und es gibt Unterschiede darin, wie verschiedene Ärzte die Bilder beschriften. Um diese Last zu erleichtern, wird Künstliche Intelligenz (KI) genutzt, um diese Annotationen automatisch zu generieren. Trotzdem fehlt vielen KI-generierten Annotationen die Validierung durch Experten, was zu Unsicherheiten über ihre Genauigkeit führen kann.
Als Reaktion darauf wurde ein neuer Datensatz veröffentlicht, der Annotationen und Merkmale für verschiedene Organe enthält, die in einer grossen Screening-Studie zu Lungenkrebs untersucht wurden. Obwohl der Datensatz wertvoll ist, fehlen ihm die von Experten geprüften Annotationen und Bewertungen der Genauigkeit der KI-Segmentierungen. Das schränkt die praktische Nutzung ein. Um dieses Problem zu lösen, schlagen wir Methoden vor, um die Qualität der KI-generierten Segmentierungen zu bewerten, und bieten Werkzeuge an, um zu messen, wie konsistent die Annotationen sind und die Ergebnisse mit bestehenden Studien zu vergleichen.
Der Bedarf an Annotationen
Medizinische Bildgebungs-Datensätze sind entscheidend für Forschung und Patientenversorgung. Wenn diese Datensätze keine klaren Annotationen haben, wird es schwierig, sie effektiv zu nutzen. Grosse Datensätze, wie die von Lungen-Screenings, haben Tausende von Scans, was eine manuelle Annotation unpraktisch macht. KI-Modelle haben Potenzial gezeigt, um automatisch verschiedene anatomische und pathologische Strukturen in medizinischen Bildern zu beschriften, einschliesslich fortschrittlicher Techniken, die mit mehreren Bildgebungsarten wie CT und MRT umgehen können.
Trotz Fortschritten bei den KI-Beschriftungsmethoden sind viele öffentlich verfügbare Datensätze immer noch ohne angemessene Annotationen. Eine prominente Quelle von Bilddaten stammt aus einer grossen Lungenkrebs-Screening-Studie, die umfangreiche CT-Scans von Tausenden von Patienten enthält. Bis vor kurzem hatten diese Scans keine Beschriftungen, was es schwierig machte, diesen Reichtum an Daten effektiv zu nutzen.
KI in der Annotation
Um die Nützlichkeit dieser grossen Datensätze zu verbessern, wurden KI-Modelle wie TotalSegmentator entwickelt. Dieses Modell kann eine Vielzahl anatomischer Strukturen in CT-Scans annotieren, wodurch der Prozess der Erstellung von Annotationen schneller und einfacher wird. Aber selbst mit diesen Fortschritten fehlen in vielen öffentlich verfügbaren Datensätzen immer noch umfassende Annotationen. Diese Lücken bedeuten, dass Forscher immer noch auf manuelle Überprüfungen angewiesen sind, um die Genauigkeit sicherzustellen.
Das schiere Volumen der KI-generierten Segmentierungen bringt praktische Herausforderungen bei der Bestätigung ihrer Richtigkeit mit sich. Die meisten bestehenden Methoden zur Analyse dieser Ergebnisse konzentrieren sich darauf, die generierten Segmentierungen mit Expertenannotation oder Grundwahrheiten zu vergleichen, die oft fehlen. Diese Situation zeigt, dass es einfachere Möglichkeiten braucht, um die Qualität der Segmentierungen zu bewerten, ohne sich strikt auf die Validierung durch Experten zu verlassen.
Vorgeschlagene Methoden zur Qualitätskontrolle
Um der Notwendigkeit nach besserer Überwachung der KI-generierten Annotationen nachzukommen, schlagen wir vor, einfache Heuristiken zu verwenden, um deren Qualität zu überprüfen. Das Ziel ist es, Fehler zu identifizieren und die Leistung der Segmentierungen zu bewerten. Diese Heuristiken beruhen nicht auf fortschrittlichen maschinellen Lerntechniken, was sie potenziell auf verschiedene Datensätze anwendbar macht, die über die spezifischen Instanzen hinaus bewertet werden.
Die Heuristiken konzentrieren sich auf spezifische Kriterien:
- Vollständigkeit der Segmentierung: Sicherstellen, dass die Segmentierung die gesamte relevante Anatomie abdeckt und nicht aufgrund der Scangrenzen abgeschnitten ist.
- Zusammenhängende Komponenten: Jede anatomische Struktur sollte idealerweise als ein zusammenhängendes Stück in der Segmentierung dargestellt werden.
- Korrekte Lateralisierung: Das Modell sollte genau identifizieren, zu welcher Seite (links oder rechts) des Körpers eine bestimmte Struktur gehört.
- Mindestvolumen: Das Volumen des segmentierten Bereichs sollte einen Schwellenwert erreichen, um zu vermeiden, dass kleinere Artefakte als echte anatomische Strukturen fehlbeschriftet werden.
Diese Heuristiken helfen dabei, Segmente herauszufiltern, die möglicherweise unzuverlässig oder falsch sind, und verbessern die Gesamtqualität des Datensatzes.
Interaktive Visualisierung der Ergebnisse
Um die Analyse der KI-generierten Segmentierungsergebnisse zugänglicher zu machen, haben wir ein benutzerfreundliches Dashboard entwickelt. Dieses Dashboard bietet Werkzeuge für Forscher, um die Daten zu erkunden und die Ergebnisse der Heuristiken effektiv zu bewerten. Das Dashboard hat zwei Hauptbereiche: eine Zusammenfassungsseite und eine Plotseite.
Zusammenfassungsseite
Die Zusammenfassungsseite des Dashboards bietet einen Überblick darüber, wie viele Segmente jede der Heuristiken bestanden haben. Nutzer können leicht erkennen, welche Segmentierungen problematisch sein könnten. Indem sie die Tabelle durchsehen, können Forscher sich auf spezifische Interessensbereiche konzentrieren.
Plotseite
Die Plotseite bietet dynamische Visualisierungen, mit denen Nutzer Ergebnisse basierend auf verschiedenen Parametern filtern können. Es werden zwei Arten von Plots präsentiert: Violin-Plots, die zeigen, wie konsistent die Volumenmessungen vor und nach der Anwendung der Heuristiken sind, und Upset-Plots, die die Anzahl der Segmente, die die Heuristikprüfungen bestanden oder nicht bestanden haben, veranschaulichen. Diese visuellen Werkzeuge bieten Einblicke in die Effektivität der angewandten Heuristiken.
Bewertung der linken vs. rechten Volumina der Rippen
Rippen sind Bereiche, in denen es aufgrund ihrer Grösse und der Komplexität ihrer Position zu Ungenauigkeiten in der Segmentierung kommen kann. In dieser Studie haben wir uns auf die Segmentierungen der linken und rechten Rippen konzentriert und ihre Volumina verglichen, um die Konsistenz zu bewerten. Durch die Berechnung einer normalisierten Differenz zwischen den Volumina der linken und rechten Rippen konnten wir signifikante Abweichungen feststellen.
Bei der Anwendung der Heuristiken haben wir festgestellt, dass das Filtern von Segmenten die Konsistenz der Volumenmessungen der Rippen verbessert hat. Jede Heuristik diente dazu, die Daten zu verfeinern, wodurch die Variabilität der Messungen reduziert wurde. Das zeigt, wie die Anwendung von Qualitätskontrollmassnahmen die Zuverlässigkeit der KI-generierten Annotationen verbessern kann.
Konsistenz der Volumen innerhalb von Patienten
Um die Effektivität der Heuristiken weiter zu analysieren, haben wir die Konsistenz der Volumenmessungen innerhalb einzelner Patienten bewertet. Jeder Patient hatte über mehrere Jahre hinweg mehrere Scans, und wir erwarteten eine gewisse Variabilität in den extrahierten Volumen. Durch die Berechnung der Standardabweichung der Volumen für jeden Patienten verglichen wir die Konsistenz vor und nach der Anwendung der Heuristiken.
Nach der Anwendung der Heuristiken gab es eine deutliche Reduzierung der Variabilität der Volumen, was darauf hindeutet, dass die Filter geholfen haben, problematische Serien zu entfernen. Während die Heuristiken die Konsistenz verbesserten, blieben einige Ausreisser, was darauf hinweist, dass die Massnahmen nicht perfekt, aber dennoch wertvoll sind.
Vergleich mit Bevölkerungsstudien
Die Volumenmessungen der Wirbel wurden mit bestehender Literatur verglichen, um die Genauigkeit und Zuverlässigkeit der KI-generierten Segmentierungen zu überprüfen. Indem wir uns auf die thorakalen Wirbel konzentrierten, beobachteten wir Verteilungen von Volumen, die gut mit etablierten Befunden übereinstimmten. Dieser Vergleich war entscheidend, um zu bewerten, ob das KI-Modell die anatomischen Merkmale von Interesse genau erfasst hat.
Bei der Analyse der Ergebnisse stellten wir fest, dass unsere Messungen von denen in früheren Studien aufgrund der Spezifika, wie die Volumen definiert wurden, abwichen. Während unser Ansatz das Volumen des gesamten Wirbels betrachtete, konzentrierten sich frühere Studien oft nur auf den Wirbelkörper, was zu Diskrepanzen in den Ergebnissen führte. Dieses Verständnis hebt die Bedeutung hervor, die Messparameter klar zu definieren, wenn man die Ergebnisse interpretiert.
Einschränkungen der Heuristiken
Obwohl die vorgeschlagenen Heuristiken ein wertvolles Mittel zur Bewertung der Segmentierungsqualität bieten, haben sie Einschränkungen. Beispielsweise kann die Heuristik zur Vollständigkeit der Segmentierung einzelne Voxel-Segmentierungen fälschlicherweise als vollständig klassifizieren. Zudem sind die Massnahmen möglicherweise nicht für alle anatomischen Strukturen geeignet, insbesondere für solche, die grosse Bereiche abdecken.
Die Überprüfung der zusammenhängenden Komponenten kann falsch-positive Ergebnisse liefern, wenn eine Segmentierung einige isolierte Voxel hat, während sie insgesamt dennoch genau ist. Ebenso zeigt die Lateralisierungsheuristik eine hohe Leistung, erfasst jedoch möglicherweise nicht immer Fehler in weniger robusten KI-Algorithmen. Darüber hinaus bewertet keine der Heuristiken, wie gut die Segmentierung mit den tatsächlichen Grenzen der anatomischen Strukturen übereinstimmt, was auf eine Notwendigkeit für gründlichere Validierungsmethoden hinweist.
Zukünftige Richtungen
Trotz der Einschränkungen stellen die vorgeschlagenen Heuristiken einen erheblichen Schritt in Richtung Qualitätskontrolle für KI-generierte Segmentierungen dar. Es gibt zahlreiche Möglichkeiten zur Verbesserung sowohl der Methoden als auch der interaktiven Werkzeuge. Zum Beispiel könnte die Integration benutzerdefinierter Schwellenwerte, basierend auf anatomischen Spezifika, die Vollständigkeitsprüfungen verbessern. Die Einbeziehung fortgeschrittener radiomischer Merkmale könnte den Analysebereich erweitern.
Zusätzlich könnte das Dashboard von einem flexibleren Filtersystem profitieren, um einen vergleichenden Ansatz über mehrere Strukturen und Merkmale hinweg zu ermöglichen. Durch die Verbesserung der Benutzererfahrung und die Erweiterung der Funktionen kann das Dashboard als robuste Plattform für Forscher dienen, die komplexe Datensätze erkunden.
Fazit
Die Entwicklung einfacher Heuristiken bietet einen praktischen Ansatz zur Bewertung der Qualität von KI-generierten Segmentierungen in der medizinischen Bildgebung. Indem sie sich auf Vollständigkeit, Zusammengehörigkeit, Lateralisierung und Volumenschwellen konzentrieren, können Forscher Ungenauigkeiten in grossen Datensätzen identifizieren und angehen. Das unterstützt nicht nur die automatisierte Analyse, sondern entlastet auch die manuellen Überprüfungsprozesse.
Durch das interaktive Dashboard können Nutzer die Auswirkungen der Heuristiken auf die Segmentierungsergebnisse einfach visualisieren und bewerten. Während Herausforderungen bestehen bleiben, ebnen diese Methoden den Weg für eine verbesserte Datenqualität in der medizinischen Bildgebung, was zu zuverlässigeren Analysen und besseren Patientenresultaten führt. Die fortlaufende Entwicklung dieser Werkzeuge könnte zu bedeutenden Fortschritten im Bereich führen und weitere Forschung und Exploration bei den Anwendungen von tiefem Lernen in medizinischen Kontexten fördern.
Titel: Rule-based outlier detection of AI-generated anatomy segmentations
Zusammenfassung: There is a dire need for medical imaging datasets with accompanying annotations to perform downstream patient analysis. However, it is difficult to manually generate these annotations, due to the time-consuming nature, and the variability in clinical conventions. Artificial intelligence has been adopted in the field as a potential method to annotate these large datasets, however, a lack of expert annotations or ground truth can inhibit the adoption of these annotations. We recently made a dataset publicly available including annotations and extracted features of up to 104 organs for the National Lung Screening Trial using the TotalSegmentator method. However, the released dataset does not include expert-derived annotations or an assessment of the accuracy of the segmentations, limiting its usefulness. We propose the development of heuristics to assess the quality of the segmentations, providing methods to measure the consistency of the annotations and a comparison of results to the literature. We make our code and related materials publicly available at https://github.com/ImagingDataCommons/CloudSegmentatorResults and interactive tools at https://huggingface.co/spaces/ImagingDataCommons/CloudSegmentatorResults.
Autoren: Deepa Krishnaswamy, Vamsi Krishna Thiriveedhi, Cosmin Ciausu, David Clunie, Steve Pieper, Ron Kikinis, Andrey Fedorov
Letzte Aktualisierung: 2024-06-20 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2406.14486
Quell-PDF: https://arxiv.org/pdf/2406.14486
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://github.com/ImagingDataCommons/CloudSegmentatorResults
- https://huggingface.co/spaces/ImagingDataCommons/CloudSegmentatorResults
- https://github.com/streamlit/streamlit
- https://ribfrac.grand-challenge.org/dataset
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/blob/main/part2_exploratoryAnalysis.ipynb
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/blob/main/part1_derivedDataGenerator.ipynb
- https://console.cloud.google.com/marketplace/product/bigquery-public-data/nci-idc-data
- https://cloud.google.com/healthcare-api/docs/how-tos/dicom-bigquery-streaming
- https://dockstore.org/myworkflows/github.com/ImagingDataCommons/CloudSegmentator/perFrameFunctionalGroupSequenceExtractionOnTerra
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/nlst_totalseg_perframe.parquet
- https://pyradiomics.readthedocs.io/en/latest/radiomics.html#module-radiomics.generalinfo
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/json_radiomics.parquet.parquet
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/bodyPartAndLaterality.parquet
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/segmentation_completeness_table.parquet
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/laterality_check_table.parquet
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/qual_checks_table.parquet
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/flat_quantitative_measurements.parquet
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/download/0.0.1/qual_checks_and_quantitative_measurements.parquet
- https://github.com/ImagingDataCommons/CloudSegmentatorResults/releases/tag/0.0.1