Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Gesundheitswissenschaften# Gesundheitsinformatik

Verbesserung von Bildgebungsprotokollen mit maschinellem Lernen

Eine Studie über den Einsatz von maschinellem Lernen zur Verbesserung der Zuordnung von medizinischen Bildgebungsprotokollen.

― 6 min Lesedauer


ML in medizinischenML in medizinischenBildgebungsprotokollenmaschinelles Lernen.Bildgebungsprotokollen durchVerbesserung der Genauigkeit in
Inhaltsverzeichnis

Maschinelles Lernen wird in vielen Bereichen immer beliebter, auch in der Medizin. Insbesondere wird es verwendet, um Texte aus medizinischen Anwendungen zu analysieren, wie zum Beispiel Bestellungen für Bildgebungsuntersuchungen. Obwohl fortschrittliche Modelle wie Transformer grosse Fortschritte im Sprachverständnis machen, werden viele spezialisierte Aufgaben immer noch von geschulten Fachleuten wie Radiologen manuell erledigt. Ein grosses Problem ist, dass diese Algorithmen genau und vertrauenswürdig sein müssen, besonders in kritischen Situationen wie im Gesundheitswesen.

In der Medizin, wenn ein Arzt Bildgebungsuntersuchungen anordnen will, schreibt er eine kurze Beschreibung, in der die Symptome und die Krankengeschichte des Patienten umrissen werden. Radiologen überprüfen dann diese Bestellungen und bestimmen das beste Bildgebungsprotokoll. Ein Bildgebungsprotokoll besteht aus speziellen Anweisungen für die Art der durchzuführenden Untersuchung, wobei die Situation des Patienten berücksichtigt wird. Das richtige Protokoll zuzuweisen, ist entscheidend, weil es die Qualität und Genauigkeit der Testergebnisse beeinflusst.

Traditionell weisen Radiologen diese Protokolle manuell zu, was viel Zeit und Mühe kostet. Mit der zunehmenden Anzahl an Bildanfragen ist ein automatisiertes System, das diese Aufgabe effizient und genau erledigen kann, dringend erforderlich. Bevor jedoch maschinelle Lernmodelle im Gesundheitswesen vertrauenswürdig eingesetzt werden können, müssen sie auf potenzielle Vorurteile oder Fehler überprüft werden.

Aufgabenübersicht

Diese Studie konzentriert sich auf die spezifische Aufgabe, Bildgebungsprotokolle aus Textbeschreibungen zu identifizieren, die mit medizinischer Bildgebung in Zusammenhang stehen. Die Medizinische Bildgebung spielt eine wichtige Rolle in der modernen Gesundheitsversorgung und hilft Ärzten, ins Innere des Körpers zu sehen, um verschiedene medizinische Zustände zu diagnostizieren und zu behandeln. Wenn Ärzte Tests wie MRT oder CT anordnen, müssen sie eine prägnante Zusammenfassung liefern, die die Symptome des Patienten, die Krankengeschichte und alle relevanten Befunde beschreibt.

Nachdem die Bestellungen des Arztes überprüft wurden, schlagen Radiologen das am besten geeignete Bildgebungsprotokoll vor. Das Protokoll kann je nach Faktoren wie dem spezifischen Körperteil, der untersucht wird, der Durchführung der Bildgebung und den verwendeten Kontrastmitteln variieren. Zu verstehen, wie man das richtige Protokoll zuweist, erfordert erhebliches Fachwissen in der medizinischen Bildgebung und Kenntnisse der verschiedenen verfügbaren Protokolle.

Bedeutung der Erklärbarkeit

Der Einsatz von maschinellem Lernen in der Medizin wirft Bedenken hinsichtlich der Genauigkeit und Vertrauenswürdigkeit von Entscheidungen auf, die von Algorithmen getroffen werden. Viele Modelle des maschinellen Lernens sind nicht transparent, was es Ärzten und Patienten schwer macht, zu verstehen, wie Entscheidungen getroffen werden. In medizinischen Umgebungen, wo Vertrauen entscheidend ist, ist es wichtig, dass diese Algorithmen klare Erklärungen für ihre Entscheidungen bieten. Neueste Vorschriften verlangen sogar, dass KI-Systeme ihre Entscheidungen in verständlichen Begriffen erklären.

Diese Studie zielt darauf ab, das Verständnis darüber zu verbessern, wie maschinelle Lernmodelle Entscheidungen im Kontext der medizinischen Bildgebung treffen. Indem wir uns auf eine spezifische Aufgabe im Zusammenhang mit der Zuweisung von Bildgebungsprotokollen konzentrieren, können wir untersuchen, ob diese Modelle vertrauenswürdige Erklärungen für ihre Empfehlungen geben können.

Datensammlung

Um unser Modell zu trainieren, haben wir einen grossen Datensatz von Bestellungen für Bildgebungsuntersuchungen, speziell MRT-Studien, der über einen Zeitraum von drei Jahren gesammelt wurde, verwendet. Jeder Eintrag im Datensatz enthält Details zum Grund für den Test, das Alter und Geschlecht des Patienten sowie das vom Radiologen zugewiesene Bildgebungsprotokoll. Um die Qualität der Daten sicherzustellen, wurde jeder Eintrag von einem erfahrenen Radiologen überprüft.

Unser Datensatz bestand nach der Bereinigung und Organisation aus über 88.000 Einträgen. Wir schlossen Bestellungen für Wirbelsäulenuntersuchungen aus, da die Protokolle oft je nach spezifischen Wirbelsäulenabschnitten variieren. Die verbleibenden Einträge konzentrierten sich auf die zehn häufigsten Protokolle, die in unserer Einrichtung verwendet wurden.

Modelltraining

Wir verwendeten ein vortrainiertes BERT-Modell, das eine Art von maschinellem Lernmodell ist, das speziell entwickelt wurde, um den Kontext in der Sprache zu verstehen. Um dieses Modell auf unseren Datensatz anzuwenden, haben wir es mit den gesammelten Bestellungen feinjustiert. Feinjustierung ermöglicht es Modellen, ihre Leistung bei spezifischen Aufgaben anzupassen und zu verbessern.

Bevor wir die Daten verarbeiteten, haben wir sie vorbereitet, indem wir Sätze in kleinere Teile, sogenannte Tokens, zerlegt haben. Jedes Token wurde dann in eine Vektorrepresentation umgewandelt. Das Modell wurde darauf trainiert, das am besten geeignete Bildgebungsprotokoll basierend auf den Notizen des Arztes vorherzusagen.

Da die Verteilung der Bestellungen nicht einheitlich war, haben wir den Datensatz durch Oversampling der weniger häufigen Protokolle ausgewogen. Der Datensatz wurde in Trainings-, Validierungs- und Testmengen unterteilt, um die Leistung des Modells ordnungsgemäss zu bewerten.

Performanzbewertung

Um zu sehen, wie gut unser BERT-Modell abschnitt, haben wir es mit traditionellen Methoden des maschinellen Lernens, wie K-Nearest Neighbors und Random Forests, verglichen. Wir fanden heraus, dass das BERT-Modell deutlich bessere Ergebnisse erzielte als diese traditionellen Methoden, was einen bemerkenswerten Fortschritt in der Leistung darstellt.

Erklärungen der Modellentscheidungen

Ein entscheidender Aspekt dieser Forschung war zu verstehen, wie das BERT-Modell Entscheidungen trifft. Wir haben untersucht, welche Wörter in den Notizen des Arztes am meisten zu den Vorhersagen des Modells beigetragen haben. Durch die Analyse der Entscheidungen des Modells können wir besser verstehen, ob die Gründe hinter seinen Vorhersagen mit der Meinung von Experten aus der Radiologie übereinstimmen.

Wir verwendeten eine Methode namens integrierte Gradienten, die hilft, die Bedeutung jedes Wortes im Eingabetext zu identifizieren. Diese Methode ermöglicht es uns zu sehen, welche Wörter einen signifikanten Einfluss auf die Empfehlungen des Modells hatten.

Wir haben diese Wichtigkeitsscores durch eine Technik namens Löschung validiert, bei der wir wichtige Wörter aus dem Eingabetext entfernt und beobachtet haben, wie sich dies auf die Leistung des Modells auswirkt. Die Ergebnisse zeigten, dass das Entfernen entscheidender Wörter die Genauigkeit der Vorhersagen des Modells erheblich beeinflusste.

Analyse der Modellfehler

Um die Fehler des BERT-Modells zu verstehen, haben wir sie in verschiedene Kategorien klassifiziert. Die häufigsten Fehler traten auf, wenn die klinischen Fragen zu komplex waren, was zu einer falschen Protokollauswahl führte. Weitere Fehler beinhalteten, dass das Alter des Patienten oder das Vorhandensein von mehrdeutiger Sprache, die es dem Modell schwer machte, eine klare Entscheidung zu treffen, nicht ausreichend berücksichtigt wurden.

Insgesamt haben wir festgestellt, dass die grösste Fehlerquelle die Schwierigkeiten des Modells beim Verständnis der Hierarchie der Protokollzuweisungen war. Das deutet darauf hin, dass eine weitere Verfeinerung erforderlich ist, um das Modell zuverlässiger für den klinischen Einsatz zu machen.

Fazit

Zusammenfassend zeigt diese Studie, dass der Einsatz eines verfeinerten Modells des maschinellen Lernens wie BERT den Prozess der Zuweisung von medizinischen Bildgebungsprotokollen verbessern kann. Es hat das Potenzial, Radiologen Zeit zu sparen und die Entscheidungsfindung im Gesundheitswesen zu verbessern. Es ist jedoch wichtig, die beobachteten Einschränkungen in der Modellleistung anzugehen und sicherzustellen, dass die Algorithmen transparente Erklärungen für ihre Vorhersagen bieten.

Da maschinelles Lernen zunehmend in den medizinischen Bereich integriert wird, wird es entscheidend sein, die Erklärbarkeit und das Vertrauen zu betonen. Unsere Ergebnisse legen nahe, dass während maschinelle Lernmodelle bestimmte Aufgaben effektiv ausführen können, eine sorgfältige Bewertung und Verfeinerung erforderlich ist, um sicherzustellen, dass sie in klinischen Umgebungen sicher und genau arbeiten können.

Originalquelle

Titel: Exploring the Performance and Explainability of BERT for Medical Image Protocol Assignment

Zusammenfassung: Although deep learning has become state of the art for numerous tasks, it remains untouched for many specialized domains. High stake environments such as medical settings pose more challenges due to trust and safety issues for deep learning algorithms. In this work, we propose to address these issues by evaluating the performance and explanability of a Bidirectional Encoder Representations from Transformers (BERT) model for the task of medical image protocol assignment. Specifically, we evaluate the performance and explainability on this medical image protocol classification task by fine tuning a pre-trained BERT model and measuring the word importance by attributing the classification output to every word through a gradient based method. We then have a trained radiologist review the resulting word importance scores and assess the validity of the models decision-making process in comparison to that of a human. Our results indicate that the BERT model is able to identify relevant words that are highly indicative of the target protocol. Furthermore, through the analysis of important words in misclassifications, we are able to reveal potential systematic errors in the model that may be addressed to improve its safety and suitability for use in a clinical setting.

Autoren: Mohammad R.K. Mofrad, S. Talebi, E. Tong

Letzte Aktualisierung: 2023-04-25 00:00:00

Sprache: English

Quell-URL: https://www.medrxiv.org/content/10.1101/2023.04.20.23288684

Quell-PDF: https://www.medrxiv.org/content/10.1101/2023.04.20.23288684.full.pdf

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel