Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung# Künstliche Intelligenz# Rechnen und Sprache# Maschinelles Lernen

Fortschritte in Vision-Language-Modellen für Histopathologie

Ein neues Modell verbessert die Integration von Bildern und Text in der Pathologie.

― 8 min Lesedauer


Vision-Language in derVision-Language in derPathologieModellintegration.durch fortschrittlicheDie Transformation der Histopathologie
Inhaltsverzeichnis

Histopathologie beinhaltet das Studium von Geweben unter dem Mikroskop zur Diagnose von Krankheiten. Die in diesem Prozess produzierten Bilder werden als Whole Slide Images (WSIs) bezeichnet. Diese Bilder sind sehr detailliert und können Gigapixel gross sein, wodurch sie nützlich sind, um kleine Details zu identifizieren, die bei wichtigen medizinischen Entscheidungen helfen können.

Der Umgang mit diesen grossen Bildern bietet sowohl Möglichkeiten als auch Herausforderungen. Ärzte und Forscher müssen oft diese Bilder mit beschreibendem Text aus Pathologieberichten kombinieren, die die Ergebnisse zusammenfassen. Diese Zuordnung ist jedoch nicht einfach, da die Berichte wichtige Beobachtungen aus mehreren Folien abdecken, was es schwierig machen kann, klare Verbindungen zwischen spezifischen Bildern und ihren Beschreibungen herzustellen.

Herausforderungen mit Pathologieberichten

Pathologieberichte bieten Einblicke basierend auf verschiedenen Folien, die aus einem einzelnen Fall entnommen wurden. Diese Folien können unterschiedliche Gewebeproben enthalten, und die Berichte fassen die Ergebnisse über alle zusammen. Das bedeutet, dass einige Folien wichtiger für die Diagnose sein könnten als andere, was zu Komplikationen bei der Zuordnung von Bildern zu den richtigen Texten führt.

Die meisten bestehenden Forschungen konzentrieren sich auf spezifische Regionen innerhalb der Folien, wodurch einige wertvolle Informationen, die im gesamten WSI vorhanden sind, ignoriert werden könnten. Der aktuelle Ansatz zur Erstellung von Bild-Text-Paaren verlässt sich oft auf Annotationen dieser kleineren Abschnitte oder selbstüberwachende Methoden, wodurch Pathologieberichte untergenutzt bleiben.

Entwicklung eines Vision-Language-Modells

Um diese Herausforderungen anzugehen, haben wir ein Modell entwickelt, das visuelles Verständnis mit Sprachverarbeitung kombiniert und auf einem bekannten Rahmenwerk namens BLIP-2 basiert. Wir haben unser Modell mit kuratiertem Text aus Pathologieberichten gepaart, was eine bessere Zuordnung zwischen Bildern und Beschreibungen ermöglicht.

Dieses Setup eröffnet neue Anwendungen, wie die Suche nach spezifischen Bildern basierend auf Textbeschreibungen oder die Erstellung von Berichten aus den Bildern. Es ermöglicht eine bessere Integration zwischen Bilddaten und Sprachverarbeitung, was das Potenzial für automatisierte Systeme in der Pathologie erhöht.

Wir verwendeten einen Datensatz mit über 350.000 WSIs und diagnostischen Texten, der verschiedene Krankheiten und Gewebetypen abdeckte. Unsere Bewertungen umfassten Beurteilungen von Pathologen zur Textgenerierung und -abfrage sowie zur Klassifizierung von WSIs und zur Priorisierung von Arbeitsabläufen.

Modellübersicht und Methodik

Das Modell stimmt die Darstellungen sowohl von WSIs als auch von Texten ab, was eine bessere Informationsabfrage und -klassifizierung ermöglicht. Es nutzt einen WSI-Encoder zur Verarbeitung der Bilder und stimmt dies mit einem grossen Sprachmodell (LLM) ab, um Aufgaben wie die Generierung textueller Beschreibungen und das Beantworten von Fragen basierend auf den Folien zu erleichtern.

Der Kern unseres Ansatzes liegt darin, Embeddings für die aus WSIs extrahierten Patches zu erhalten. Anstatt sich ausschliesslich auf kleine Regionen zu konzentrieren, verarbeitet unser Modell das gesamte Bild, um ein umfassendes Verständnis des vorhandenen Gewebes zu schaffen.

Jüngste Fortschritte in der digitalen Histopathologie haben die Vorteile hervorgehoben, visuelle und textuelle Daten zu verknüpfen, wobei verschiedene Quellen zur Generierung von Bild-Text-Paaren genutzt werden. Durch den Vergleich von Folieninterpretationen zielt unser Ansatz darauf ab, einige der Einschränkungen in früheren Forschungen zu adressieren.

Bewältigung von Herausforderungen bei der Bild-Text-Ausrichtung

Ein wesentliches Element unserer Arbeit ist die Verbesserung der Ausrichtung von Bildern und Texten trotz der inhärenten Komplexität im Zusammenhang mit WSIs. Jede Folie kann mit einem Segment des Pathologieberichts verbunden sein, das ihre Ergebnisse bespricht, aber diese Verbindungen herzustellen, ist nicht immer einfach.

Um diese Herausforderung anzugehen, haben wir unsere Paare in ein "sauberes" Set und ein "rauschendes" Set kategorisiert. Das saubere Set besteht aus Folien mit klareren Textassoziationen, während das rauschende Set solche mit weniger Gewissheit umfasst. Diese Trennung ermöglicht es uns, uns auf die Schaffung stärkerer Verbindungen für die zuverlässigeren Daten zu konzentrieren.

Als zusätzlichen Schritt haben wir unseren Datensatz erweitert, indem wir Informationen aus dem Cancer Genome Atlas (TCGA) hinzugefügt haben, die diagnostische WSIs aus einer Vielzahl von Krebsarten bereithalten. Diese hinzugefügte Vielfalt hilft dem Modell, effektiver zu lernen und während der Bewertungen besser zu reagieren.

Kuratierung von Bild-Text-Paaren

In der Histopathologie werden Gewebeschnitte nach Fall, Teil und Block organisiert, wobei diagnostische Ergebnisse für jeden Teil berichtet werden. Diese strukturierte Berichterstattung führt zu Komplexität bei der Zuordnung spezifischer Folien zu ihren jeweiligen textuellen Beschreibungen.

Es gibt drei Kategorien von Assoziationen: eine Folie aus einem einzelnen Block, mehrere Folien aus einem einzelnen Block und Folien, die sich über mehrere Blöcke erstrecken. Die Wahrscheinlichkeit fehlerhafter Informationen steigt mit jeder Kategorie. Um dies zu verwalten, haben wir zunächst Folien mit ihrem assoziierten Text unter Verwendung von Teilindikatoren abgeglichen, die sowohl in den Metadaten der Folie als auch im Bericht vorhanden sind.

Für TCGA haben wir strukturierte Fallmetadaten verwendet, um grundlegende Beschreibungen zu erstellen, und dabei sichergestellt, dass wir Fehler beim Abgleichen von Folien mit Text minimieren. Durch die Sicherstellung, dass wir nur die repräsentativsten Folien einbezogen haben, wollten wir die Wahrscheinlichkeit verringern, falsche Informationen zu assoziieren.

Datenübersicht

Unser primärer Datensatz umfasst über 350.000 WSIs, die aus einem Lehrkrankenhaus stammen und hauptsächlich aus Hämatoxylin- und Eosin (HE)-gefärbten Geweben bestehen. Dieser Datensatz spiegelt eine realistische Auswahl von Falltypen wider, die in der Pathologiepraxis in den USA zu sehen sind.

Um unseren Datensatz für Krebserkrankungen weiter zu bereichern, haben wir anonymisierte Daten aus TCGA einbezogen, die diagnostische WSIs aus zahlreichen soliden Tumorstudiestypen enthält. Die Daten wurden organisiert, um eine effektive Ausbildung bei den Aufgaben zur Bild-Text-Ausrichtung zu ermöglichen.

Nutzung von Patch-Sampling und Encodern

Um jedes WSI effektiv darzustellen, haben wir bis zu 10.240 Gewebe-Patches pro Bild entnommen. Mit einem für die Pathologie spezifischen Patch-Encoder haben wir diese Patches in Embeddings transformiert, die unser Modell verarbeiten kann.

Der WSI-Encoder baut auf diesen Embeddings auf und integriert Positionsinformationen, um den Kontext innerhalb des Bildes aufrechtzuerhalten. Dieses Setup stellt sicher, dass das Modell sich darüber im Klaren ist, wo sich jeder Patch innerhalb der Folie befindet, was seine Fähigkeit verbessert, genaue Darstellungen zu erzeugen.

Unsere Modellierungsstrategie dreht sich um die Ausrichtung der WSI- und Text-Embeddings und schafft ein Framework, das in der Lage ist, beschreibende Texte zu generieren und Bildabfrageaufgaben zu unterstützen. Durch das Training unseres Modells mit einer Mischung aus kontrastiven und generativen Techniken strebten wir eine robustere Leistung in verschiedenen Anwendungen an.

Bewertung der Textgenerierung und -abfrage

Bei der Bewertung der Textgenerierungsfähigkeiten des Modells stellten wir fest, dass Pathologen über drei Viertel der generierten Texte als grösstenteils oder hochgradig genau bewerteten. Dies zeigt die Fähigkeit des Modells, Beschreibungen zu produzieren, die gut mit den tatsächlichen Befunden in den Folien übereinstimmen.

Darüber hinaus bewerteten Pathologen die Fähigkeit des Modells, geeignete Texte abzurufen, die mit spezifischen WSIs assoziiert sind. Die Top-K-Genauigkeit beim Abrufen relevanter Texte zeigte ermutigende Ergebnisse und demonstrierte die Effektivität des Modells bei der Identifizierung genauer Beschreibungen.

Die Bewertungen deuteten darauf hin, dass die sprachlich abgestimmten WSIs effektiv funktionieren und vielversprechende Ergebnisse für zukünftige Anwendungen in der computergestützten Pathologie bieten.

Leistung bei der WSI-Klassifizierung

Wir bewerteten die Leistung des Modells bei der Klassifizierung verschiedener Krebsarten und prozeduraler Klassifikationen. Durch den Vergleich der Embeddings des Modells mit kuratiertem Text konnten wir geeignete diagnostische Bezeichnungen den WSIs zuordnen.

Unsere Aufgaben umfassten die Subtypisierung verschiedener Krebsarten, wie nicht kleinzelliges Lungenkarzinom und Brustkrebs, sowie die Unterscheidung zwischen Biopsie- und Resektionsproben. Die Leistung des Modells bei diesen Klassifizierungsaufgaben hob seine Fähigkeiten hervor, fundierte Entscheidungen basierend auf den Daten zu treffen.

Wir berechneten Konfidenzintervalle auf der Grundlage wiederholter Stichproben, um die Zuverlässigkeit unserer Ergebnisse sicherzustellen. Die Genauigkeit des Modells bei diesen Aufgaben bestätigt sein Potenzial für praktische Anwendungen im medizinischen Bereich.

Zukünftige Richtung und Verbesserungen

In die Zukunft blickend, beabsichtigen wir, unser Modell weiter zu verfeinern, um seine Leistung und Fähigkeiten zu verbessern. Die Erforschung zusätzlicher Techniken im Bereich des Vision-Language-Modeling sowie verschiedener grosser Sprachmodelle könnte zu effektiveren Systemen führen.

Die Integration effizienter Selbstaufmerksamkeitsmechanismen könnte eine bessere Darstellung der Beziehungen zwischen Elementen innerhalb des WSI bieten. Die Untersuchung, wie man über mehrere Folien innerhalb eines Falls modellieren kann, könnte auch das Verständnis komplexer Fälle verbessern.

Unsere Arbeit weist auf viele aufregende Möglichkeiten zur Ausrichtung von Bildern und Texten in der Pathologie hin. Durch die Schaffung von Systemen, die die Denkfähigkeiten fortschrittlicher Modelle nutzen, können wir die Qualität der diagnostischen Berichterstattung verbessern und medizinische Arbeitsabläufe optimieren.

Fazit

Die Entwicklung von Vision-Language-Modellen zur Analyse von Whole Slide Images in der Histopathologie stellt einen bedeutenden Schritt zur Weiterentwicklung der computergestützten Pathologie dar. Durch die Gestaltung von Modellen, die Bilder effektiv mit ihren beschreibenden Texten verknüpfen, eröffnen wir neue Wege für automatisierte Pathologieprozesse, die medizinischen Fachkräften helfen, informierte Entscheidungen zu treffen.

Diese Arbeit exemplifiziert, wie die Kombination von visuellem Verständnis und Sprachverarbeitung zu innovativen Lösungen im Gesundheitswesen führen kann. Die Zukunft hält grosses Versprechen, während wir weiterhin diese Technologien erforschen und entwickeln und damit den Weg für verbesserte Pathologiepraktiken und genauere Diagnosen ebnen.

Originalquelle

Titel: PathAlign: A vision-language model for whole slide images in histopathology

Zusammenfassung: Microscopic interpretation of histopathology images underlies many important diagnostic and treatment decisions. While advances in vision-language modeling raise new opportunities for analysis of such images, the gigapixel-scale size of whole slide images (WSIs) introduces unique challenges. Additionally, pathology reports simultaneously highlight key findings from small regions while also aggregating interpretation across multiple slides, often making it difficult to create robust image-text pairs. As such, pathology reports remain a largely untapped source of supervision in computational pathology, with most efforts relying on region-of-interest annotations or self-supervision at the patch-level. In this work, we develop a vision-language model based on the BLIP-2 framework using WSIs paired with curated text from pathology reports. This enables applications utilizing a shared image-text embedding space, such as text or image retrieval for finding cases of interest, as well as integration of the WSI encoder with a frozen large language model (LLM) for WSI-based generative text capabilities such as report generation or AI-in-the-loop interactions. We utilize a de-identified dataset of over 350,000 WSIs and diagnostic text pairs, spanning a wide range of diagnoses, procedure types, and tissue types. We present pathologist evaluation of text generation and text retrieval using WSI embeddings, as well as results for WSI classification and workflow prioritization (slide-level triaging). Model-generated text for WSIs was rated by pathologists as accurate, without clinically significant error or omission, for 78% of WSIs on average. This work demonstrates exciting potential capabilities for language-aligned WSI embeddings.

Autoren: Faruk Ahmed, Andrew Sellergren, Lin Yang, Shawn Xu, Boris Babenko, Abbi Ward, Niels Olson, Arash Mohtashamian, Yossi Matias, Greg S. Corrado, Quang Duong, Dale R. Webster, Shravya Shetty, Daniel Golden, Yun Liu, David F. Steiner, Ellery Wulczyn

Letzte Aktualisierung: 2024-06-27 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2406.19578

Quell-PDF: https://arxiv.org/pdf/2406.19578

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel