Avanzamenti nei modelli visivo-linguistici per l'istopatologia
Un nuovo modello migliora l'integrazione di immagini e testi in patologia.
― 8 leggere min
Indice
- Sfide con i Rapporti di Patologia
- Sviluppo di un Modello Visione-Lingua
- Panoramica del Modello e Metodologia
- Affrontare le Sfide di Allineamento Immagine-Testo
- Curazione delle Coppie Immagine-Testo
- Panoramica dei Dati
- Utilizzo di Campionamento di Patch e Codificatori
- Valutazione della Generazione e del Recupero di Testi
- Prestazioni nella Classificazione delle WSI
- Direzione Futura e Miglioramenti
- Conclusione
- Fonte originale
- Link di riferimento
L'istopatologia implica lo studio dei tessuti al microscopio per diagnosticare malattie. Le immagini prodotte in questo processo sono chiamate Immagini a Scorrimento Totale (WSI). Queste immagini sono molto dettagliate e possono raggiungere dimensioni gigapixel, rendendole utili per identificare piccoli dettagli che possono aiutare a prendere decisioni mediche importanti.
Gestire queste immagini di grandi dimensioni offre sia possibilità che sfide. I medici e i ricercatori spesso devono abbinare queste immagini a testi descrittivi provenienti da rapporto di patologia che riassumono i risultati. Tuttavia, questo abbinamento non è semplice perché i rapporti coprono osservazioni chiave provenienti da più diapositive, il che può rendere difficile creare collegamenti chiari tra immagini specifiche e le loro descrizioni.
Sfide con i Rapporti di Patologia
I rapporti di patologia forniscono informazioni basate su varie diapositive prese da un singolo caso. Queste diapositive possono contenere diversi campioni di tessuto e i rapporti riassumono i risultati su di essi. Questo significa che alcune diapositive potrebbero essere più importanti per la diagnosi rispetto ad altre, portando a complicazioni nell'abbinare le immagini al testo corretto.
La maggior parte della ricerca esistente si concentra su regioni specifiche all'interno delle diapositive, il che può ignorare informazioni preziose presenti nell'interezza della WSI. L'approccio attuale per la creazione di coppie immagine-testo spesso si basa su annotazioni di queste sezioni più piccole o su metodi auto-supervisionati, lasciando i rapporti di patologia sottoutilizzati.
Modello Visione-Lingua
Sviluppo di unPer affrontare queste sfide, abbiamo sviluppato un modello che combina la comprensione visiva con l'elaborazione del linguaggio, attingendo da un framework ben noto chiamato BLIP-2. Abbiamo abbinato il nostro modello a testi curati provenienti da rapporti di patologia, consentendo un miglior abbinamento tra immagini e descrizioni.
Questa configurazione apre nuove applicazioni, come la ricerca di immagini specifiche basate su descrizioni testuali o la generazione di rapporti dalle immagini. Consente una migliore integrazione tra i dati delle immagini e l'elaborazione del linguaggio, migliorando il potenziale per sistemi automatizzati in istopatologia.
Abbiamo utilizzato un dataset con oltre 350.000 WSI e testi diagnostici, coprendo varie malattie e tipi di tessuti. Le nostre valutazioni hanno incluso valutazioni da parte di patologi sulla generazione e il recupero di testi, insieme a classificazioni delle WSI e priorità del flusso di lavoro.
Panoramica del Modello e Metodologia
Il modello allinea le rappresentazioni sia delle WSI che del testo, consentendo un migliore recupero delle informazioni e Classificazione. Utilizza un codificatore WSI per elaborare le immagini e allinea questo con un grande modello linguistico (LLM) per facilitare attività come la generazione di descrizioni testuali e la risposta a domande basate sulle diapositive.
La base del nostro approccio risiede nell'ottenere Embeddings per i patch estratti dalle WSI. Invece di concentrarci esclusivamente su piccole aree, il nostro modello elabora l'intera immagine per creare una comprensione complessiva del tessuto presente.
Recenti progressi nell'istopatologia digitale hanno evidenziato i vantaggi di collegare dati visivi e testuali, con varie fonti per generare coppie immagine-testo. Confrontando le interpretazioni a livello di diapositiva, il nostro approccio mira a risolvere alcune limitazioni presenti nella ricerca passata.
Affrontare le Sfide di Allineamento Immagine-Testo
Un elemento essenziale del nostro lavoro è migliorare l'allineamento tra immagini e testi nonostante le complessità inerenti alle WSI. Ogni diapositiva può essere collegata a un segmento del rapporto di patologia che discute i suoi risultati, ma stabilire questi collegamenti non è sempre semplice.
Per affrontare questa sfida, abbiamo classificato le nostre coppie in un set "pulito" e un set "rumoroso". Il set pulito consiste in diapositive con associazioni testuali più chiare, mentre il set rumoroso include quelle con minore certezza. Questa separazione ci consente di concentrarci sulla creazione di collegamenti più forti per i dati più affidabili.
Come passaggio aggiuntivo, abbiamo migliorato il nostro dataset integrandolo con informazioni dal The Cancer Genome Atlas (TCGA), che ha fornito WSI diagnostici su una vasta gamma di tipi di cancro. Questa diversità aggiunta aiuta il modello ad apprendere in modo più efficace e a rispondere meglio durante le valutazioni.
Curazione delle Coppie Immagine-Testo
Nell'istopatologia, i campioni di tessuto sono organizzati per caso, parte e blocco, con risultati diagnostici riportati per ogni parte. Questa segnalazione strutturata introduce complessità quando si associano diapositive specifiche con le loro rispettive descrizioni testuali.
Esistono tre categorie di associazioni: una diapositiva da un singolo blocco, più diapositive da un singolo blocco e diapositive che coprono più blocchi. La probabilità di informazioni non corrispondenti aumenta con ogni categoria. Per gestire questo, abbiamo prima abbinato le diapositive con il loro testo associato utilizzando indicatori di parte presenti sia nei metadati della diapositiva che nel rapporto.
Per TCGA, abbiamo utilizzato metadati di caso strutturati per creare descrizioni di base, garantendo di minimizzare gli errori mentre abbiniamo le diapositive con il testo. Assicurandoci di includere solo le diapositive più rappresentative, abbiamo cercato di ridurre le possibilità di associare informazioni errate.
Panoramica dei Dati
Il nostro dataset principale comprende oltre 350.000 WSI provenienti da un ospedale didattico, che consistono principalmente in tessuti colorati con ematossilina ed eosina (HE). Questo dataset riflette una selezione realistica dei tipi di caso visti nella pratica di patologia negli Stati Uniti.
Per arricchire ulteriormente il nostro dataset per i casi di cancro, abbiamo incluso dati de-identificati da TCGA, che contiene WSI diagnostici su numerosi tipi di studio di tumori solidi. I dati sono stati organizzati per consentire un efficace addestramento su compiti di allineamento immagine-testo.
Utilizzo di Campionamento di Patch e Codificatori
Per rappresentare efficacemente ogni WSI, abbiamo campionato fino a 10.240 patch di tessuto per immagine. Utilizzando un codificatore di patch specifico per la patologia, abbiamo trasformato queste patch in embeddings che il nostro modello può elaborare.
Il codificatore WSI si basa su questi embeddings, integrando informazioni posizionali per mantenere il contesto all'interno dell'immagine. Questa configurazione garantisce che il modello rimanga consapevole di dove si trova ogni patch all'interno della diapositiva, migliorando la sua capacità di generare rappresentazioni accurate.
La nostra strategia di modellazione ruota attorno all'allineamento degli embeddings WSI e testo, creando un framework capace di generare testi descrittivi e supportare attività di recupero di immagini. Addestrando il nostro modello utilizzando una combinazione di tecniche contrastive e generative, miravamo a migliorare le prestazioni su varie applicazioni.
Valutazione della Generazione e del Recupero di Testi
Quando abbiamo valutato le capacità di generazione di testi del modello, abbiamo scoperto che i patologi hanno valutato oltre tre quarti dei testi generati come per lo più o altamente accurati. Questo indica la competenza del modello nella produzione di descrizioni che si allineano bene con i risultati effettivi nelle diapositive.
Inoltre, i patologi hanno valutato la capacità del modello di recuperare testi appropriati associati a WSI specifici. La precisione Top-K per il recupero di testi rilevanti ha mostrato risultati incoraggianti, dimostrando l'efficacia del modello nel localizzare descrizioni accurate.
Le valutazioni hanno indicato che le WSI allineate linguisticamente funzionano efficacemente, fornendo risultati promettenti per applicazioni future nella patologia computazionale.
Prestazioni nella Classificazione delle WSI
Abbiamo valutato le prestazioni del modello nella classificazione di diversi tipi di cancro e classificazioni procedurali. Confrontando gli embeddings del modello con il testo curato, siamo stati in grado di assegnare etichette diagnostiche appropriate alle WSI.
I nostri compiti includevano il subtyping di vari tipi di cancro, come il cancro polmonare non a piccole cellule e il cancro al seno, oltre a distinguere tra campioni di biopsia e resezione. Le prestazioni del modello su questi compiti di classificazione hanno evidenziato le sue capacità nel prendere decisioni informate basate sui dati.
Abbiamo calcolato intervalli di confidenza basati su campionamenti ripetuti per garantire l'affidabilità dei nostri risultati. L'accuratezza del modello su questi compiti conferma il suo potenziale per applicazioni pratiche in contesti medici.
Direzione Futura e Miglioramenti
Guardando avanti, intendiamo perfezionare ulteriormente il nostro modello per migliorare le sue prestazioni e capacità. Esplorare tecniche aggiuntive nella modellazione visione-lingua insieme a diversi grandi modelli linguistici potrebbe portare a sistemi più efficaci.
L'integrazione di meccanismi di auto-attention efficienti può fornire una migliore rappresentazione delle relazioni tra gli elementi all'interno della WSI. Indagare su come modellare attraverso più diapositive all'interno di un caso potrebbe anche migliorare la comprensione di casi complessi.
Il nostro lavoro indica molte possibilità emozionanti per allineare immagini e testi in patologia. Creando sistemi che sfruttano le capacità di ragionamento di modelli avanzati, possiamo migliorare la qualità della segnalazione diagnostica e ottimizzare i flussi di lavoro medici.
Conclusione
Lo sviluppo di modelli visione-lingua per analizzare Immagini a Scorrimento Totale nell'istopatologia segna un passo significativo verso l'avanzamento della patologia computazionale. Progettando modelli che collegano efficacemente le immagini con i loro testi descrittivi, apriamo nuove strade per i processi di patologia automatizzati, aiutando i professionisti medici a prendere decisioni informate.
Questo lavoro esemplifica come la combinazione di comprensione visiva e elaborazione del linguaggio possa portare a soluzioni innovative nella sanità. Il futuro promette grandi opportunità mentre continuiamo a esplorare e sviluppare queste tecnologie, aprendo la strada a pratiche di patologia migliorate e diagnosi più accurate.
Titolo: PathAlign: A vision-language model for whole slide images in histopathology
Estratto: Microscopic interpretation of histopathology images underlies many important diagnostic and treatment decisions. While advances in vision-language modeling raise new opportunities for analysis of such images, the gigapixel-scale size of whole slide images (WSIs) introduces unique challenges. Additionally, pathology reports simultaneously highlight key findings from small regions while also aggregating interpretation across multiple slides, often making it difficult to create robust image-text pairs. As such, pathology reports remain a largely untapped source of supervision in computational pathology, with most efforts relying on region-of-interest annotations or self-supervision at the patch-level. In this work, we develop a vision-language model based on the BLIP-2 framework using WSIs paired with curated text from pathology reports. This enables applications utilizing a shared image-text embedding space, such as text or image retrieval for finding cases of interest, as well as integration of the WSI encoder with a frozen large language model (LLM) for WSI-based generative text capabilities such as report generation or AI-in-the-loop interactions. We utilize a de-identified dataset of over 350,000 WSIs and diagnostic text pairs, spanning a wide range of diagnoses, procedure types, and tissue types. We present pathologist evaluation of text generation and text retrieval using WSI embeddings, as well as results for WSI classification and workflow prioritization (slide-level triaging). Model-generated text for WSIs was rated by pathologists as accurate, without clinically significant error or omission, for 78% of WSIs on average. This work demonstrates exciting potential capabilities for language-aligned WSI embeddings.
Autori: Faruk Ahmed, Andrew Sellergren, Lin Yang, Shawn Xu, Boris Babenko, Abbi Ward, Niels Olson, Arash Mohtashamian, Yossi Matias, Greg S. Corrado, Quang Duong, Dale R. Webster, Shravya Shetty, Daniel Golden, Yun Liu, David F. Steiner, Ellery Wulczyn
Ultimo aggiornamento: 2024-06-27 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2406.19578
Fonte PDF: https://arxiv.org/pdf/2406.19578
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.