RetinaVLM: Trasformare le valutazioni della salute degli occhi
Un nuovo modello migliora le valutazioni delle malattie oculari e i rinvii dei pazienti.
― 9 leggere min
Indice
- Come è stato Sviluppato RetinaVLM
- Componenti Chiave di RetinaVLM
- Formazione Specialistica per RetinaVLM
- Prestazioni di RetinaVLM Rispetto ad Altri Modelli
- Correttezza e Qualità dei Rapporti di RetinaVLM
- Efficacia nel Rinvio e Screening dei Pazienti
- Analisi della Rilevazione dei Biomarcatori
- Conclusione e Direzioni Future
- Fonte originale
- Link di riferimento
I medici passano spesso un sacco di tempo a guardare immagini mediche legate alla salute degli occhi, annotando ciò che vedono per decidere come prendersi cura dei pazienti. Ci sono nuovi modelli chiamati modelli visione-lingua (VLM) che possono leggere automaticamente queste immagini e scrivere rapporti. Questi modelli hanno il potere di aiutare i dottori a lavorare più velocemente e dare a più pazienti accesso a una buona assistenza medica. Anche se molte persone sono entusiaste di questi modelli, non è chiaro se possano essere utili nella vita reale.
In questa ricerca, abbiamo scoperto che i VLM di base non performano bene come i medici oculisti per compiti importanti per i pazienti con degenerazione maculare legata all'età (AMD). Per migliorare questo, prima abbiamo capito quali abilità servono per prendere decisioni basate sulle immagini in un contesto clinico. Poi, abbiamo addestrato un nuovo modello chiamato RetinaVLM per sviluppare queste abilità importanti. RetinaVLM può scrivere rapporti molto migliori rispetto a quelli creati da altri VLM medici esistenti nella valutazione delle malattie e nel rinvio dei pazienti. Si avvicina a eguagliare le prestazioni dei dottori oculisti junior. In uno studio con due oculisti esperti, i rapporti di RetinaVLM sono stati trovati quasi altrettanto accurati e completi quanto quelli scritti dai dottori junior.
Questi risultati mostrano che il nostro metodo di addestramento può aiutare i VLM generali a diventare migliori nel gestire compiti clinici reali. RetinaVLM è il primo VLM specializzato per uso medico.
Come è stato Sviluppato RetinaVLM
Utilizzando un approccio di addestramento mirato, abbiamo insegnato a RetinaVLM le importanti abilità mediche che la maggior parte dei VLM di base non ha. RetinaVLM può analizzare efficacemente immagini da tomografia a coerenza ottica (OCT) e rispondere a domande testuali. Le sue funzioni includono l'analisi dei segni chiave di AMD, il livello della malattia e se un paziente ha bisogno di un rinvio per il trattamento.
Le immagini mediche sono fondamentali quando si prendono decisioni sulla diagnosi e sul trattamento dei pazienti. I dottori impiegano molto tempo per scrivere le loro osservazioni. I VLM possono aiutare interpretando rapidamente le immagini e creando resoconti dettagliati. Fino ad ora, la maggior parte dei VLM medici erano limitati a fornire risposte fisse. Tuttavia, nuovi sviluppi che combinano modelli linguistici di grandi dimensioni con l'elaborazione di immagini mediche hanno portato alla creazione di VLM più avanzati che possono scrivere rapporti completi o rispondere a domande complesse.
Questa nuova generazione di modelli medici è costruita da grandi quantità di dati di addestramento raccolti da libri di testo medici, articoli scientifici o post sui social media da professionisti della salute. Anche se questi modelli hanno mostrato risultati impressionanti in test medici standardizzati, non è ancora chiaro se possano essere utili per campi medici specializzati. Nonostante la loro grandezza, i dati di addestramento usati non si concentrano sulle sfide specifiche che i dottori affrontano nelle loro attività quotidiane.
Nel nostro studio, abbiamo cercato di colmare questa lacuna sviluppando VLM che hanno valore clinico nel mondo reale. Abbiamo scomposto i compiti clinici nelle abilità necessarie e addestrato i VLM specificamente in queste aree. Abbiamo testato questo metodo in oftalmologia, introducendo RetinaVLM.
RetinaVLM è stato addestrato utilizzando un curriculum focalizzato sulla gestione dell'AMD, che è la principale causa di perdita della vista negli anziani. Può analizzare immagini OCT e rispondere a vari tipi di istruzioni testuali. Abbiamo condotto esperimenti approfonditi per valutare le capacità di RetinaVLM nella valutazione delle malattie, nei rinvii dei pazienti e nell'analisi delle immagini mediche.
Componenti Chiave di RetinaVLM
RetinaVLM ha due parti chiave: un'unità di elaborazione delle immagini (l'encoder visivo) che legge le immagini OCT, e un'unità di elaborazione del linguaggio (il modello linguistico grande) che gestisce il testo. L'encoder visivo si basa su precedenti lavori di successo, noto per le buone prestazioni con le immagini retiniche. Abbiamo selezionato Llama 3 di Meta come modello linguistico, che aveva i migliori risultati disponibili quando abbiamo condotto questo studio.
Nonostante il loro robusto addestramento, senza ulteriori istruzioni, questi modelli mancano delle conoscenze specifiche necessarie per analizzare le immagini OCT e gestire l'AMD. Entrambi i componenti erano stati pre-addestrati utilizzando grandi dataset, e abbiamo affinato il loro addestramento per adattarlo alle esigenze del nostro studio.
Formazione Specialistica per RetinaVLM
Abbiamo creato un piano di formazione specifico per insegnare a RetinaVLM le conoscenze necessarie per gestire l'AMD. Un modo semplice per specializzare i VLM mantenendo la loro capacità di rispondere in modo flessibile alle istruzioni testuali è fornire loro immagini mediche e le relative domande e risposte. Purtroppo, non ci sono molti dataset di domande e risposte visive (VQA) progettati per specialità mediche come l'oftalmologia.
Con un team di professionisti della cura degli occhi, abbiamo identificato abilità vitali per gestire efficacemente l'AMD. Queste abilità includono individuare i segni di AMD nelle immagini OCT, collegare questi segni al livello della malattia e determinare il rinvio e il trattamento appropriati per il paziente. Abbiamo poi sviluppato un piano di formazione composto da migliaia di immagini OCT, insieme a molte domande e risposte visive che hanno addestrato gradualmente i VLM in queste abilità.
Abbiamo diviso il nostro addestramento in due parti. La prima parte ha introdotto RetinaVLM all'aspetto della retina e ai segni di AMD visti durante l'imaging OCT. Abbiamo raccolto un gran numero di rapporti relativi a queste immagini. I rapporti descrivevano quali caratteristiche erano visibili nelle immagini e includevano informazioni sulla diagnosi.
Successivamente, abbiamo incaricato un modello linguistico di creare coppie di domande e risposte da questi rapporti. Questo processo ci ha permesso di produrre un ampio dataset di domande e risposte. Le domande si concentravano sulla presenza o assenza di marcatori specifici che indicano l'AMD.
Nella seconda parte dell'addestramento, abbiamo mirato a collegare i marcatori identificati al livello della malattia e raccomandare trattamenti. Questo ha richiesto la creazione di rapporti dettagliati che andassero oltre le note tipiche. Un team di medici oculisti più esperti ha creato questi rapporti, e abbiamo nuovamente utilizzato un modello indipendente per produrre coppie di domande e risposte basate su queste intuizioni.
Il risultato è stato due set di domande e risposte creati per specializzare i VLM con conoscenze sull'AMD.
Prestazioni di RetinaVLM Rispetto ad Altri Modelli
Abbiamo valutato le prestazioni di diversi VLM nel generare rapporti basati su immagini retiniche OCT e nel determinare le fasi di malattia dell'AMD. Abbiamo confrontato RetinaVLM con due VLM di base esistenti, Med-Flamingo e LLaVA-Med. Un totale di 276 immagini OCT sono state analizzate da questi modelli, con i loro rapporti confrontati con le valutazioni di esperti da dottori oculisti junior.
I nostri risultati hanno mostrato che anche la versione iniziale di RetinaVLM ha performato molto meglio rispetto ai modelli generali, che mancavano di conoscenze specifiche in oftalmologia. Med-Flamingo ha ottenuto uno dei punteggi più bassi, mentre RetinaVLM-Specialist ha registrato punteggi significativamente più alti. Si è avvicinato a eguagliare l’accuratezza dei dottori junior.
Nei nostri test, abbiamo notato che il più avanzato RetinaVLM-Specialist ha prodotto rapporti validi per tutti i casi analizzati, mentre molti rapporti dei modelli di base erano incompleti o formattati in modo errato. Questo ha dimostrato che RetinaVLM non solo era in grado di analizzare le immagini in modo efficace, ma era anche in grado di produrre rapporti affidabili.
Correttezza e Qualità dei Rapporti di RetinaVLM
In una valutazione ulteriore, abbiamo fatto valutare da oculisti senior la qualità dei rapporti prodotti da RetinaVLM. I medici senior hanno esaminato una selezione di rapporti di RetinaVLM, LLaVA-Med e dottori junior. Hanno valutato l'accuratezza, la completezza e quanto fossero concisi i rapporti.
I risultati hanno indicato che i rapporti di RetinaVLM erano quasi corretti e completi come quelli dei dottori junior, dimostrando le capacità del modello di comprendere e interpretare informazioni cliniche. Tuttavia, mentre RetinaVLM forniva rapporti di alta qualità, a volte includeva dettagli non necessari, portando a punteggi di concisione leggermente inferiori rispetto ai dottori junior.
Efficacia nel Rinvio e Screening dei Pazienti
L'AMD sta diventando più comune man mano che la popolazione invecchia, e vengono attivati programmi di screening per gestire questo problema. In posti come il Regno Unito, gli ottici stanno iniziando a interpretare le immagini OCT per identificare pazienti ad alto rischio.
Abbiamo testato la capacità di vari VLM di determinare l'urgenza dei rinvii dei pazienti per trattamento basati su linee guida fornite. I nostri risultati hanno mostrato che sia i modelli di base che anche RetinaVLM-Base hanno performato peggio rispetto ai dottori oculisti umani quando si trattava di raccomandare rinvii urgenti.
RetinaVLM-Specialist, tuttavia, ha identificato con successo una grande percentuale di pazienti ad alto rischio che necessitavano di trattamento immediato riducendo anche il numero di rinvii non necessari rispetto ai non specialisti.
Biomarcatori
Analisi della Rilevazione deiVolevamo assicurarci che i modelli potessero identificare con precisione i biomarcatori critici visti nelle immagini OCT. Abbiamo valutato quanto bene RetinaVLM e altri modelli potessero determinare la presenza di dieci biomarcatori importanti associati all'AMD. Le risposte sono state confrontate con le valutazioni fatte da oculisti junior.
RetinaVLM ha performato in modo notevole, superando entrambi i modelli di base nella rilevazione dei principali indicatori di AMD. Ha mostrato un'elevata capacità di identificare le caratteristiche gravi della malattia, dimostrando la sua utilità in contesti clinici.
Conclusione e Direzioni Future
In questo studio, abbiamo presentato RetinaVLM, uno strumento specializzato che può leggere le immagini OCT e creare rapporti testuali dettagliati sull'AMD. Mostra promesse nel fornire valutazioni accurate, raccomandazioni e analisi, allineandosi strettamente con i dottori junior in termini di prestazioni.
Crediamo che ci siano ancora miglioramenti da fare. Gli sforzi futuri dovrebbero concentrarsi sull'addestramento di RetinaVLM con una varietà più ampia di rapporti generati da specialisti esperti. Questo potrebbe aiutarlo a raggiungere prestazioni ancora migliori in situazioni cliniche. Vediamo anche la necessità di incorporare conoscenze su ulteriori malattie oculari e tecniche di imaging per rendere RetinaVLM ancora più versatile.
Seguendo il nostro metodo di addestramento personalizzato, dimostriamo che è possibile creare VLM capaci di affrontare le sfide cliniche reali, garantendo che forniscano un valore tangibile nel campo della sanità.
Titolo: Specialist vision-language models for clinical ophthalmology
Estratto: Clinicians spend a significant amount of time reviewing medical images and transcribing their findings regarding patient diagnosis, referral and treatment in text form. Vision-language models (VLMs), which automatically interpret images and summarize their findings as text, have enormous potential to alleviate clinical workloads and increase patient access to high-quality medical care. While foundational models have stirred considerable interest in the medical community, it is unclear whether their general capabilities translate to real-world clinical utility. In this work, we show that foundation VLMs markedly underperform compared to practicing ophthalmologists on specialist tasks crucial to the care of patients with age-related macular degeneration (AMD). To address this, we initially identified the essential capabilities required for image-based clinical decision-making, and then developed a curriculum to selectively train VLMs in these skills. The resulting model, RetinaVLM, can be instructed to write reports that significantly outperform those written by leading foundation medical VLMs in disease staging (F1 score of 0.63 vs. 0.11) and patient referral (0.67 vs. 0.39), and approaches the diagnostic performance of junior ophthalmologists (who achieve 0.77 and 0.78 on the respective tasks). Furthermore, in a reader study involving two senior ophthalmologists with up to 32 years of experience, RetinaVLM's reports were found to be similarly correct (78.6% vs. 82.1%) and complete (both 78.6%) as reports written by junior ophthalmologists with up to 10 years of experience. These results demonstrate that our curriculum-based approach provides a blueprint for specializing generalist foundation medical VLMs to handle real-world clinical tasks.
Autori: Robbie Holland, Thomas R. P. Taylor, Christopher Holmes, Sophie Riedl, Julia Mai, Maria Patsiamanidi, Dimitra Mitsopoulou, Paul Hager, Philip Müller, Hendrik P. N. Scholl, Hrvoje Bogunović, Ursula Schmidt-Erfurth, Daniel Rueckert, Sobha Sivaprasad, Andrew J. Lotery, Martin J. Menten
Ultimo aggiornamento: 2024-07-11 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.08410
Fonte PDF: https://arxiv.org/pdf/2407.08410
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.technologyreview.com/2023/04/19/1071789/openais-hunger-for-data-is-coming-back-to-bite-it/
- https://research.google/pubs/everyone-wants-to-do-the-model-work-not-the-data-work-data-cascades-in-high-stakes-ai/
- https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
- https://github.com/fastscience-ai/MedFlamingo
- https://github.com/microsoft/LLaVA-Med
- https://github.com/RobbieHolland/SpecialistVLMs
- https://huggingface.co/RobbieHolland/RetinaVLM