Simple Science

Scienza all'avanguardia spiegata semplicemente

# Scienze della salute# Radiologia e diagnostica per immagini

Valutare il ruolo di GPT-4V nella diagnosi medica

GPT-4V sembra promettente nell'analizzare immagini mediche per una diagnosi migliore.

― 6 leggere min


L'impatto di GPT-4V sullaL'impatto di GPT-4V sulladiagnosi medicadelle immagini mediche.mostra un'alta precisione nell'analisiIl modello di intelligenza artificiale
Indice

Usare i computer per aiutare i dottori a diagnosticare i pazienti e guidare i trattamenti è un obiettivo che l'intelligenza artificiale (IA) si è posta da un bel po'. Negli Stati Uniti, gli ospedali hanno iniziato a utilizzare sistemi di registrazione sanitaria elettronica (EHR), il che ha portato a una grande quantità di dati digitali dalle visite dei pazienti. Un sistema chiamato Computer-Assisted Clinical Diagnostic Support System (CDSS) mira a migliorare le decisioni dei medici fornendo informazioni sui pazienti e conoscenze cliniche. C'è un crescente interesse per il CDSS, specialmente per l'analisi delle immagini mediche, nota come radiomica. Questo approccio viene utilizzato in vari campi medici, come nella rilevazione del cancro al seno, nella diagnosi del COVID-19 e nell'identificazione delle cataratte congenite.

Per essere affidabile, un CDSS non dovrebbe solo fare previsioni, ma anche fornire spiegazioni chiare per quelle previsioni. Tuttavia, molti CDSS di imaging precedenti mostrano solo aree che l'IA considera importanti, il che non offre abbastanza dettagli sulla diagnosi.

Modelli Linguistici Grandi in Medicina

Le recenti innovazioni nell'IA includono modelli linguistici grandi (LLMs), come ChatGPT. Questi modelli possono generare spiegazioni per varie domande e compiti. ChatGPT, rilasciato da OpenAI nel 2022, ha dimostrato prestazioni impressionanti, anche in compiti legati alla medicina. Ha ottenuto buoni risultati negli esami di licenza medica, sollevando discussioni sulla possibile integrazione degli LLMs nella pratica clinica e nell'educazione.

Un difetto di ChatGPT è che non può elaborare immagini, il che limita il suo utilizzo in aree che si basano su dati visivi. Tuttavia, nuovi modelli come GPT-4V sono stati sviluppati per superare questa limitazione, permettendo di elaborare sia testo che immagini.

Valutazione dell'Analisi delle Immagini Mediche di GPT-4V

La capacità di GPT-4V di analizzare immagini mediche non è ancora completamente valutata. Per questo studio, l'obiettivo era vedere quanto bene GPT-4V si comporta su domande di esami di licenza medica che includono immagini, e come spiega le sue risposte per i professionisti della salute.

Lo studio ha confrontato le prestazioni di GPT-4V con altri modelli come ChatGPT e GPT-4 su domande di esami di licenza medica. La ricerca è stata approvata da un comitato etico ed è stata condotta nell'ottobre 2023.

Raccolta Dati per Esami Medici

Lo studio ha raccolto domande da diverse fonti, tra cui l'United States Medical Licensing Examination (USMLE) e un database di domande chiamato AMBOSS. L'USMLE ha tre fasi che gli studenti di medicina devono completare per ottenere una licenza. Questo esame testa la capacità di un medico di utilizzare le conoscenze nella gestione della salute e delle malattie, fondamentale per la cura sicura dei pazienti.

Le domande dell'esame includevano un mix di testo e immagini. Ad esempio, la Fase 1 includeva 119 domande, la Fase 2 ne aveva 120 e la Fase 3 conteneva 137 domande. I ricercatori hanno selezionato domande che includevano immagini, per un totale di 50 domande. Hanno anche raccolto ulteriori domande da AMBOSS, aumentando ulteriormente il totale a 150 domande usate nello studio.

Il team di ricerca ha considerato vari campi medici come radiologia, dermatologia e ortopedia nella scelta delle domande per garantire un'analisi completa.

Come Usare GPT-4V

Per rispondere a domande che coinvolgono immagini, GPT-4V ha utilizzato input sia testuali che visivi. I ricercatori hanno creato un formato di input specifico, iniziando con l'immagine, seguita dalle informazioni sul paziente e dalle domande, poi presentando le opzioni a scelta multipla. Ogni domanda è stata inserita manualmente nel modello separatamente.

Ad esempio, è stata posta una domanda su una donna di 55 anni con dolore toracico a GPT-4V, che ha poi analizzato l'immagine e fornito una risposta con giustificazione.

Valutazione dell'Accuratezza delle Risposte

Per misurare l'accuratezza del modello, i ricercatori hanno confrontato le sue risposte con quelle corrette fornite dall'ente esaminatore. Hanno definito l'accuratezza come il numero di risposte corrette diviso il numero totale di domande.

La qualità delle spiegazioni date da GPT-4V è stata anche valutata attraverso il feedback dei professionisti sanitari. Hanno confrontato le spiegazioni fornite da GPT-4V con quelle di esperti umani per valutare la preferenza e l'efficacia.

Risultati dello Studio

I risultati hanno mostrato che GPT-4V ha raggiunto un'alta accuratezza su domande di esami medici che coinvolgevano immagini. In particolare, ha performato meglio di ChatGPT e GPT-4, ottenendo rispettivamente l'84,2%, l'85,7% e l'88,9% negli esami Fase 1, Fase 2 e Fase 3. Ha anche superato gli altri modelli in un esame di radiologia specializzata, indicando prestazioni forti nell'analisi delle immagini.

Quando si esaminavano domande senza immagini, GPT-4V ha ottenuto punteggi leggermente inferiori ma comunque lodevoli, suggerendo che la sua accuratezza è influenzata dalla complessità delle domande presentate.

Prestazioni Basate sulla Difficoltà delle Domande

Lo studio ha anche trovato che man mano che le domande diventavano più difficili, l'accuratezza di GPT-4V diminuiva. Al contrario, quando venivano forniti suggerimenti, le prestazioni del modello miglioravano significativamente. Questo indica che GPT-4V potrebbe trarre beneficio da ulteriori indicazioni quando affronta domande difficili.

Qualità delle Spiegazioni

I professionisti della salute hanno valutato la qualità delle spiegazioni fornite da GPT-4V. Sono stati invitati a scegliere tra le spiegazioni di GPT-4V e quelle degli esperti umani. I risultati hanno mostrato che, mentre GPT-4V forniva spiegazioni decenti, c'era ancora una preferenza per le risposte degli esperti, specialmente quando GPT-4V rispondeva in modo errato.

La maggior parte delle risposte corrette di GPT-4V includeva un'interpretazione dell'immagine e dettagli pertinenti dalla domanda, dimostrando che combinava efficacemente entrambi i componenti nella generazione delle risposte.

Tuttavia, tra le risposte errate, molte erano dovute a malintesi delle immagini presentate. Questo evidenzia un'area chiave per miglioramenti, poiché un'interpretazione accurata delle immagini è vitale per fare la diagnosi corretta.

La Sfida delle Allucinazioni

Un'altra sfida affrontata da GPT-4V è stata la tendenza a produrre informazioni inaccurate, spesso chiamate "allucinazioni". Queste imprecisioni possono essere ingannevoli, specialmente nei contesti medici dove la precisione è cruciale. Lo studio ha notato che una parte significativa delle spiegazioni errate conteneva errori fattuali.

Limitazioni dello Studio

Lo studio ha le sue limitazioni. La dimensione del campione di 226 domande potrebbe non rappresentare in modo completo tutte le aree della medicina. Inoltre, i dati di addestramento di GPT-4V includevano solo informazioni fino a settembre 2022, il che significa che potrebbe non essere in grado di rispondere a domande che richiedono le conoscenze mediche più recenti.

Inoltre, mentre GPT-4V ha mostrato promesse nel rispondere a domande d'esame, la sua efficacia in contesti clinici reali non è stata completamente testata.

Conclusione

In sintesi, GPT-4V ha dimostrato ottime prestazioni nella risposta a domande di esami medici che coinvolgono immagini, ottenendo un'alta accuratezza rispetto ai modelli precedenti. La sua capacità di fornire spiegazioni basate sia su immagini che su testo è un significativo passo avanti. Tuttavia, ci sono ancora aree da migliorare, specialmente nell'interpretazione accurata delle immagini e nella riduzione delle informazioni errate.

Con la continua ricerca e sviluppo, il ruolo dell'IA nella pratica clinica potrebbe crescere, ma è importante che i professionisti medici rimangano vigili e verifichino le informazioni generate dall'IA con fonti affidabili. Nonostante le sue capacità, modelli di IA come GPT-4V non sono destinati a sostituire i dottori umani. Invece, possono servire come strumenti preziosi per assistere nel processo decisionale.

Fonte originale

Titolo: Performance of Multimodal GPT-4V on USMLE with Image: Potential for Imaging Diagnostic Support with Explanations

Estratto: BackgroundUsing artificial intelligence (AI) to help clinical diagnoses has been an active research topic for more than six decades. Past research, however, has not had the scale and accuracy for use in clinical decision making. The power of AI in large language model (LLM)-related technologies may be changing this. In this study, we evaluated the performance and interpretability of Generative Pre-trained Transformer 4 Vision (GPT-4V), a multimodal LLM, on medical licensing examination questions with images. MethodsWe used three sets of multiple-choice questions with images from the United States Medical Licensing Examination (USMLE), the USMLE question bank for medical students with different difficulty level (AMBOSS), and the Diagnostic Radiology Qualifying Core Exam (DRQCE) to test GPT-4Vs accuracy and explanation quality. We compared GPT-4V with two state-of-the-art LLMs, GPT-4 and ChatGPT. We also assessed the preference and feedback of healthcare professionals on GPT-4Vs explanations. We presented a case scenario on how GPT-4V can be used for clinical decision support. ResultsGPT-4V outperformed ChatGPT (58.4%) and GPT4 (83.6%) to pass the full USMLE exam with an overall accuracy of 90.7%. In comparison, the passing threshold was 60% for medical students. For questions with images, GPT-4V achieved a performance that was equivalent to the 70th - 80th percentile with AMBOSS medical students, with accuracies of 86.2%, 73.1%, and 62.0% on USMLE, DRQCE, and AMBOSS, respectively. While the accuracies decreased quickly among medical students when the difficulties of questions increased, the performance of GPT-4V remained relatively stable. On the other hand, GPT-4Vs performance varied across different medical subdomains, with the highest accuracy in immunology (100%) and otolaryngology (100%) and the lowest accuracy in anatomy (25%) and emergency medicine (25%). When GPT-4V answered correctly, its explanations were almost as good as those made by domain experts. However, when GPT-4V answered incorrectly, the quality of generated explanation was poor: 18.2% wrong answers had made-up text; 45.5% had inferencing errors; and 76.3% had image misunderstandings. Our results show that after experts gave GPT-4V a short hint about the image, it reduced 40.5% errors on average, and more difficult test questions had higher performance gains. Therefore, a hypothetical clinical decision support system as shown in our case scenario is a human-AI-in-the-loop system where a clinician can interact with GPT-4V with hints to maximize its clinical use. ConclusionGPT-4V outperformed other LLMs and typical medical student performance on results for medical licensing examination questions with images. However, uneven subdomain performance and inconsistent explanation quality may restrict its practical application in clinical settings. The observation that physicians hints significantly improved GPT-4Vs performance suggests that future research could focus on developing more effective human-AI collaborative systems. Such systems could potentially overcome current limitations and make GPT-4V more suitable for clinical use. 1-2 sentence descriptionIn this study the authors show that GPT-4V, a large multimodal chatbot, achieved accuracy on medical licensing exams with images equivalent to the 70th - 80th percentile with AMBOSS medical students. The authors also show issues with GPT-4V, including uneven performance in different clinical subdomains and explanation quality, which may hamper its clinical use.

Autori: Hong Yu, Z. Yang, Z. Yao, M. Tasmin, P. Vashisht, W. S. Jang, B. Wang, F. Ouyang, D. Berlowitz

Ultimo aggiornamento: 2023-11-15 00:00:00

Lingua: English

URL di origine: https://www.medrxiv.org/content/10.1101/2023.10.26.23297629

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.10.26.23297629.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili