Simple Science

Scienza all'avanguardia spiegata semplicemente

# Scienze della salute# Medicina cardiovascolare

Valutare le prestazioni degli LLM negli esami di cardiologia nucleare

Lo studio valuta la capacità dei LLM avanzati di rispondere a domande complicate degli esami medici.

― 6 leggere min


LLMs nell'Esame diLLMs nell'Esame diCardiologia Nuclearemedico.l'accuratezza delle domande d'esameModelli avanzati valutati per
Indice

I recenti miglioramenti nei modelli di linguaggio di grandi dimensioni (LLM) hanno suscitato interesse su come possano essere usati in vari campi, inclusa la medicina. Molti studi hanno esaminato quanto bene questi modelli si comportino negli esami medici, in particolare l'United States Medical Licensing Exam (USMLE) e gli esami di specializzazione. La capacità degli LLM di rispondere correttamente alle domande indica il loro potenziale come strumenti educativi, aiutando a chiarire argomenti complessi e spiegare le risposte. Tuttavia, utilizzare gli LLM in situazioni mediche reali, specialmente per diagnosticare e prendere decisioni mediche, dovrebbe essere fatto con cautela e ulteriori studi.

Sfide nell'imaging medico

Un'area che non è stata completamente esaminata è quanto bene gli LLM possano affrontare domande che richiedono l'analisi di immagini mediche, che è particolarmente importante in campi come l'imaging cardiovascolare. Anche se alcuni studi hanno iniziato a concentrarsi su come gli LLM possano analizzare le immagini, c'è ancora una mancanza di confronti approfonditi tra diversi modelli. Questo mette in evidenza la necessità di ulteriori ricerche su come questi modelli possano interpretare le immagini insieme ai dati testuali nella diagnostica medica.

Esame di cardiologia nucleare

La cardiologia nucleare rappresenta una sfida per gli LLM perché coinvolge processi diagnostici complessi che richiedono una profonda comprensione sia delle immagini che del testo. A differenza degli esami medici generali, le conoscenze richieste per la cardiologia nucleare provengono da un numero minore di riviste mediche specializzate. Negli Stati Uniti, i medici devono superare l'esame del Certification Board of Nuclear Cardiology (CBNC) per essere certificati. L'American Society of Nuclear Cardiology (ASNC) offre esami di preparazione per aiutare i candidati a prepararsi per l'esame CBNC. Tuttavia, non c'è un punteggio fisso per superare queste domande di preparazione, e il punteggio esatto necessario per passare l'esame CBNC non è noto.

Panoramica dello studio

Questo studio mirava a valutare quanto bene quattro chatbot LLM avanzati-GPT-4, GPT-4 Turbo, GPT-4 Omni e Gemini-potevano rispondere a domande multimodali (basate su testo e immagine) e a domande solo testuali dell'ASNC Board Preparation Examination. Le domande dell'esame erano suddivise in quattro sezioni principali, che riflettono la struttura dell'esame di certificazione CBNC. I modelli sono stati testati in condizioni standardizzate, con ogni modello che rispondeva alle domande più volte. Questo ha permesso ai ricercatori di vedere come le prestazioni variassero nel tempo e identificare i punti di forza e di debolezza di ciascun modello.

Dataset delle domande

Lo studio ha utilizzato domande a scelta multipla dall'ASNC Board Preparation Exam 2023. Faculty esperti in cardiologia nucleare hanno creato queste domande per aiutare i partecipanti a prepararsi per l'esame CBNC. L'ASNC ha consentito l'uso di queste domande per questo studio e ha fornito le risposte corrette. L'esame consisteva di 168 domande, e l'approvazione etica non era necessaria poiché non c'erano soggetti umani coinvolti.

Categorizzazione delle domande

Le domande sono state organizzate in quattro categorie basate sulle linee guida ASNC:

  1. Fisica, strumentazione, radionuclidi e sicurezza delle radiazioni
  2. Acquisizione e controllo della qualità, gated SPECT, riconoscimento degli artefatti e MUGA
  3. Selezione del test, interpretazione dei protocolli di stress e nucleari, uso appropriato e stratificazione del rischio
  4. PET cardiaco, imaging multimodale, amiloidosi cardiaca, casi con esperti: PET e SPECT

Le domande sono state anche classificate in base alla presenza di immagini. C'erano 27 domande basate su immagini e 141 domande solo testuali.

Prestazioni del modello e raccolta dati

Gli LLM usati nello studio erano tutti basati su architetture in stile transformer, progettati per prevedere la prossima parola in una frase. Sono stati addestrati su un mix di dati disponibili pubblicamente e dati concessi in licenza da altre fonti. L'addestramento include tecniche di apprendimento di rinforzo, ma dettagli specifici sui modelli, come la loro dimensione e i dati su cui sono stati addestrati, non sono divulgati pubblicamente.

Le risposte di GPT-4, Gemini e GPT-4 Turbo sono state raccolte in due fasi. Nella prima fase, i modelli hanno risposto alle domande manualmente per un periodo di sei settimane per valutare le loro prestazioni nel tempo. GPT-4 Omni non è stato incluso in questa fase perché è stato rilasciato dopo.

Nella seconda fase, per tenere conto della variabilità, ogni modello è stato testato 30 volte. Il test si è svolto in un ambiente controllato, gestendo richieste da una piattaforma cloud. Ogni domanda è stata presentata una dopo l'altra, con i modelli istruiti a fornire le risposte più probabili.

Valutazione dell'esame

Ogni domanda aveva solo una risposta corretta, e le risposte scelte dai modelli sono state confrontate con quelle corrette fornite dall'ASNC. I punteggi sono stati calcolati sulla base del numero totale di risposte corrette.

Analisi delle prestazioni

Le prestazioni complessive dei modelli su tutte le 168 domande hanno mostrato differenze notevoli. GPT-4o ha ottenuto il punteggio più alto, seguito da GPT-4 Turbo, GPT-4 e Gemini. Ci sono state differenze significative nelle prestazioni tra i modelli, in particolare tra GPT-4o e gli altri.

Analisi sezione per sezione

Esaminando ogni sezione dell'esame, GPT-4o ha costantemente superato gli altri modelli, in particolare nelle sezioni relative alla fisica e all'interpretazione delle immagini. Tuttavia, GPT-4 Turbo ha mostrato i suoi punti di forza in alcune sezioni, mentre Gemini ha faticato, soprattutto nel rispondere a domande che richiedevano Analisi delle immagini.

Domande solo testuali

Per le domande che non coinvolgevano immagini, GPT-4o ha nuovamente ottenuto i risultati migliori, superando significativamente GPT-4, Gemini e GPT-4 Turbo. Questo evidenzia la forza di GPT-4o nel gestire domande basate su testo.

Domande basate su immagini

Quando si è trattato di questioni basate su immagini, GPT-4 e GPT-4 Turbo si sono comportati in modo simile, ma Gemini ha faticato notevolmente rispetto agli altri modelli. Questo mette in evidenza una lacuna nella capacità di Gemini di analizzare le immagini mediche in modo efficace.

Test a lungo termine

Durante il periodo di test di sei settimane, i modelli non hanno mostrato cambiamenti significativi nelle prestazioni, tranne per un calo nelle prestazioni di GPT-4 Turbo in una sezione. Questo suggerisce che, mentre gli LLM possono performare bene, le loro capacità potrebbero non migliorare drasticamente in periodi brevi.

Conclusione

In generale, lo studio rivela come LLM avanzati come GPT-4o possano gestire domande complesse relative alla cardiologia nucleare e all'imaging medico. Nonostante il loro potenziale, ci sono ancora limiti, specialmente nell'interpretazione delle immagini mediche. Con l'adozione crescente di questi modelli in medicina, comprendere i loro punti di forza e di debolezza è cruciale per medici e pazienti.

Pensieri finali

Lo studio mostra che mentre GPT-4o si distingue nel rispondere a domande degli esami di certificazione, in particolare nella cardiologia nucleare, sono necessari ulteriori sforzi per migliorare l'accuratezza degli LLM nell'interpretazione delle immagini mediche. I futuri sviluppi potrebbero focalizzarsi sul miglioramento dell'addestramento di questi modelli con conoscenze specializzate per migliorare le loro prestazioni nei campi medici. In generale, questi risultati suggeriscono una direzione promettente per l'uso degli LLM come strumenti educativi e tecnologie assistive nella comunità medica.

Fonte originale

Titolo: Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam

Estratto: BackgroundPrevious studies evaluated the ability of large language models (LLMs) in medical disciplines; however, few have focused on image analysis, and none specifically on cardiovascular imaging or nuclear cardiology. ObjectivesThis study assesses four LLMs - GPT-4, GPT-4 Turbo, GPT-4omni (GPT-4o) (Open AI), and Gemini (Google Inc.) - in responding to questions from the 2023 American Society of Nuclear Cardiology Board Preparation Exam, reflecting the scope of the Certification Board of Nuclear Cardiology (CBNC) examination. MethodsWe used 168 questions: 141 text-only and 27 image-based, categorized into four sections mirroring the CBNC exam. Each LLM was presented with the same standardized prompt and applied to each section 30 times to account for stochasticity. Performance over six weeks was assessed for all models except GPT-4o. McNemars test compared correct response proportions. ResultsGPT-4, Gemini, GPT4-Turbo, and GPT-4o correctly answered median percentiles of 56.8% (95% confidence interval 55.4% - 58.0%), 40.5% (39.9% - 42.9%), 60.7% (59.9% - 61.3%) and 63.1% (62.5 - 64.3%) of questions, respectively. GPT4o significantly outperformed other models (p=0.007 vs. GPT-4Turbo, p

Autori: Piotr Slomka, V. M. Builoff, A. Shanbhag, R. Miller, D. Dey, J. Liang, K. Flood, J. Bourque, P. Chareonthaitawee, L. Phillips

Ultimo aggiornamento: 2024-07-16 00:00:00

Lingua: English

URL di origine: https://www.medrxiv.org/content/10.1101/2024.07.16.24310297

Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.07.16.24310297.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili