Modelli Linguistici AI negli Esami Medici: Uno Studio
Questo studio valuta le prestazioni dei modelli GPT sull'Esame Finale di Medicina polacco.
― 7 leggere min
Indice
L'intelligenza artificiale (IA) sta cambiando molti settori, e la medicina non fa eccezione. Uno degli sviluppi più interessanti è la creazione di grandi modelli di linguaggio (LLM). Questi modelli possono analizzare e creare testi che somigliano molto alla scrittura umana. Hanno dimostrato capacità eccezionali in compiti come capire le emozioni nei testi, tradurre lingue, riassumere informazioni e rispondere a domande.
Con queste abilità, c'è un crescente interesse per l'uso di questi modelli in medicina e sanità. Di recente, l'IA ha attirato ancora più attenzione con il lancio di ChatGPT, un chatbot sviluppato da OpenAI. ChatGPT è diventato subito popolare, attirando milioni di utenti poco dopo il suo rilascio.
Cos'è ChatGPT?
ChatGPT è uno dei grandi modelli di linguaggio sviluppati da OpenAI, rilasciato a fine 2022. Questo modello si basa sulla versione GPT-3.5 di un particolare tipo di IA conosciuta come generative pre-trained transformer. È stato addestrato usando un metodo chiamato Reinforcement Learning from Human Feedback. Questo processo di addestramento ha avuto tre passaggi principali:
- Prima, i formatori hanno mostrato al modello quali risposte erano desiderate.
- Poi, è stato creato un modello di ricompensa basato su quanto bene il modello riusciva a classificare varie risposte.
- Infine, il modello è stato migliorato in base a questo modello di ricompensa.
A marzo 2023, è stata rilasciata una versione aggiornata chiamata GPT-4, ma l'accesso a questo nuovo modello era limitato agli abbonati a pagamento. Sia GPT-3.5 che GPT-4 sono stati addestrati con dati disponibili solo fino a settembre 2021, quindi non avevano informazioni su sviluppi più recenti.
Questi modelli sono stati testati su un esame ampio chiamato Massive Multitask Language Understanding test, con GPT-4 che ha ottenuto risultati migliori rispetto ad altri modelli in varie lingue.
Il Ruolo dei Modelli di Linguaggio negli Esami Medici
Per vedere quanto bene questi modelli di linguaggio possono performare in contesti medici, devono essere valutati attraverso esami specifici. In medicina, l'esperienza di professionisti formati è fondamentale per diagnosi accurate, trattamenti efficaci e sicurezza dei pazienti. Esami rigorosi, come i test di abilitazione medica, valutano le conoscenze e le competenze dei laureati in medicina prima che inizino a esercitare autonomamente. Questi test coprono vari argomenti medici, rendendoli un buon modo per valutare modelli di linguaggio come GPT-3.5 e GPT-4.
Recentemente, studi hanno dimostrato che GPT-3.5 è stato testato su importanti esami medici come il United States Medical Licensing Examination, oltre a test in Giappone e Cina. La performance di GPT-3.5 è stata esaminata anche su vari database medici. Noto che GPT-3.5 ha ottenuto buoni risultati in un sondaggio sullo screening del cancro al seno, raggiungendo un alto livello di accuratezza. Tuttavia, non è stata condotta nessuna ricerca per vedere quanto bene GPT-3.5 e GPT-4 performano sugli esami medici in Europa.
Valutazione dei Modelli GPT sull'Esame Finale Medico Polacco
Questo studio mirava a testare quanto bene GPT-3.5 e GPT-4 performano sull'Esame Finale Medico Polacco. Questo esame è richiesto per chiunque voglia praticare medicina in Polonia e consiste di 200 domande, ognuna con cinque scelte di risposta. Per superarlo, i candidati devono rispondere correttamente ad almeno il 56%.
Per effettuare la valutazione, entrambi i modelli sono stati testati su tre edizioni di questo esame: Primavera 2022, Autunno 2022 e Primavera 2023. Tutte le domande e le loro risposte corrette erano disponibili online, insieme ai punteggi medi di veri laureati in medicina.
Per ogni domanda, a GPT-4 sono state date le domande e le scelte di risposta come input. GPT-3.5 è stato accessibile tramite un'API per velocizzare il processo di risposta. L'accuratezza per ciascuna versione del modello è stata calcolata dividendo il numero di risposte corrette per il numero totale di domande. Alcune domande ritenute obsolete o non valide, così come quelle contenenti immagini, sono state escluse dalla valutazione.
Metodi statistici, come l'analisi della correlazione, sono stati poi utilizzati per esplorare la relazione tra l'accuratezza delle risposte e la difficoltà delle domande.
Risultati degli Esami
I risultati hanno mostrato che GPT-3.5 ha superato due delle tre versioni dell'esame, mentre GPT-4 è riuscito a superare tutte e tre. I punteggi dettagliati e le percentuali di accuratezza hanno dimostrato come i due modelli si confrontano con i punteggi medi dei laureati in medicina. GPT-4 ha superato GPT-3.5 in termini di numero di risposte corrette e accuratezza complessiva in questi esami.
Un punto importante è che GPT-4 ha mostrato un notevole miglioramento nella conoscenza medica rispetto a GPT-3.5. Entrambi i modelli hanno mostrato una connessione tra la loro accuratezza e la difficoltà delle domande mediche, indicando che mancano ancora di un certo grado di conoscenza in quest'area. Curiosamente, hanno anche mostrato una relazione negativa tra correttezza delle risposte e l'indice di potere discriminatorio, il che suggerisce che alcune domande potrebbero aver portato a risultati fuorvianti.
Sebbene GPT-4 abbia ottenuto punteggi leggermente inferiori rispetto agli studenti di medicina in media, ha performato meglio rispetto agli studenti che si erano laureati più di due anni prima. I risultati complessivi suggeriscono che GPT-4, sebbene impressionante, ha ancora margini di miglioramento rispetto ai neolaureati in medicina più recenti.
Confronti con Altri Studi
I risultati di questo studio si allineano con ricerche precedenti di altri paesi, in particolare in Nord America e Asia. Ad esempio, GPT-3.5 ha ottenuto buoni risultati sul USMLE, mostrando un miglioramento rispetto ai modelli precedenti. Gli studi hanno indicato che GPT-4 ha anche superato GPT-3.5 in altri esami medici importanti.
Ci sono diverse ragioni che spiegano perché i modelli di linguaggio potrebbero non aver performato perfettamente. Prima di tutto, questi modelli sono di uso generale e non progettati specificamente per la medicina. Inoltre, la lingua usata nei test era il polacco, il che significa che ci sono meno dati di addestramento disponibili rispetto a lingue come l'inglese. Le performance possono migliorare se questi modelli vengono affinati con dati medici più specifici e risorse linguistiche.
Il Futuro dell'IA in Medicina
L'emergere di potenti modelli di linguaggio può influenzare notevolmente il futuro della medicina. Questi modelli potrebbero aiutare gli studenti di medicina ad apprendere creando materiali didattici personalizzati, aiutando i medici a comunicare meglio con i pazienti e supportando il processo decisionale clinico con spiegazioni dettagliate di casi medici.
Inoltre, l'IA ha il potenziale di migliorare il modo in cui vengono prese le note mediche, riassumere i risultati dei test e assistere nei processi decisionali. Risultati recenti mostrano che le risposte dell'IA possono essere preferite rispetto a quelle dei medici umani in alcuni contesti, il che indica che l'IA potrebbe migliorare la qualità dell'assistenza medica online.
Tuttavia, rimane fondamentale verificare l'accuratezza di tutte le risposte generate da questi modelli di IA, poiché a volte possono fornire informazioni o riferimenti errati. È essenziale approcciare questi strumenti con cautela, riconoscendo che, sebbene possano essere preziosi, il giudizio umano è ancora necessario in ambito medico.
Limitazioni dello Studio
Sebbene questo studio metta in evidenza il potenziale dell'IA in medicina, ci sono alcune limitazioni. Si è concentrato solo sull'Esame Finale Medico Polacco, il che potrebbe limitare l'applicabilità dei risultati ad altri scenari di test medico. Inoltre, il formato dell'esame consente la possibilità di rispondere correttamente a domande per caso, non solo per conoscenza.
Nonostante GPT-4 performi meglio di GPT-3.5, entrambi i modelli hanno ancora margini di miglioramento nell'accuratezza rispetto ai punteggi medi degli studenti di medicina. Le ricerche future dovrebbero mirare ad affinare questi modelli e valutare i loro possibili utilizzi in vari campi medici, inclusi aiuto diagnostico, decisioni cliniche e formazione medica.
Testando i LLM con domande più complesse e aperte e avendo valutazioni condotte da professionisti della salute, potrebbe emergere un quadro più chiaro delle loro potenzialità. Questo aiuterebbe a determinare come integrare al meglio l'IA nelle pratiche mediche attuali, assicurando che questi strumenti possano fornire un supporto affidabile sia per l'educazione che per le applicazioni cliniche.
Titolo: Evaluation of the performance of GPT-3.5 and GPT-4 on the Medical Final Examination
Estratto: IntroductionThe rapid progress in artificial intelligence, machine learning, and natural language processing has led to the emergence of increasingly sophisticated large language models (LLMs) enabling their use in various applications, including medicine and healthcare. ObjectivesThe study aimed to evaluate the performance of two LLMs: ChatGPT (based on GPT-3.5) and GPT-4, on the Medical Final Examination (MFE). MethodsThe models were tested on three editions of the MFE from: Spring 2022, Autumn 2022, and Spring 2023 in two language versions - English and Polish. The accuracies of both models were compared and the relationships between the correctness of answers with the index of difficulty and discrimination power index were investigated. ResultsThe study demonstrated that GPT-4 outperformed GPT-3.5 in all three examinations regardless of the language used. GPT-4 achieved mean accuracies of 80.7% for Polish and 79.6% for English, passing all MFE versions. GPT-3.5 had mean accuracies of 56.6% for Polish and 58.3% for English, passing 2 of 3 Polish versions and all 3 English versions of the test. GPT-4 score was lower than the average score of a medical student. There was a significant positive and negative correlation between the correctness of the answers and the index of difficulty and discrimination power index, respectively, for both models in all three exams. ConclusionsThese findings contribute to the growing body of literature on the utility of LLMs in medicine. They also suggest an increasing potential for the usage of LLMs in terms of medical education and decision-making support. Whats new?Recent advancements in artificial intelligence and natural language processing have resulted in the development of sophisticated large language models (LLMs). This study focused on the evaluation of the performance of two LLMs, ChatGPT (based on GPT-3.5) and GPT-4, on the Medical Final Examination across English and Polish versions from three editions. This study, to the best of our knowledge, presents the first validation of those models on the European-based medical final examinations. The GPT-4 outperformed GPT-3.5 in all exams, achieving mean accuracy of 80.7% (Polish) and 79.6% (English), while GPT-3.5 attained 56.6% (Polish) and 58.3% (English) respectively. However, GPT-4s scores fell short of typical medical student performance. These findings contribute to understanding LLMs utility in medicine and hint at their potential in medical education and decision-making support.
Autori: Maciej Rosol, J. S. Gasior, J. Laba, K. Korzeniewski, M. Mlynczak
Ultimo aggiornamento: 2023-08-16 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2023.06.04.23290939
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.06.04.23290939.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.