Simple Science

Scienza all'avanguardia spiegata semplicemente

# Scienze della salute# Educazione medica

Ingegneria dei prompt nell'AI medica: intuizioni da GPT-3.5

Esplorare strategie di prompt per ChatGPT nella risoluzione di problemi medici.

― 6 leggere min


AI nello studio diAI nello studio disuggerimenti medicidomande mediche in ChatGPT.Valutare le tecniche di prompt per
Indice

L'ingegneria dei prompt è un metodo sempre più usato per migliorare il modo in cui lavoriamo con i modelli di linguaggio di grandi dimensioni (LLM), come ChatGPT. Questi modelli sono diventati importanti in molti campi, compresa la medicina. Tuttavia, c'è ancora molto da scoprire su come l'ingegneria dei prompt possa aiutare specificamente in situazioni mediche.

Studi recenti mostrano che ChatGPT (GPT-3.5) ha ottenuto circa il 60% all'esame USMLE, un test per i professionisti medici negli Stati Uniti. Al contrario, la versione più recente, GPT-4, ha ottenuto circa l'87%. Curiosamente, una tecnica particolare chiamata “catena di pensieri” (CoT), che incoraggia il modello a pensare passo dopo passo, non ha aiutato significativamente le prestazioni di GPT-4 all'esame USMLE. Questo potrebbe essere perché l'esame non richiede realmente ragionamenti matematici complessi.

Al di fuori della sanità, l'ingegneria dei prompt ha mostrato buoni risultati in vari compiti, indicando che potrebbe essere utile anche nelle applicazioni mediche, soprattutto per compiti che richiedono Calcoli.

Nonostante il suo potenziale, ci sono pochi studi che si concentrano sull'ingegneria dei prompt per compiti medici. Questa mancanza di comprensione porta a molte domande senza risposta riguardo all'efficacia dei diversi metodi di prompting per risolvere problemi medici.

Scopo dello Studio

In questo studio, abbiamo cercato di colmare questa lacuna testando quanto bene GPT-3.5 risponde a domande di calcolo e non calcolo simili a quelle trovate nell'esame USMLE Step 1. Abbiamo esaminato tre diverse strategie di prompting: un prompt diretto, la tecnica CoT e un approccio CoT modificato. Le domande per questo studio sono state create da GPT-4, assicurandoci di avere un buon punto di confronto utilizzando un campione di domande reali dell'USMLE Step 1.

Il nostro obiettivo principale era vedere se l'uso di diverse tecniche di prompting potesse migliorare la capacità di ChatGPT di rispondere a problemi medici legati sia ai calcoli che a domande cliniche generali.

Disegno dello Studio

Abbiamo testato il modello linguistico di OpenAI, ChatGPT (GPT-3.5-turbo), utilizzando domande a scelta multipla (MCQs). Abbiamo confrontato tre tipi di prompt: prompt diretto, CoT e CoT modificato. Siamo partiti da un campione di domande dell'USMLE Step 1, lasciando 95 domande dopo aver rimosso quelle che richiedevano immagini. Abbiamo anche incluso due set di domande aggiuntivi generati da GPT-4: uno focalizzato sui calcoli e l'altro su scenari clinici.

Generazione delle Domande

Con GPT-4, abbiamo creato 1000 domande in stile medico, suddividendole in due gruppi: 500 incentrate sui calcoli e 500 sui non calcoli. Le domande non di calcolo includevano diagnosi basate su sintomi, scelta di trattamenti, interpretazione di risultati di laboratorio e altro ancora. Le domande di calcolo riguardavano compiti come il calcolo delle dosi di farmaci e analisi statistiche.

Ogni domanda ha ricevuto una valutazione di difficoltà facile, media o difficile, coprendo 19 diverse aree cliniche, come Medicina Interna e Chirurgia.

Fare Domande - Utilizzando Diversi Prompt

Per testare GPT-3.5, abbiamo usato tre strategie di prompting. Il prompt diretto chiedeva semplicemente di rispondere alla domanda. Il prompt CoT chiedeva di pensare passo dopo passo al problema. Il prompt CoT modificato incoraggiava il modello a leggere attentamente la domanda, a scomporla, a elaborare una strategia di soluzione, a controllare ogni passo e a condividere chiaramente il proprio ragionamento.

Tutti i prompt sono stati inviati tramite l'API di OpenAI, utilizzando una configurazione usuale con una temperatura standard e una lunghezza massima dei token.

Valutazione delle Prestazioni

Abbiamo misurato quanto accuratamente GPT-3.5 ha risposto alle domande. Abbiamo effettuato questa valutazione su vari tipi di domande e l'abbiamo confrontata con le domande dell'USMLE Step 1.

Nella nostra analisi, abbiamo esaminato le differenze di prestazione tra i tre metodi di prompting (prompt diretto, CoT e CoT modificato) per le domande dell'USMLE Step 1, le domande cliniche generate da GPT-4 e le domande focalizzate sui calcoli.

Risultati dello Studio

I risultati hanno mostrato che non c'era alcuna differenza significativa nel modo in cui le strategie di prompting hanno funzionato su tutti i tipi di domande. Per le domande di calcolo, le domande cliniche e il campione USMLE, le prestazioni erano abbastanza simili tra tutti e tre i metodi di prompt.

Osservando le domande di calcolo di vari livelli di difficoltà, i tassi di successo erano vicini: Prompt Diretto (64,2%), CoT (63,1%) e CoT Modificato (61,9%). Per le domande cliniche, nessuna strategia di prompting si è distinta in modo significativo, con tassi di successo per la diagnosi basata su sintomi praticamente identici per tutte le strategie.

In generale, l'analisi suggeriva che, sebbene possano esserci differenze minori nei tassi di successo delle diverse strategie di prompting, nessuna di esse ha avuto vantaggi significativi rispetto alle altre.

Osservazioni per Settore Medico

Quando abbiamo esaminato le prestazioni di GPT-3.5 in varie specialità mediche, abbiamo scoperto che tutte le strategie avevano tassi di successo simili. Tuttavia, la dermatologia aveva i tassi di successo più alti, mentre l'anestesia ha ottenuto i punteggi più bassi.

Risultati Chiave

Il nostro studio ha rivelato alcuni punti interessanti sull'ingegneria dei prompt nella risoluzione di problemi medici. Abbiamo testato tre metodi di prompting: diretto, catena di pensieri e catena di pensieri modificata. Nonostante le nostre speranze per risultati più significativi, abbiamo scoperto che nessuno di questi metodi era notevolmente migliore degli altri in termini di prestazioni.

Tutte le strategie sono riuscite a ottenere un alto tasso di risposte corrette alle domande mediche. Abbiamo scelto di concentrarci su ChatGPT piuttosto che su GPT-4 principalmente a causa della maggiore disponibilità e convenienza di ChatGPT.

I nostri risultati evidenziano le complessità dell'ingegneria dei prompt nelle applicazioni mediche. Nonostante la somiglianza nei risultati delle strategie utilizzate, dobbiamo ricordare che esistono molti approcci diversi. Non abbiamo esplorato altre tecniche, che potrebbero offrire ulteriori spunti su come migliorare le prestazioni.

Sebbene non siano chiare le modalità di addestramento di ChatGPT, si potrebbe suggerire che i principi dietro le strategie di prompting che abbiamo esplorato potrebbero già far parte di come ChatGPT opera. Questo potrebbe spiegare perché le nostre strategie specifiche non hanno portato a risultati sostanzialmente diversi.

La crescente capacità di modelli come ChatGPT suggerisce che potrebbero presto rivestire un ruolo fondamentale nel campo medico. Pertanto, è essenziale investigare su questi modelli e incorporare le loro conoscenze nella formazione medica. Il nostro studio dà speranza che metodi di prompting semplici possano ottenere risultati simili a strategie più complesse, rendendo più facile per i professionisti della salute utilizzare questi strumenti senza dover avere competenze avanzate in ingegneria dei prompt.

Limitazioni dello Studio

Sebbene i nostri risultati siano informativi, presentano alcune limitazioni. In primo luogo, ci siamo basati su domande in stile USMLE, che potrebbero non applicarsi ad altri tipi di problemi. In secondo luogo, ci siamo concentrati esclusivamente su ChatGPT, e altri modelli potrebbero rispondere in modo diverso a queste strategie di prompting. In terzo luogo, non abbiamo considerato le possibili variazioni nel modo in cui sono state implementate le strategie di prompting, il che potrebbe aver influenzato i nostri risultati. Infine, categorizzare le domande rigidamente in “calcolo” e “non calcolo” potrebbe aver trascurato la natura più complessa di molte domande mediche.

Conclusione

In conclusione, mentre l'ingegneria dei prompt offre potenziale per generare set di dati, come quelli creati da GPT-4, il nostro studio indica che non migliora necessariamente il modo in cui ChatGPT risponde a domande mediche di calcolo o cliniche. Questo risultato suggerisce che ChatGPT è già ben preparato per tali compiti.

Fonte originale

Titolo: The Limits of Prompt Engineering in Medical Problem-Solving: A Comparative Analysis with ChatGPT on calculation based USMLE Medical Questions

Estratto: BackgroundPrompt engineering significantly improves the performance of Large Language Models (LLMs), including GPT-3.5 and GPT-4. However, its utilization remains largely uncharted in the medical field. ObjectiveThis research aimed to assess the influence of different prompt engineering strategies on ChatGPT (GPT-3.5) in solving medical problems, specifically focusing on medical calculations and clinical scenarios. DesignWe utilized three different prompting strategies--direct prompting, the chain of thoughts (CoT), and a modified CoT method--across two sets of USMLE-style questions. SettingThe experiment was conducted using a 1000-question dataset, generated by GPT-4 with a specialized prompt, and a secondary analysis with 95 actual USMLE Step 1 questions. MeasurementsModel performance was assessed based on accuracy in answering medical calculation and clinical scenario questions across varying difficulty levels and medical subjects. ResultsDirect prompting demonstrated non-inferior accuracy compared to the CoT and modified CoT methods in both question categories. This trend remained consistent regardless of difficulty level or subject matter in the GPT-4-generated dataset and USMLE Step 1 sample questions. LimitationsThe study evaluated GPT-3.5 for answering and GPT 4 for question generation, limiting generalizability. ConclusionOur findings indicate that while prompt engineering can facilitate question generation, as exemplified by GPT-4, it does not necessarily improve model performance in answering medical calculation or clinical scenario questions. This suggests that the ChatGPT model is already effectively optimized for such tasks. Additionally, this finding simplifies the use of such models in healthcare settings, allowing practitioners to interact effectively with tools like ChatGPT without the need for complex prompt engineering, potentially encouraging wider adoption in clinical practice for problem-solving, patient care, and continuous learning.

Autori: Dhavalkumar Patel, G. Raut, E. Zimlichman, S. Cheetirala, G. Nadkarni, B. S. Glicksberg, R. Freeman, P. Timsina, E. Klang

Ultimo aggiornamento: 2023-08-09 00:00:00

Lingua: English

URL di origine: https://www.medrxiv.org/content/10.1101/2023.08.06.23293710

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.08.06.23293710.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili