I rischi di usare GPT per domande sulla salute
Le informazioni sulla salute provenienti dai modelli di intelligenza artificiale possono portare a gravi disinformazioni.
― 6 leggere min
Indice
L'ascesa di modelli linguistici avanzati come ChatGPT solleva domande sul loro utilizzo per fornire informazioni sulla salute. Questi modelli imparano da tantissimo testo e possono generare risposte basate su quel training. Tuttavia, quanto bene rispondono alle domande può dipendere dal prompt che ricevono, cioè dalla domanda o dall'informazione data dall'utente. Questa questione è particolarmente importante per chi cerca consigli sulla salute, perché informazioni sbagliate possono avere conseguenze gravi.
Cosa Sono i Modelli Linguistici Generativi Pre-Addestrati?
I modelli linguistici generativi pre-addestrati, o GPLM, come ChatGPT, sono progettati per capire e generare testo simile a quello umano. Imparano da una grande quantità di dati e usano quella conoscenza per rispondere a vari prompt. Per esempio, quando un utente fa una domanda sull'efficacia di un trattamento, il modello utilizza le conoscenze che ha acquisito durante il training insieme a qualsiasi informazione fornita nel prompt per formulare una risposta.
Anche se la conoscenza incorporata nel modello gioca un ruolo cruciale, i prompt forniti dagli utenti possono influenzare significativamente le risposte generate. Questo significa che la qualità e la correttezza delle risposte possono variare a seconda di come viene posta la domanda.
L'importanza delle Domande Giuste
Quando gli utenti fanno domande sui trattamenti sanitari, spesso non si rendono conto che una semplice formulazione può portare a risposte fuorvianti. Ad esempio, una domanda come “L'aceto di mele funziona per le infezioni all'orecchio?” potrebbe ricevere risposte diverse a seconda delle informazioni aggiuntive incluse nel prompt. Alcuni utenti potrebbero includere informazioni da varie pagine web quando pongono le loro domande, il che può portare a risultati diversi.
Se il modello riceve informazioni affidabili, potrebbe fornire una risposta corretta. Tuttavia, se il prompt include informazioni fuorvianti o errate, può indirizzare il modello a fornire una risposta inaccurata. È una spada a doppio taglio; prompt più dettagliati possono aiutare a generare risposte migliori, ma possono anche portare a confusione se l'informazione non è accurata.
Valutazione dell'Efficacia di ChatGPT
Per capire quanto bene ChatGPT funzioni nel rispondere a domande sulla salute, i ricercatori hanno condotto studi utilizzando vere domande sanitarie. Hanno confrontato due approcci: uno in cui al modello venivano poste domande senza informazioni extra e un altro in cui il modello riceveva prompt che includevano risultati di ricerche web sullo stesso argomento.
In una parte dello studio, al modello sono state poste domande dirette sulla salute da solo. I risultati hanno mostrato che ChatGPT è stato abbastanza Efficace, fornendo risposte corrette circa l'80% delle volte. Questo suggerisce che, quando si pongono domande senza contesto aggiuntivo, il modello può comunque fornire risposte utili.
Tuttavia, quando al modello è stata data ulteriore informazione che supportava o contraddiceva il trattamento, la sua Accuratezza è scesa sotto il 70%. Questo significa che le informazioni incluse nei prompt erano abbastanza potenti da cambiare le risposte del modello, spesso in peggio. Ad esempio, quando il prompt conteneva Prove che affermavano che un trattamento era efficace ma le conoscenze originali del modello suggerivano il contrario, il modello spesso si allineava alle informazioni del prompt, anche se erano sbagliate.
Il Ruolo delle Prove nei Prompt
Nello studio, i ricercatori hanno esaminato più da vicino come le prove nei prompt influenzassero le risposte fornite da ChatGPT. Hanno usato documenti specifici come prove per supportare le domande. Alcuni documenti offrivano informazioni di supporto per un trattamento, mentre altri presentavano prove contrarie.
I risultati hanno mostrato che quando il modello veniva sollecitato con prove a sostegno, era più propenso a cambiare la propria risposta, portando a volte a risposte sbagliate. Nei casi in cui il prompt conteneva prove contraddittorie, il modello manteneva generalmente la propria posizione originale, ma l'accuratezza complessiva era comunque influenzata. Questo indica che la qualità del prompt gioca un ruolo essenziale nell'accuratezza delle informazioni sanitarie fornite.
I Rischi della Disinformazione
Con l'uso crescente di modelli linguistici per richieste legate alla salute, il rischio di disinformazione diventa una preoccupazione urgente. Poiché i prompt errati possono portare a risposte sbagliate, gli utenti, specialmente quelli con poca conoscenza sulla salute, potrebbero fare affidamento su queste risposte senza cercare ulteriore assistenza o verifica.
La disinformazione può avere impatti reali sulle decisioni sanitarie. Ad esempio, se qualcuno si affida a una risposta difettosa riguardo all'efficacia di un trattamento, potrebbe scegliere di intraprendere un'opzione dannosa o inefficace. Questo illustra che, anche se modelli come ChatGPT possono fornire risposte rapide, non dovrebbero sostituire i consigli medici professionali.
Limitazioni dello Studio
I ricercatori hanno riconosciuto diverse limitazioni nel loro studio che potrebbero influenzare i risultati. Prima di tutto, hanno osservato che i modelli di generazione linguistica possono produrre risposte diverse ogni volta che viene posta una domanda a causa del loro design. Questo significa che anche se un utente ripete la stessa domanda, il modello potrebbe dare risposte varie, complicando la valutazione della sua efficacia.
In secondo luogo, lo studio non ha valutato quale tipo di prova funzioni meglio nei prompt per fornire risposte accurate, né ha analizzato come diversi formati di domande potessero influenzare le risposte. Questi aspetti sono cruciali per migliorare l'affidabilità dei modelli linguistici nella fornitura di informazioni sulla salute.
Infine, lo studio si è concentrato su domande a turno singolo. Tuttavia, una delle forze di modelli come ChatGPT è la loro capacità di impegnarsi in conversazioni a più turni. Nelle situazioni reali, gli utenti potrebbero fare domande di follow-up o chiarire le loro richieste, il che potrebbe portare a risposte migliori o più raffinate.
Direzioni Future
Man mano che modelli linguistici come ChatGPT continuano a evolversi, è fondamentale esaminare come possono essere migliorati per applicazioni legate alla salute. La ricerca futura dovrebbe esplorare come creare prompt migliori che migliorino la capacità del modello di fornire informazioni accurate.
Inoltre, addestrare i modelli a identificare e filtrare informazioni fuorvianti dai prompt potrebbe essere utile. Questo potrebbe aiutare a mitigare il rischio di diffondere false informazioni e garantire che gli utenti ricevano consigli sanitari affidabili.
Un'altra area importante di focus dovrebbe essere l'integrazione delle risposte del modello con risorse che possano convalidare o confutare le informazioni fornite. Combinando le capacità dei modelli linguistici con la conoscenza esperta, gli utenti possono essere indirizzati a fonti affidabili per le loro richieste sulla salute.
In conclusione, mentre modelli come ChatGPT mostrano potenzialità nel rispondere a domande relative alla salute, è cruciale prestare attenzione ai prompt che vengono loro dati. L'equilibrio tra fornire contesto ricco e garantire accuratezza è delicato. Per migliorare i risultati sulla salute, è essenziale continuare a studiare come funzionano questi modelli e come possono essere resi più affidabili per gli utenti in cerca di informazioni sanitarie.
Titolo: Dr ChatGPT, tell me what I want to hear: How prompt knowledge impacts health answer correctness
Estratto: Generative pre-trained language models (GPLMs) like ChatGPT encode in the model's parameters knowledge the models observe during the pre-training phase. This knowledge is then used at inference to address the task specified by the user in their prompt. For example, for the question-answering task, the GPLMs leverage the knowledge and linguistic patterns learned at training to produce an answer to a user question. Aside from the knowledge encoded in the model itself, answers produced by GPLMs can also leverage knowledge provided in the prompts. For example, a GPLM can be integrated into a retrieve-then-generate paradigm where a search engine is used to retrieve documents relevant to the question; the content of the documents is then transferred to the GPLM via the prompt. In this paper we study the differences in answer correctness generated by ChatGPT when leveraging the model's knowledge alone vs. in combination with the prompt knowledge. We study this in the context of consumers seeking health advice from the model. Aside from measuring the effectiveness of ChatGPT in this context, we show that the knowledge passed in the prompt can overturn the knowledge encoded in the model and this is, in our experiments, to the detriment of answer correctness. This work has important implications for the development of more robust and transparent question-answering systems based on generative pre-trained language models.
Autori: Guido Zuccon, Bevan Koopman
Ultimo aggiornamento: 2023-02-23 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2302.13793
Fonte PDF: https://arxiv.org/pdf/2302.13793
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.