Simple Science

Scienza all'avanguardia spiegata semplicemente

# Scienze della salute# Informatica sanitaria

Valutare la ricerca biomedica: collaborazione tra umani e AI

Combinare revisori umani con LLM migliora le valutazioni della ricerca biomedica.

― 6 leggere min


L'IA incontra laL'IA incontra lavalutazione della ricercabiomedicavalutazioni di ricerca migliori.L'AI migliora le recensioni umane per
Indice

Valutare quanto bene vengono riportati e progettati gli studi biomedicali è fondamentale per prendere decisioni mediche informate. Tuttavia, questo processo di valutazione richiede molto tempo e risorse. Molti strumenti usati per la valutazione sono basati su testi e hanno istruzioni varie, come liste di controllo o strumenti specifici per studi clinici.

Strumenti per la Valutazione delle Evidenze

Alcuni strumenti comuni includono i "Preferred Reporting Items for Systematic Reviews and Meta-Analyses" (PRISMA), il "Measurement Tool to Assess Systematic Reviews" (AMSTAR) e il "Pragmatic Explanatory Continuum Indicator Summary 2" (PRECIS-2). Questi strumenti aiutano i ricercatori a valutare la qualità degli studi e a garantire che soddisfino standard specifici.

In passato, sono stati provati metodi di machine learning tradizionale e di elaborazione del linguaggio naturale per estrarre informazioni importanti dai rapporti di studio, come dettagli sulla popolazione, intervento, controllo e risultati (spesso chiamati PICO). Ora si usano tecnologie avanzate di deep learning per valutare il reporting su scala più ampia.

Il Ruolo dei Grandi Modelli Linguistici

Recentemente, i grandi modelli linguistici (LLM) hanno attirato attenzione per la loro capacità di comprendere e elaborare il linguaggio. Questi modelli, come ChatGPT di OpenAI, sembrano funzionare bene in molte attività e hanno superato diversi benchmark in intelligenza artificiale. Anche se molti pensano che gli LLM possano aiutare con le Revisioni sistematiche, ci sono discussioni sulle loro limitazioni. L'efficacia degli LLM nello screening e nell'estrazione dei dati è variata notevolmente, ma ci sono casi in cui potrebbero essere utili.

Valutare le Prestazioni degli LLM

Per capire meglio come gli LLM si confrontano con le valutazioni umane, i ricercatori hanno studiato cinque diversi LLM. Volevano vedere come questi modelli si allineassero con le valutazioni umane utilizzando diversi strumenti di valutazione, in particolare PRISMA e AMSTAR per le revisioni sistematiche, e PRECIS-2 per gli studi clinici. Volevano scoprire quale modello funzionasse meglio, quanto complessità potessero gestire i modelli attuali e se combinare più LLM migliorasse l'accuratezza. Hanno anche esaminato se accoppiare i revisori umani con gli LLM fosse più efficiente rispetto a fare affidamento solo su più valutatori umani.

Scelta dei Dataset e degli Strumenti

Nella selezione dei dataset, i ricercatori avevano bisogno di quelli in cui erano disponibili due valutazioni indipendenti da parte di umani. È prassi comune nelle revisioni sistematiche che almeno due persone valutino gli stessi studi. Per gli strumenti PRISMA e AMSTAR, hanno usato valutazioni di 112 revisioni sistematiche in chirurgia pediatrica. Lo strumento PRISMA ha 27 elementi e AMSTAR ne ha 11, con valutazioni date come sì, no o non applicabile. Per lo strumento PRECIS-2, sono state analizzate le valutazioni di 56 trial clinici randomizzati.

LLM nello Studio

I ricercatori hanno utilizzato quattro LLM proprietari e un modello open-source. Ogni modello ha capacità, costi e velocità diversi. L'unico modello che può elaborare sia testo che immagini è Claude-3-Opus. Gli altri quattro possono gestire solo il testo. I ricercatori volevano assicurarsi che tutti i modelli fossero confrontati in modo equo, interrogandoli in modo coerente e limitando il fattore casuale nelle loro risposte.

Ingegneria dei Prompt per gli LLM

Per ottenere risposte utili dagli LLM, i ricercatori hanno creato prompt specifici che includevano istruzioni chiare. Ogni modello ha ricevuto un'introduzione o un briefing seguiti da istruzioni dettagliate per effettuare la valutazione. Questo approccio è essenziale perché aiuta a migliorare come gli LLM comprendono e rispondono.

Estrazione di Valutazioni e Citazioni

Le risposte da ciascun LLM sono state salvate e i ricercatori hanno lavorato per estrarre automaticamente le valutazioni. Alcuni errori di formattazione minori sono stati corretti automaticamente, ma problemi significativi hanno richiesto di ripetere le domande ai modelli più volte. I ricercatori sono stati particolarmente attenti a controllare che le citazioni estratte dal testo fossero accurate.

Analizzare l'Accordo con le Valutazioni Umane

Il focus principale era misurare quanto strettamente i modelli concordassero con le valutazioni umane. Hanno esaminato quanto spesso le valutazioni degli LLM corrispondessero al consenso dei revisori umani. Hanno eseguito diverse analisi per ciascun strumento di valutazione per vedere quanto bene funzionassero i modelli e quali risorse utilizzassero nel processo.

Prestazioni dei Valutatori Umani Individuali

L'accuratezza dei valutatori umani era piuttosto alta, oscillando tra l'89% e il 90% per PRISMA e AMSTAR e circa il 75% per PRECIS-2. Confrontati con gli LLM individuali, i modelli avevano un'accuratezza molto più bassa. Ad esempio, il miglior modello per PRISMA ha raggiunto solo il 70% di accuratezza, mentre il peggiore aveva il 63%. La prestazione era simile per AMSTAR e ancora più bassa per PRECIS-2.

Combinare le Valutazioni degli LLM

Quando combinavano le valutazioni di tutti gli LLM usando un metodo che cercava coerenza tra le loro risposte, i ricercatori hanno trovato una migliore accuratezza. I modelli hanno funzionato bene quando c'era un accordo della maggioranza tra di loro. Per PRISMA e AMSTAR, l'accuratezza è migliorata tra il 75% e l'88%, ma significava comunque che molte valutazioni avrebbero dovuto essere controllate da revisori umani. Questo approccio ha permesso ai ricercatori di identificare incertezze nelle valutazioni, che sono importanti per comprendere l'affidabilità dei risultati.

Collaborazione Umano-AI

I ricercatori hanno anche indagato se combinare le valutazioni umane con quelle degli LLM avrebbe portato a risultati migliori rispetto all'uso di valutatori umani da soli. In diversi casi, questa collaborazione ha migliorato significativamente l'accuratezza. Per PRISMA e AMSTAR, l'accuratezza è arrivata fino al 96% quando le valutazioni di un valutatore umano e un LLM si allineavano. Questo significa che molte risposte potrebbero potenzialmente essere evitate per un secondo giro di revisione, risparmiando tempo per i valutatori umani.

Per PRECIS-2, i risultati non erano così forti, con solo una su dieci combinazioni che mostrava un miglioramento significativo. Questo indica che mentre gli LLM possono assistere, non sono ancora abbastanza affidabili per valutazioni più complesse come i progetti di trial clinici.

Sfide e Direzioni Future

Nonostante i progressi fatti nell'uso degli LLM per queste valutazioni, restano alcune problematiche. I modelli non hanno performato bene su compiti più intricati e i modelli individuali hanno mostrato notevole variabilità nelle loro capacità. Per PRISMA, il modello con le migliori prestazioni era anche il più complesso, mentre i modelli più piccoli hanno dimostrato forze inaspettate in aree specifiche.

I ricercatori suggeriscono che il lavoro futuro potrebbe migliorare l'accuratezza affinandoli ulteriormente o utilizzando un dataset più bilanciato che includa vari tipi di trial. Hanno anche notato l'importanza di avere più revisori umani per rafforzare il processo di consenso.

Inoltre, i modelli erano limitati nella loro capacità di elaborare immagini, che potrebbero essere rilevanti in certi contesti biomedicali. Man mano che nuove versioni di questi modelli vengono rilasciate con più capacità, potrebbero fornire un supporto migliore per i ricercatori.

Conclusione

In generale, mentre gli LLM attuali non sono ancora perfetti per valutare da soli la qualità della ricerca biomedica, possono servire come partner preziosi quando combinati con il giudizio umano per alcuni compiti. Questa collaborazione può portare a valutazioni più efficienti e potenzialmente migliorare la qualità delle evidenze e dei risultati di ricerca nel campo della medicina.

Fonte originale

Titolo: Benchmarking Human-AI Collaboration for Common Evidence Appraisal Tools

Estratto: BackgroundIt is unknown whether large language models (LLMs) may facilitate time- and resource-intensive text-related processes in evidence appraisal. ObjectivesTo quantify the agreement of LLMs with human consensus in appraisal of scientific reporting (PRISMA) and methodological rigor (AMSTAR) of systematic reviews and design of clinical trials (PRECIS-2). To identify areas, where human-AI collaboration would outperform the traditional consensus process of human raters in efficiency. DesignFive LLMs (Claude-3-Opus, Claude-2, GPT-4, GPT-3.5, Mixtral-8x22B) assessed 112 systematic reviews applying the PRISMA and AMSTAR criteria, and 56 randomized controlled trials applying PRECIS-2. We quantified agreement between human consensus and (1) individual human raters; (2) individual LLMs; (3) combined LLMs approach; (4) human-AI collaboration. Ratings were marked as deferred (undecided) in case of inconsistency between combined LLMs or between the human rater and the LLM. ResultsIndividual human rater accuracy was 89% for PRISMA and AMSTAR, and 75% for PRECIS-2. Individual LLM accuracy was ranging from 63% (GPT-3.5) to 70% (Claude-3-Opus) for PRISMA, 53% (GPT-3.5) to 74% (Claude-3-Opus) for AMSTAR, and 38% (GPT-4) to 55% (GPT-3.5) for PRECIS-2. Combined LLM ratings led to accuracies of 75-88% for PRISMA (4-74% deferred), 74-89% for AMSTAR (6-84% deferred), and 64-79% for PRECIS-2 (18-88% deferred). Human-AI collaboration resulted in the best accuracies from 89-96% for PRISMA (25/35% deferred), 91-95% for AMSTAR (27/30% deferred), and 80-86% for PRECIS-2 (76/71% deferred). ConclusionsCurrent LLMs alone appraised evidence worse than humans. Human-AI collaboration may reduce workload for the second human rater for the assessment of reporting (PRISMA) and methodological rigor (AMSTAR) but not for complex tasks such as PRECIS-2.

Autori: Tim Woelfle, J. Hirt, P. Janiaud, L. Kappos, J. Ioannidis, L. G. Hemkens

Ultimo aggiornamento: 2024-04-22 00:00:00

Lingua: English

URL di origine: https://www.medrxiv.org/content/10.1101/2024.04.21.24306137

Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.04.21.24306137.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili