Simple Science

Scienza all'avanguardia spiegata semplicemente

# Scienze della salute# Epidemiologia

Valutare l'efficacia di ChatGPT nelle valutazioni del rischio di bias

Questo studio esplora la capacità di ChatGPT di valutare i rischi negli studi randomizzati.

― 9 leggere min


ChatGPT e sfide nellaChatGPT e sfide nellavalutazione del rischioprocessi.nelle valutazioni del rischio neiChatGPT mostra un consenso limitato
Indice

La medicina basata sull'evidenza si basa sull'uso delle migliori evidenze disponibili, che spesso provengono da Revisioni sistematiche. Queste revisioni raccolgono e valutano dati da molti studi per aiutare a prendere decisioni in ambito sanitario. Tuttavia, creare queste revisioni sistematiche può richiedere molto tempo e risorse, a volte oltre un anno, e le informazioni possono diventare rapidamente obsolete.

Una parte fondamentale delle revisioni sistematiche è la valutazione del Rischio Di Bias negli studi inclusi. Il bias si riferisce a tendenze negli studi che potrebbero rendere i loro risultati fuorvianti, sia sovrastimando che sottostimando gli effetti dei trattamenti. Valutare questo bias richiede conoscenze specializzate e può essere piuttosto impegnativo in termini di tempo e sforzo. Per minimizzare gli errori, le linee guida per le revisioni sistematiche spesso raccomandano che questa valutazione venga effettuata in modo indipendente da due revisori, il che aggiunge complessità.

Esistono diversi strumenti per valutare il rischio di bias negli studi randomizzati. Quello più riconosciuto è lo strumento Cochrane per il rischio di bias, recentemente aggiornato allo strumento RoB 2.0. Questo nuovo strumento è considerato il gold standard per le valutazioni del rischio negli studi randomizzati. Valuta il rischio di bias in cinque aree: randomizzazione, deviazioni dall'intervento previsto, dati sugli esiti mancanti, misurazione degli esiti e reporting selettivo. I revisori devono utilizzare i rapporti sugli studi e qualsiasi protocollo disponibile per formulare i loro giudizi in ciascuna area.

Anche se lo strumento RoB 2.0 riflette anni di esperienza, i revisori lo hanno trovato più complicato rispetto agli strumenti precedenti. Di conseguenza, c'è bisogno di nuovi modi per semplificare le valutazioni senza perdere rigore.

Il Ruolo degli Strumenti Automatizzati

RobotReviewer è uno strumento automatizzato progettato per assistere nella raccolta dei dati e nella valutazione del rischio di bias negli studi randomizzati. Valutazioni precedenti hanno mostrato che generalmente è d'accordo con i revisori sistematici dal 70% al 90% delle volte. Tuttavia, RobotReviewer è stato costruito utilizzando il vecchio strumento Cochrane per il rischio di bias e copre solo una parte del nuovo strumento RoB 2.0.

D’altro canto, ChatGPT è un'IA conversazionale sviluppata da OpenAI. A differenza degli strumenti specializzati per le valutazioni di rischio, ChatGPT è un modello di linguaggio di uso generale progettato per aiutare con compiti basati sul linguaggio. È stato addestrato su una vasta gamma di informazioni presenti in internet, piuttosto che essere focalizzato esclusivamente sulle revisioni sistematiche o sulle valutazioni di rischio.

Questo studio mira a valutare quanto bene ChatGPT possa effettuare valutazioni del rischio di bias in linea con lo strumento RoB 2.0. Abbiamo campionato revisioni sistematiche che utilizzavano questo strumento e impiegato ChatGPT per valutare i rischi di bias legati agli studi all'interno di quelle revisioni. L'obiettivo è verificare se le valutazioni di ChatGPT corrispondono a quelle dei revisori esperti nelle revisioni sistematiche.

Metodologia

Strategia di Ricerca e Screening

Per questo studio, volevamo ottenere un campione rappresentativo di revisioni sistematiche Cochrane. Invece di cercare attraverso molti database di ricerca medica, abbiamo utilizzato il Database Cochrane, che cataloga le revisioni pubblicate in ordine cronologico. I revisori hanno lavorato in modo indipendente per esaminare queste revisioni per l'idoneità, partendo da quelle più recenti. Ci siamo concentrati su revisioni più recenti in quanto sono più propense a utilizzare l'ultima versione dello strumento RoB 2.0. In totale, puntavamo ad includere circa 160 studi.

Criteri di Idoneità

Abbiamo selezionato studi randomizzati che rispondono a varie domande legate alla salute. Abbiamo incluso revisioni nuove o aggiornate che esaminavano sia i benefici che i danni degli interventi sanitari, specificamente quelle che includevano studi randomizzati paralleli e fornivano giudizi sul rischio di bias basati sullo strumento RoB 2.0.

Abbiamo escluso revisioni non pubblicate da Cochrane, in quanto potrebbero non seguire gli stessi standard rigorosi. Abbiamo anche escluso revisioni che trattano prognosi, test diagnostici o che includono solo studi osservazionali, poiché questi richiedono strumenti di valutazione del rischio diversi.

Le revisioni Cochrane di solito forniscono un riassunto dei risultati che descrive gli esiti in ordine di importanza. Da ciascuna revisione idonea, abbiamo selezionato i primi due esiti che menzionavano studi. Se questi erano esiti continui, abbiamo selezionato un terzo esito. Ognuno di questi esiti è stato valutato basandosi solo sugli studi randomizzati paralleli inclusi pubblicati in inglese.

Prompts per ChatGPT

Una parte essenziale dell'uso di ChatGPT è come progettiamo le domande da porgli, note come prompts. Abbiamo creato tre prompt diversi per vedere come potrebbero influenzare i giudizi di rischio di bias di ChatGPT. Questi variavano da istruzioni semplici a prompt più dettagliati mirati a ottenere le migliori valutazioni possibili.

Ogni prompt richiedeva a ChatGPT di formulare giudizi sui rischi di bias in tutte e cinque le aree definite da RoB 2.0. Tutti i prompt includevano il documento completo delle linee guida RoB 2.0 e fornivano i dettagli necessari dai rapporti e dalle pubblicazioni sugli studi.

I prompt non includevano alcuna informazione sui giudizi di rischio di bias stabiliti dai revisori sistematici Cochrane, assicurando che ChatGPT formulasse le sue valutazioni senza alcun pregiudizio derivante dal lavoro precedente dei revisori.

Raccolta Dati

Secondo le linee guida RoB 2.0, i revisori dovrebbero formulare giudizi sul rischio di bias per ciascun risultato particolare piuttosto che per ciascuno studio genericamente, poiché i rischi possono variare a seconda dell'esito. Abbiamo seguito questo approccio e raccolto dati per confrontare i giudizi di ChatGPT con quelli forniti nelle revisioni Cochrane.

Dopo aver raccolto i giudizi di rischio di bias dalle revisioni, abbiamo utilizzato ChatGPT per valutare gli stessi studi, utilizzando i diversi prompt. Non abbiamo duplicato questa raccolta di dati poiché non si basava su giudizi soggettivi, minimizzando il potenziale di errori.

Abbiamo anche considerato come l'oggettività degli esiti potrebbe influenzare l'affidabilità di ChatGPT. Abbiamo classificato gli esiti in base a quanto potessero essere misurati oggettivamente, etichettandoli come oggettivi, probabilmente oggettivi, probabilmente soggettivi e sicuramente soggettivi.

Analisi Dati

Per stimare il numero di studi necessari per una valutazione affidabile, abbiamo utilizzato software statistico. Puntavamo ad avere abbastanza dati per mostrare che i revisori potessero sentirsi sicuri nell'usare ChatGPT per le valutazioni di rischio. Ci aspettavamo di aver bisogno di circa 160 studi basati su vari scenari statistici.

Abbiamo calcolato il livello di concordanza tra le valutazioni fatte da ChatGPT e quelle descritte nelle revisioni sistematiche Cochrane utilizzando una metrica chiamata kappa ponderato. Questa statistica aiuta a differenziare tra accordo casuale e accordo reale, notando il numero di aree in cui i revisori erano d'accordo.

L'analisi includeva l'esame di ciascun dominio di rischio separatamente, concentrandosi principalmente sugli esiti più importanti. Abbiamo anche esaminato le differenze tra gruppi basate su vari aspetti degli studi.

Inoltre, abbiamo rivisto le giustificazioni fornite da ChatGPT per capire perché avesse preso giudizi diversi rispetto ai revisori sistematici.

Revisioni Sistematiche e Caratteristiche degli Studi

Lo studio ha incluso 157 studi provenienti da 34 revisioni sistematiche. Le revisioni si sono concentrate principalmente su interventi farmacologici e sono state pubblicate nel 2023. Le condizioni investigate includevano malattie infettive, malattie oculari e problemi respiratori.

In termini di rischio di bias, i revisori sistematici Cochrane hanno classificato il 28,7% degli studi come a basso rischio, il 47,8% come con alcune preoccupazioni e il 24,6% come ad alto rischio. Anche le diverse aree di rischio sono state valutate, con il reporting selettivo che mostrava la maggiore preoccupazione.

Concordanza Tra ChatGPT e Revisori Sistematici

Analizzando il grado di concordanza tra i giudizi di rischio di bias di ChatGPT e quelli espressi nelle revisioni sistematiche, abbiamo scoperto che la concordanza era generalmente bassa. I punteggi di concordanza complessivi variavano da 0,11 a 0,29, indicando solo un leggero accordo fino a un accordo discreto nelle valutazioni.

Inoltre, quando abbiamo esaminato i domini di rischio specifici, la migliore concordanza è stata osservata nell'area dei dati sugli esiti mancanti, mentre le deviazioni dall'intervento previsto hanno avuto la concordanza più bassa.

Abbiamo anche esplorato se l'affidabilità di ChatGPT variava a seconda dei diversi tipi di interventi, esiti o studi. Tuttavia, non sono state notate differenze significative in queste aree.

Principali Risultati

Il nostro studio mirava a valutare quanto bene ChatGPT potesse valutare il rischio di bias degli studi randomizzati utilizzando lo strumento RoB 2.0. Abbiamo scoperto che c'era solo una leggera concordanza fino a una concordanza discreta tra le valutazioni di ChatGPT e quelle dei revisori sistematici. Questo suggerisce che, attualmente, ChatGPT non è adatto a condurre queste valutazioni di rischio.

Abbiamo anche riconosciuto che le ragioni delle discrepanze potrebbero derivare dalla capacità limitata di ChatGPT di elaborare le linee guida dettagliate associate allo strumento RoB 2.0. Migliorare le sue capacità di elaborazione o modificare il suo addestramento potrebbe migliorare le sue performance in futuro.

Inoltre, anche se i nostri risultati sembrano scoraggianti, è importante notare che anche i revisori esperti mostrano spesso solo una leggera concordanza fino a una concordanza discreta quando utilizzano lo strumento RoB 2.0. Questo suggerisce che i risultati di ChatGPT si allineano con le sfide affrontate dai revisori umani nelle valutazioni di rischio.

Forza e Limitazioni

Un punto di forza di questo studio è la sua capacità di includere una vasta gamma di revisioni sistematiche e domande di ricerca. Le valutazioni del rischio di bias possono essere soggettive, e comprendere come diversi team affrontano questa questione può essere prezioso.

Tuttavia, lo studio ha affrontato limitazioni, principalmente essendo ristretto agli studi randomizzati paralleli in lingua inglese. Inoltre, alcuni bias nei giudizi di rischio potrebbero essere emersi da discrepanze nel modo in cui gli esseri umani svolgono queste valutazioni.

Direzioni Future

Le performance di ChatGPT stanno continuando a evolversi, e le capacità degli strumenti AI sono destinate a migliorare nel tempo. Man mano che questi modelli si affinano, sarà pertinente indagare ulteriormente sulla loro affidabilità. I ricercatori interessati potrebbero anche voler esplorare il potenziale di GPT personalizzati che possono essere adattati per compiti specifici.

In aggiunta, esplorare prompt più dettagliati potrebbe migliorare l'affidabilità dei giudizi. Invece di valutare direttamente il rischio complessivo, ChatGPT potrebbe essere guidato attraverso le domande indicative presenti nello strumento RoB 2.0, incoraggiando un approccio sistematico alla sua valutazione.

Ci sono opportunità oltre alla valutazione del rischio dove ChatGPT può assistere nelle revisioni sistematiche, come la creazione di strategie di ricerca e lo screening dei record.

Conclusione

Questo studio ha valutato l'utilità di ChatGPT nella valutazione del rischio di bias negli studi randomizzati. I risultati attuali indicano una limitata concordanza con i giudizi stabiliti nelle revisioni sistematiche, suggerendo che è necessario fare ulteriori lavori per migliorare la sua efficacia a questo scopo. Con l'evoluzione del campo dell'IA, il potenziale per una migliore integrazione di questi strumenti nelle revisioni sistematiche rimane un'area di significativo interesse e opportunità.

Fonte originale

Titolo: ChatGPT for assessing risk of bias of randomized trials using the RoB 2.0 tool: A methods study

Estratto: BackgroundInternationally accepted standards for systematic reviews necessitate assessment of the risk of bias of primary studies. Assessing risk of bias, however, can be time- and resource-intensive. AI-based solutions may increase efficiency and reduce burden. ObjectiveTo evaluate the reliability of ChatGPT for performing risk of bias assessments of randomized trials using the revised risk of bias tool for randomized trials (RoB 2.0). MethodsWe sampled recently published Cochrane systematic reviews of medical interventions (up to October 2023) that included randomized controlled trials and assessed risk of bias using the Cochrane-endorsed revised risk of bias tool for randomized trials (RoB 2.0). From each eligible review, we collected data on the risk of bias assessments for the first three reported outcomes. Using ChatGPT-4, we assessed the risk of bias for the same outcomes using three different prompts: a minimal prompt including limited instructions, a maximal prompt with extensive instructions, and an optimized prompt that was designed to yield the best risk of bias judgements. The agreement between ChatGPTs assessments and those of Cochrane systematic reviewers was quantified using weighted kappa statistics. ResultsWe included 34 systematic reviews with 157 unique trials. We found the agreement between ChatGPT and systematic review authors for assessment of overall risk of bias to be 0.16 (95% CI: 0.01 to 0.3) for the maximal ChatGPT prompt, 0.17 (95% CI: 0.02 to 0.32) for the optimized prompt, and 0.11 (95% CI: -0.04 to 0.27) for the minimal prompt. For the optimized prompt, agreement ranged between 0.11 (95% CI: -0.11 to 0.33) to 0.29 (95% CI: 0.14 to 0.44) across risk of bias domains, with the lowest agreement for the deviations from the intended intervention domain and the highest agreement for the missing outcome data domain. ConclusionOur results suggest that ChatGPT and systematic reviewers only have "slight" to "fair" agreement in risk of bias judgements for randomized trials. ChatGPT is currently unable to reliably assess risk of bias of randomized trials. We advise against using ChatGPT to perform risk of bias assessments. There may be opportunities to use ChatGPT to streamline other aspects of systematic reviews, such as screening of search records or collection of data.

Autori: Tyler Pitre, T. Jassal, J. R. Talukdar, M. Shahab, M. Ling, D. Zeraatkar

Ultimo aggiornamento: 2024-01-29 00:00:00

Lingua: English

URL di origine: https://www.medrxiv.org/content/10.1101/2023.11.19.23298727

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.11.19.23298727.full.pdf

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili