Simple Science

Ciência de ponta explicada de forma simples

# Ciências da saúde# Epidemiologia

Avaliando a Eficácia do ChatGPT em Avaliações de Risco de Viés

Este estudo explora a capacidade do ChatGPT de avaliar riscos em testes randomizados.

― 10 min ler


ChatGPT e Desafios naChatGPT e Desafios naAvaliação de Riscoavaliações de risco de testes.O ChatGPT mostra acordo limitado nas
Índice

A medicina baseada em evidências depende de usar as melhores evidências disponíveis, que muitas vezes vêm de Revisões Sistemáticas. Essas revisões coletam e avaliam dados de muitos estudos para ajudar a guiar decisões de saúde. No entanto, criar essas revisões sistemáticas pode levar muito tempo e recursos, às vezes mais de um ano, e a informação pode ficar desatualizada rapidamente.

Um ponto importante das revisões sistemáticas é avaliar o Risco de Viés nos estudos que elas incluem. O viés refere-se a tendências nos estudos que podem tornar seus resultados enganosos-ou superestimando ou subestimando os efeitos dos tratamentos. Avaliar esse viés exige conhecimento especializado e pode ser bem trabalhoso. Para minimizar erros, as diretrizes de revisões sistemáticas muitas vezes recomendam que essa avaliação seja feita independentemente por dois revisores, o que aumenta a complexidade.

Existem várias ferramentas para avaliar o risco de viés em Ensaios Randomizados. A mais reconhecida é a ferramenta de risco de viés da Cochrane, que recentemente foi atualizada para a ferramenta RoB 2.0. Essa nova ferramenta é considerada o padrão ouro para avaliações de risco em ensaios randomizados. Ela avalia o risco de viés em cinco áreas: randomização, desvios da intervenção pretendida, dados de resultado ausentes, medição de resultados e relatórios seletivos. Os revisores devem usar relatórios de ensaios e quaisquer protocolos disponíveis para tomar suas decisões em cada área.

Embora a ferramenta RoB 2.0 reflita anos de experiência, os revisores acharam ela mais complicada do que ferramentas anteriores. Como resultado, há uma necessidade de novas maneiras de simplificar as avaliações sem perder rigor.

O Papel de Ferramentas Automatizadas

O RobotReviewer é uma ferramenta automatizada criada para ajudar na coleta de dados e na avaliação do risco de viés em ensaios randomizados. Avaliações anteriores mostraram que ele geralmente concorda com revisores sistemáticos de 70% a 90% do tempo. No entanto, o RobotReviewer foi construído usando a ferramenta original de risco de viés da Cochrane e cobre apenas parte da nova ferramenta RoB 2.0.

Por outro lado, o ChatGPT é uma IA de conversação desenvolvida pela OpenAI. Diferente de ferramentas especializadas para avaliações de risco, o ChatGPT é um modelo de linguagem de uso geral, projetado para ajudar com tarefas baseadas em linguagem. Ele foi treinado em uma ampla gama de informações da internet, em vez de se concentrar exclusivamente em revisões sistemáticas ou avaliações de risco.

Este estudo busca avaliar quão bem o ChatGPT pode realizar avaliações de risco de viés de acordo com a ferramenta RoB 2.0. Selecionamos revisões sistemáticas que usaram essa ferramenta e empregamos o ChatGPT para avaliar os riscos de viés relacionados aos ensaios dentro dessas revisões. O objetivo é verificar se as avaliações do ChatGPT combinam com as dos revisores especialistas nas revisões sistemáticas.

Metodologia

Estratégia de Busca e Triagem

Para este estudo, buscamos obter uma amostra representativa de revisões sistemáticas da Cochrane. Em vez de vasculhar muitos bancos de dados de pesquisa médica, usamos o Banco de Dados Cochrane, que catalogam revisões publicadas em ordem cronológica. Os revisores trabalharam de forma independente para triagem dessas revisões quanto à elegibilidade, começando pelas mais recentes. Focamos em revisões mais novas, pois são mais propensas a usar a versão mais recente da ferramenta RoB 2.0. No total, nosso objetivo era incluir cerca de 160 ensaios.

Critérios de Elegibilidade

Selecionamos ensaios randomizados que respondessem a várias questões relacionadas à saúde. Incluímos novas ou atualizadas revisões que investigavam tanto os benefícios quanto os danos das intervenções de saúde, especificamente aquelas que incluíam ensaios randomizados paralelos e forneciam julgamentos de risco de viés com base na ferramenta RoB 2.0.

Excluímos revisões não publicadas pela Cochrane, pois podem não seguir os mesmos padrões rigorosos. Também deixamos de fora revisões que tratavam de prognósticos, testes diagnósticos, ou que incluíam apenas estudos observacionais, já que esses exigem ferramentas de avaliação de risco diferentes.

As revisões da Cochrane geralmente fornecem um resumo dos achados que descrevem os resultados por ordem de importância. De cada revisão elegível, selecionamos os dois primeiros resultados que mencionavam ensaios. Se esses fossem resultados contínuos, selecionamos um terceiro resultado. Cada um desses resultados foi avaliado com base apenas nos ensaios randomizados paralelos incluídos que foram publicados em inglês.

Prompts do ChatGPT

Uma parte essencial do uso do ChatGPT é como projetamos as perguntas que fazemos a ele, conhecidas como prompts. Criamos três prompts diferentes para ver como eles poderiam influenciar os julgamentos de risco de viés do ChatGPT. Esses variaram de instruções simples a prompts mais detalhados com o objetivo de obter as melhores avaliações possíveis.

Cada prompt pedia que o ChatGPT fizesse julgamentos sobre os riscos de viés em todas as cinco áreas definidas pela RoB 2.0. Todos os prompts incluíam o documento completo de orientações da RoB 2.0 e forneciam detalhes necessários dos documentos e relatórios dos ensaios.

Os prompts não incluíam nenhuma informação sobre os julgamentos de risco de viés estabelecidos pelos revisores sistemáticos da Cochrane, garantindo que o ChatGPT fizesse suas avaliações sem qualquer viés do trabalho anterior dos revisores.

Coleta de Dados

De acordo com as orientações da RoB 2.0, os revisores devem fazer julgamentos de risco de viés para cada resultado particular em vez de para cada ensaio genericamente, já que os riscos podem variar de acordo com o resultado. Seguimos essa abordagem e coletamos dados para comparar os julgamentos do ChatGPT com aqueles fornecidos nas revisões da Cochrane.

Após coletar os julgamentos de risco de viés das revisões, usamos o ChatGPT para avaliar os mesmos ensaios, usando os diferentes prompts. Nós não duplicamos essa coleta de dados já que não dependemos de julgamentos subjetivos, minimizando o potencial de erros.

Também consideramos como a objetividade dos resultados poderia afetar a confiabilidade do ChatGPT. Classificamos os resultados com base em quão objetivamente poderiam ser medidos, rotulando-os como objetivos, provavelmente objetivos, provavelmente subjetivos e definitivamente subjetivos.

Análise de Dados

Para estimar o número de ensaios necessários para uma avaliação confiável, usamos um software estatístico. Nossa meta era ter dados suficientes para mostrar que os revisores poderiam se sentir confiantes usando o ChatGPT para avaliações de risco. Esperávamos precisar de cerca de 160 ensaios com base em vários cenários estatísticos.

Calculamos o nível de concordância entre as avaliações feitas pelo ChatGPT e aquelas descritas nas revisões sistemáticas da Cochrane usando uma métrica chamada kappa ponderada. Essa estatística ajuda a diferenciar entre concordância aleatória e concordância real, notando o número de áreas em que os revisores estavam em consenso.

A análise incluiu examinar cada domínio de risco separadamente, focando principalmente nos resultados mais importantes. Também olhamos para diferenças em subgrupos com base em várias características dos ensaios.

Além disso, revisamos as justificativas fornecidas pelo ChatGPT para entender por que ele fez julgamentos diferentes dos revisores sistemáticos.

Revisões Sistemáticas e Características dos Ensaios

O estudo incluiu 157 ensaios de 34 revisões sistemáticas. As revisões focaram principalmente em intervenções farmacológicas e foram publicadas em 2023. As condições investigadas incluíram doenças infecciosas, doenças oculares e problemas respiratórios.

Em termos de risco de viés, os revisores sistemáticos da Cochrane avaliaram 28,7% dos ensaios como tendo baixo risco, 47,8% como tendo algumas preocupações e 24,6% como alto risco. Diferentes áreas de risco também foram avaliadas, com relatórios seletivos mostrando a maior preocupação.

Concordância Entre o ChatGPT e Revisores Sistematizados

Ao analisar o grau de concordância entre os julgamentos de risco de viés do ChatGPT e os feitos nas revisões sistemáticas, descobrimos que a concordância foi geralmente baixa. As pontuações de concordância geral variaram de 0,11 a 0,29, indicando apenas uma leve a justa alinhamento nas classificações.

Além disso, ao examinarmos os domínios de risco específicos, a melhor concordância foi notada na área de dados de resultados ausentes, enquanto desvios da intervenção pretendida tiveram a menor concordância.

Exploramos também se a confiabilidade do ChatGPT variava entre diferentes tipos de intervenções, resultados ou ensaios. No entanto, não foram notadas diferenças significativas nessas áreas.

Principais Conclusões

Nosso estudo tinha como objetivo avaliar quão bem o ChatGPT poderia avaliar o risco de viés de ensaios randomizados usando a ferramenta RoB 2.0. Descobrimos que havia apenas uma leve a justa concordância entre as avaliações do ChatGPT e aquelas feitas pelos revisores sistemáticos. Isso sugere que, no momento, o ChatGPT não é adequado para realizar essas avaliações de risco.

Reconhecemos também que as razões para as discrepâncias podem advir da capacidade limitada do ChatGPT de processar as orientações detalhadas associadas à ferramenta RoB 2.0. Melhorar suas capacidades de processamento ou ajustar seu treinamento poderia aprimorar seu desempenho no futuro.

Além disso, embora nossas descobertas pareçam desencorajadoras, é importante notar que até revisores especialistas frequentemente mostram apenas leve a justa concordância ao usar a ferramenta RoB 2.0. Isso sugere que os resultados do ChatGPT se alinham com os desafios enfrentados por revisores humanos nas avaliações de risco.

Forças e Limitações

Uma grande força deste estudo é sua capacidade de incluir uma ampla variedade de revisões sistemáticas e perguntas de pesquisa. Avaliações de risco de viés podem ser subjetivas, e entender como diferentes equipes abordam isso pode ser valioso.

No entanto, o estudo enfrentou limitações, principalmente sendo restrito a ensaios randomizados paralelos publicados em inglês. Além disso, alguns vieses nos julgamentos de risco podem ter surgido de discrepâncias em como os humanos realizam essas avaliações.

Direções Futuras

O desempenho do ChatGPT está em constante evolução, e as capacidades das ferramentas de IA provavelmente vão melhorar com o tempo. À medida que esses modelos se refinam, será pertinente investigar sua confiabilidade mais a fundo. Pesquisadores interessados também podem querer explorar o potencial de GPTs personalizados que podem ser ajustados para tarefas específicas.

Além disso, explorar prompts mais granulares poderia melhorar a confiabilidade dos julgamentos. Em vez de avaliar o risco geral diretamente, o ChatGPT poderia ser guiado através das perguntas sinalizadoras presentes na ferramenta RoB 2.0, incentivando uma abordagem sistemática à sua avaliação.

Existem oportunidades além da avaliação de risco em que o ChatGPT pode ajudar em revisões sistemáticas, como criar estratégias de busca e triagem de registros.

Conclusão

Este estudo avaliou a utilidade do ChatGPT na avaliação do risco de viés em ensaios randomizados. As descobertas atuais indicam uma concordância limitada com os julgamentos estabelecidos em revisões sistemáticas, sugerindo que mais trabalho é necessário para aprimorar sua eficácia para esse propósito. À medida que o campo da IA continua a evoluir, o potencial para uma melhor integração dessas ferramentas em revisões sistemáticas permanece uma área significativa de interesse e oportunidade.

Fonte original

Título: ChatGPT for assessing risk of bias of randomized trials using the RoB 2.0 tool: A methods study

Resumo: BackgroundInternationally accepted standards for systematic reviews necessitate assessment of the risk of bias of primary studies. Assessing risk of bias, however, can be time- and resource-intensive. AI-based solutions may increase efficiency and reduce burden. ObjectiveTo evaluate the reliability of ChatGPT for performing risk of bias assessments of randomized trials using the revised risk of bias tool for randomized trials (RoB 2.0). MethodsWe sampled recently published Cochrane systematic reviews of medical interventions (up to October 2023) that included randomized controlled trials and assessed risk of bias using the Cochrane-endorsed revised risk of bias tool for randomized trials (RoB 2.0). From each eligible review, we collected data on the risk of bias assessments for the first three reported outcomes. Using ChatGPT-4, we assessed the risk of bias for the same outcomes using three different prompts: a minimal prompt including limited instructions, a maximal prompt with extensive instructions, and an optimized prompt that was designed to yield the best risk of bias judgements. The agreement between ChatGPTs assessments and those of Cochrane systematic reviewers was quantified using weighted kappa statistics. ResultsWe included 34 systematic reviews with 157 unique trials. We found the agreement between ChatGPT and systematic review authors for assessment of overall risk of bias to be 0.16 (95% CI: 0.01 to 0.3) for the maximal ChatGPT prompt, 0.17 (95% CI: 0.02 to 0.32) for the optimized prompt, and 0.11 (95% CI: -0.04 to 0.27) for the minimal prompt. For the optimized prompt, agreement ranged between 0.11 (95% CI: -0.11 to 0.33) to 0.29 (95% CI: 0.14 to 0.44) across risk of bias domains, with the lowest agreement for the deviations from the intended intervention domain and the highest agreement for the missing outcome data domain. ConclusionOur results suggest that ChatGPT and systematic reviewers only have "slight" to "fair" agreement in risk of bias judgements for randomized trials. ChatGPT is currently unable to reliably assess risk of bias of randomized trials. We advise against using ChatGPT to perform risk of bias assessments. There may be opportunities to use ChatGPT to streamline other aspects of systematic reviews, such as screening of search records or collection of data.

Autores: Tyler Pitre, T. Jassal, J. R. Talukdar, M. Shahab, M. Ling, D. Zeraatkar

Última atualização: 2024-01-29 00:00:00

Idioma: English

Fonte URL: https://www.medrxiv.org/content/10.1101/2023.11.19.23298727

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.11.19.23298727.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes