Melhorando os Padrões de Relato na Pesquisa Médica
Estudo revela métodos para melhorar a clareza na reportagem de ensaios clínicos randomizados.
― 7 min ler
Relatar de forma clara e honesta nas pesquisas médicas é fundamental. Isso ajuda as pessoas a julgarem se os estudos são válidos e confiáveis, orientando decisões no cuidado dos pacientes e nas políticas de saúde. Infelizmente, muitos estudos não são relatados adequadamente, o que pode levar a viés, dificultando a combinação de resultados ou a replicação das descobertas. Essa falta de transparência pode minar a confiança na pesquisa médica. Para enfrentar esse problema, diretrizes foram criadas para estabelecer padrões mínimos de relato, mas muitas revistas não aplicam essas diretrizes de forma eficaz.
Ensaios clínicos randomizados (ECRs) são a melhor maneira de testar se um tratamento funciona, desde que sejam feitos corretamente. A Declaração CONSORT 2010 é uma diretriz especificamente para relatar os resultados dos ECRs. Ela inclui uma lista de verificação e um fluxograma para mostrar o fluxo de participantes. A lista de verificação tem 25 itens essenciais para entender os ensaios. Mesmo com muitas revistas apoiando as diretrizes CONSORT, muitos estudos ainda fazem um relato fraco, mesmo quando os ensaios são bem conduzidos. Alguns estudos sugerem que o relato tem melhorado com o tempo.
Uma razão para a falta de adesão às diretrizes CONSORT é que as revistas podem endossá-las, mas frequentemente não conferem se os autores as seguem. Uma maneira de melhorar isso é ter editores de revistas revisando as submissões quanto à conformidade antes que o processo de revisão por pares comece. Esse método pode melhorar a qualidade do relato, mas pode ser difícil e demorado para os editores. Automatizar esse processo de revisão com tecnologia poderia ajudar a aliviar a carga sobre os editores, acelerando o processo e melhorando a qualidade do relato.
Em trabalhos anteriores, foi criada uma coleção de relatórios de ECR que mostrava quão bem os autores seguiam a lista de verificação CONSORT (CONSORT-TM). Desenvolvemos modelos usando técnicas de processamento de linguagem para identificar certos itens da lista de verificação relacionados aos métodos de estudo. Neste estudo, queremos treinar e ajustar modelos para identificar todos os itens da lista de verificação CONSORT em detalhes.
Pesquisa Relacionada
A maior parte da pesquisa em processamento de linguagem em artigos de ECR se concentrou em classificar seções usando a estrutura PICO, que significa População, Intervenção, Comparador e Resultado. Essa classificação ajuda a revisar estudos de forma sistemática. Outros estudos têm como objetivo automatizar a avaliação de viés ou classificar seções de resumos médicos. No entanto, a pesquisa sobre outros recursos importantes é menos comum.
A coleção CONSORT-TM representa um esforço abrangente para anotar características de ECR. Trabalhos anteriores mostraram que um modelo usando BioBERT superou métodos anteriores. Nossa análise anterior de mais de 176.000 ECRs de 1966 a 2018 revelou melhorias nos métodos de relato, mas enfatizou que ainda há problemas significativos de relato.
Grandes modelos de linguagem usando tecnologia Transformer, como o GPT, mostraram fortes habilidades de geração de texto e foram aplicados a várias tarefas em campos gerais e médicos. Modelos como BioGPT, específicos na área biomédica, também foram treinados para essas tarefas. Técnicas para usar esses modelos de forma eficaz foram desenvolvidas. O BioGPT mostrou melhor desempenho do que modelos típicos em classificação de documentos. Em pesquisas recentes, o GPT-3.5 conseguiu verificar relatórios de ECR quanto à conformidade com uma seleção de itens CONSORT, alcançando alta precisão.
Métodos e Materiais
O corpus CONSORT-TM consiste em 50 artigos de ECR que foram anotados no nível de sentença, focando em 37 itens da lista de verificação CONSORT. Este corpus tem cerca de 10.709 sentenças e mostra que cada artigo relata, em média, 27,5 itens. Para nosso estudo, queríamos excluir um item da lista que é comumente relatado em todos os artigos porque sua verificação não era necessária.
Anteriormente, usamos o modelo BioBERT, mas agora estamos mudando para o PubMedBERT, que mostrou melhores resultados em várias tarefas biomédicas. O estudo atual foca em quão bem as sentenças relatam os itens da lista de verificação. Para alguns itens da lista que são menos frequentemente relatados, planejamos aplicar vários métodos de Aumento de Dados para melhorar o desempenho do modelo.
O estudo também investiga o ajuste fino de um modelo generativo chamado BioGPT e uma técnica chamada aprendizado em contexto usando o GPT-4. O objetivo é usar esses modelos para analisar as sentenças de forma mais eficiente, melhorando assim os resultados gerais associados aos padrões de relato.
Aumento de Dados
Como o corpus CONSORT-TM é relativamente pequeno, queremos aumentar o conjunto de dados para treinar melhor nossos modelos. Um modelo generativo como o GPT-4 pode criar novos textos que podem ajudar no treinamento mais eficaz dos modelos. Vamos usar esse modelo para parafrasear itens raros e gerar novos exemplos.
Para isso, examinaremos certos itens da lista de verificação que têm menos de 100 amostras. Por exemplo, itens relacionados a mudanças no design do ensaio, mudanças nos resultados e métodos para outras análises foram sinalizados para esse processo.
Outra abordagem para aumento de dados que tentamos se chama Aumento de Dados Fácil (EDA), que cria variações alterando sentenças existentes. Isso inclui métodos como exclusão aleatória, inserção e substituição de sinônimos.
Aprendizado em Contexto
Neste estudo, também testaremos a capacidade de aprendizado em contexto do GPT-4. Isso significa usar o modelo para inferir se uma sentença nos artigos relata um item da lista de verificação CONSORT com base em exemplos que fornecemos. Ao solicitar ao GPT-4 instruções específicas, podemos ver como ele se sai na identificação de sentenças relevantes.
Treinamento e Avaliação do Modelo
Depois, vamos treinar modelos com base nos dados fornecidos, usando um método chamado validação cruzada em 5 partes para avaliar o desempenho. Isso significa dividir os dados de maneira que cada parte sirva como dados de treinamento e teste em diferentes rodadas. Mediremos o desempenho usando métricas como precisão, recall e F1, que nos ajudam a entender como os modelos estão indo na identificação dos itens da lista de verificação.
Resultados
Dos nossos experimentos, descobrimos que usar o contexto ao redor melhora significativamente o desempenho na identificação dos itens CONSORT. Os modelos que incluíram contexto de sentenças adjacentes tiveram um desempenho melhor do que os que não incluíram. Mais análises mostrarão como diferentes estratégias impactam o desempenho.
Também descobrimos que, embora modelos gerativos como BioGPT e GPT-4 tenham potencial, eles não superaram o modelo PubMedBERT ajustado neste estudo. Apesar de o GPT-4 gerar sentenças coerentes, ele não teve um bom desempenho quando solicitado a classificar sentenças com base em exemplos.
O aumento de dados ofereceu alguns benefícios, especialmente para os modelos básicos. No entanto, para o modelo mais eficaz, o impacto foi mínimo, indicando que o contexto é um recurso melhor para melhorar o desempenho.
Conclusão
Este estudo representa um passo significativo em direção à automação do reconhecimento de itens da lista de verificação CONSORT em publicações de ECR. O modelo com melhor desempenho usou uma versão ajustada do PubMedBERT com contexto ao redor e estrutura dos artigos para alcançar seus resultados. Embora não tenhamos encontrado grandes benefícios ao usar modelos de linguagem gerativa para aumento de dados ou aprendizado em contexto, nossas descobertas sugerem várias rotas para melhorar o desempenho do modelo no futuro.
No futuro, planejamos expandir o corpus anotado, experimentar modelos mais eficientes e desenvolver ferramentas para automatizar o processo de verificação de conformidade nas revistas, o que, em última análise, melhorará a transparência e a completude nos relatórios médicos.
Título: CONSORT-TM: Text classification models for assessing the completeness of randomized controlled trial publications
Resumo: ObjectiveTo develop text classification models for determining whether the checklist items in the CONSORT reporting guidelines are reported in randomized controlled trial publications. Materials and MethodsUsing a corpus annotated at the sentence level with 37 fine-grained CONSORT items, we trained several sentence classification models (PubMedBERT fine-tuning, BioGPT fine-tuning, and in-context learning with GPT-4) and compared their performance. To address the problem of small training dataset, we used several data augmentation methods (EDA, UMLS-EDA, text generation and rephrasing with GPT-4) and assessed their impact on the fine-tuned PubMedBERT model. We also fine-tuned PubMedBERT models limited to checklist items associated with specific sections (e.g., Methods) to evaluate whether such models could improve performance compared to the single full model. We performed 5-fold cross-validation and report precision, recall, F1 score, and area under curve (AUC). ResultsFine-tuned PubMedBERT model that takes as input the sentence and the surrounding sentence representations and uses section headers yielded the best overall performance (0.71 micro-F1, 0.64 macro-F1). Data augmentation had limited positive effect, UMLS-EDA yielding slightly better results than data augmentation using GPT-4. BioGPT fine-tuning and GPT-4 in-context learning exhibited suboptimal results. Methods-specific model yielded higher performance for methodology items, other section-specific models did not have significant impact. ConclusionMost CONSORT checklist items can be recognized reasonably well with the fine-tuned PubMedBERT model but there is room for improvement. Improved models can underpin the journal editorial workflows and CONSORT adherence checks and can help authors in improving the reporting quality and completeness of their manuscripts.
Autores: Halil Kilicoglu, L. Jiang, M. Lan, J. D. Menke, C. J. Vorland
Última atualização: 2024-04-01 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2024.03.31.24305138
Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.03.31.24305138.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.