Simple Science

Ciência de ponta explicada de forma simples

# Ciências da saúde# Informatica sanitaria

Melhorando a Triagem de Resumos com Modelos ChatGPT

Esse estudo melhora a classificação abstrata para a precisão de testes diagnósticos usando modelos de linguagem.

― 7 min ler


ChatGPT ImpulsionaChatGPT ImpulsionaClassificação Abstratadiagnósticos.melhoram a triagem de resumos de testesEstudo mostra que modelos do ChatGPT
Índice

Analisar títulos e resumos em revisões sistemáticas pode ser uma tarefa difícil e que consome muito tempo. Os pesquisadores têm buscado formas de facilitar isso, especialmente usando aprendizado de máquina. Alguns modelos funcionaram bem para certas revisões, mas não teve muito sucesso em estudos focados em testes diagnósticos. Nosso trabalho anterior tentou usar um tipo específico de aprendizado de máquina chamado BERT para classificar resumos desses tipos de estudos, mas os resultados não foram bons quando testamos em novos dados.

As coisas mudaram com a chegada do ChatGPT no final de 2022, que gerou um interesse muito maior em modelos de linguagem grande (LLMs). Esses modelos são feitos para lidar com dados de texto e conseguem produzir textos que soam como se fossem humanos. Há duas maneiras principais de usar esses modelos: ajuste fino e engenharia de prompts. Ajuste fino significa treinar um modelo existente em um novo conjunto de dados para uma tarefa específica. Esse método pode levar tempo e recursos, mas é mais barato do que construir um novo modelo do zero. Por isso, muitos pesquisadores estão focando na engenharia de prompts. Esse método melhora os resultados sem treinamento adicional, adicionando instruções especiais na entrada.

Até agora, sabemos de apenas um caso em que a engenharia de prompts foi aplicada para analisar referências em revisões de intervenções. No entanto, ainda não sabemos quão bem esses LLMs conseguem classificar resumos para estudos de precisão de testes diagnósticos. Nosso objetivo era criar e testar prompts melhores para duas versões do modelo ChatGPT para classificar esses tipos de resumos.

Preparação do Conjunto de Dados

Usamos um conjunto de dados que já havíamos coletado anteriormente para desenvolver nosso modelo de classificação. Definimos um estudo de precisão de teste diagnóstico como um estudo original que avaliava um teste contra uma referência padrão em humanos. Incluímos certos tipos de estudos como estudos de DTA, mas deixamos de fora outros como estudos de modelos prognósticos, que analisam diferentes pontos no tempo, e casos sem controles.

Coletamos revisões sistemáticas sobre testes diagnósticos de um banco de dados específico. Essas revisões cobriam vários tópicos de saúde, como câncer, problemas estomacais e infecções. O conjunto de dados que coletamos continha arquivos do Excel com títulos, resumos e rótulos identificando se cada estudo era um estudo de DTA ou não.

De um total de cerca de 68.000 resumos, selecionamos um lote menor de títulos e resumos para nossos conjuntos de treinamento. Escolhemos com cuidado diferentes amostras para incluir uma mistura de resumos de DTA e não-DTA para usar no treinamento do nosso prompt.

Visão Geral da Nossa Abordagem

Seguimos um processo de quatro etapas para melhorar a análise de resumos para estudos de precisão de testes diagnósticos.

  1. Desenvolvendo um Meta-Prompt: Começamos criando um prompt inicial usando a API Azure OpenAI para rotular resumos.

  2. Encontrando a Temperatura Certa: Experimentamos com diferentes configurações de temperatura no modelo para ver qual nos dava os melhores resultados. A temperatura controla quão aleatório ou específico o resultado é.

  3. Validação Externa: Testamos nosso prompt em novos dados para ver como ele se sai.

  4. Verificando a Consistência: Por fim, fizemos múltiplos testes para checar se as saídas do modelo eram consistentes ao longo do tempo.

Etapa 1: Desenvolvimento de um Meta-Prompt

Para o primeiro passo, desenvolvemos um meta-prompt que tinha como objetivo identificar se um resumo estava relacionado à precisão de teste diagnóstico. Usamos títulos e resumos do nosso conjunto de dados e realizamos testes para ver quão bem funcionava. A saída seria um simples rótulo verdadeiro ou falso.

Calculamos medidas como Sensibilidade e Especificidade com base nas previsões do modelo. Então, pedimos ao modelo que melhorasse o prompt com base em seu desempenho. Repetimos esse processo várias vezes para refinar nosso prompt, selecionando a melhor versão que equilibrava sensibilidade e especificidade.

Etapa 2: Encontrando a Temperatura Ideal

Depois de desenvolver nosso primeiro meta-prompt, inicialmente configuramos a temperatura para zero, mas queríamos ver se conseguimos resultados melhores ajustando essa configuração. Ao mudar a temperatura para vários níveis, avaliamos os impactos na sensibilidade, especificidade e taxas de erro.

Descobrimos que, à medida que a temperatura aumentava, a sensibilidade tendia a diminuir, o que indicava que uma temperatura mais baixa geralmente produzia resultados mais confiáveis.

Etapa 3: Validação Externa

Nesta etapa, testamos nosso meta-prompt final usando novos conjuntos de dados. Queríamos ver se ele poderia identificar corretamente resumos de DTA de forma consistente. Avaliamos seu desempenho usando sensibilidade, especificidade e o número de documentos que precisavam ser analisados.

Descobrimos que quando testado, o modelo teve um bom desempenho, com alta sensibilidade e especificidade razoável. Esses resultados foram promissores e indicaram que nosso prompt poderia ser aplicado efetivamente na prática.

Etapa 4: Verificando a Consistência

Um aspecto importante do uso de LLMs é a tendência deles de produzir resultados diferentes quando recebem a mesma entrada várias vezes. Para lidar com isso, checamos a consistência das saídas rodando nosso modelo várias vezes nos mesmos conjuntos de dados.

Descobrimos que não havia grandes diferenças nos resultados em várias tentativas. Na nossa análise, mesmo quando combinamos resultados de diferentes experimentos, as melhorias no desempenho foram mínimas.

Ambiente de Desenvolvimento

Para esta pesquisa, usamos o Google Collaboratory e a API Azure OpenAI. Isso nos permitiu aproveitar ferramentas poderosas para executar nossa análise de dados e tarefas de aprendizado de máquina sem precisar de recursos locais.

Resultados do Nosso Estudo

Através de nossos testes, conseguimos identificar um meta-prompt eficaz para classificar resumos de DTA. A versão final do nosso meta-prompt conseguiu alcançar alta sensibilidade e especificidade razoável. Nos testes de validação externa, tanto os modelos GPT-3.5 quanto GPT-4 produziam resultados satisfatórios, com taxas de sensibilidade acima de 0,96, que é significativamente melhor do que as tentativas anteriores usando outros modelos de aprendizado de máquina.

Também notamos diferenças no tempo de processamento e custo entre os dois modelos. O modelo GPT-3.5 era mais rápido e mais barato de usar em comparação ao GPT-4, tornando-o mais acessível para pesquisadores que buscam aplicar essa tecnologia em revisões sistemáticas.

Limitações do Nosso Estudo

Embora nossos achados sejam encorajadores, reconhecemos que existem limitações. Primeiramente, precisamos testar nossos resultados em outros conjuntos de dados para garantir que eles possam ser generalizados. Em segundo lugar, precisamos considerar quão eficazes nossos meta-prompts podem ser com diferentes modelos.

Há também um risco envolvido em confiar em modelos proprietários, pois eles podem mudar ou se tornar menos acessíveis no futuro. Pesquisadores deveriam considerar usar modelos de código aberto para evitar esses riscos.

Por fim, nosso estudo focou principalmente nos aspectos de design dos estudos de DTA. Trabalhos futuros deveriam explorar se incluir elementos mais detalhados poderia melhorar ainda mais os processos de análise de resumos.

Conclusão

Em resumo, conseguimos desenvolver e validar um meta-prompt que pode ajudar a reduzir a carga de trabalho envolvida em revisar resumos para estudos de precisão de testes diagnósticos. Recomendamos que os pesquisadores considerem usar o GPT-3.5 com nosso meta-prompt para análise de títulos e resumos em revisões sistemáticas para melhorar a eficiência e a precisão.

Mais testes em conjuntos de dados adicionais ajudarão a confirmar a eficácia da nossa abordagem, mas os resultados iniciais sugerem um caminho promissor para usar modelos de linguagem grande em revisões sistemáticas.

Fonte original

Título: Development of meta-prompts for Large Language Models to screen titles and abstracts for diagnostic test accuracy reviews

Resumo: Systematic reviews (SRs) are a critical component of evidence-based medicine, but the process of screening titles and abstracts is time-consuming. This study aimed to develop and externally validate a method using large language models to classify abstracts for diagnostic test accuracy (DTA) systematic reviews, thereby reducing the human workload. We used a previously collected dataset for developing DTA abstract classifiers and applied prompt engineering. We developed an optimized meta-prompt for Generative Pre-trained Transformer (GPT)-3.5-turbo and GPT-4 to classify abstracts. In the external validation dataset 1, the prompt with GPT-3.5 turbo showed a sensitivity of 0.988, and a specificity of 0.298. GPT-4 showed a sensitivity of 0.982, and a specificity of 0.677. In the external validation dataset 2, GPT-3.5 turbo showed a sensitivity of 0.919, and a specificity of 0.434. GPT-4 showed a sensitivity of 0.806, and a specificity of 0.740. If we included eligible studies from among the references of the identified studies, GPT-3.5 turbo had no critical misses, while GPT-4 had some misses. Our study indicates that GPT-3.5 turbo can be effectively used to classify abstracts for DTA systematic reviews. Further studies using other dataset are warranted to confirm our results. Additionally, we encourage the use of our framework and publicly available dataset for further exploration of more effective classifiers using other LLMs and prompts (https://github.com/youkiti/ARE/). HightlightsO_ST_ABSWhat is already knownC_ST_ABS- Title and abstract screening in systematic reviews (SRs) consumes significant time. - Several attempts using machine learning to reduce this process in diagnostic test accuracy (DTA) SRs exist, but they have not yielded positive results in external validation. What is new- We aimed to develop and externally validate optimized meta-prompt for GPT-3.5-turbo and GPT-4 to classify abstracts for DTA SRs. - Through an iterative approach across three training datasets, an optimal meta-prompt capable of identifying DTA studies with remarkable sensitivity and specificity was developed. - The accuracy reproduced in the external validation datasets. Potential Impact for Readers- The developed meta-prompt can lessen the need for humans to read abstracts for DTA SRs, saving significant time and resources.

Autores: Toshi A. Furukawa, Y. KATAOKA, R. So, M. Banno, J. Kumasawa, H. Someko, S. Taito, T. Terasawa, Y. Tsujimoto, Y. Tsutsumi, Y. Wada

Última atualização: 2023-11-01 00:00:00

Idioma: English

Fonte URL: https://www.medrxiv.org/content/10.1101/2023.10.31.23297818

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.10.31.23297818.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes