Melhorando a Triagem de Resumos com Modelos ChatGPT

Índice

Preparação do Conjunto de Dados
Visão Geral da Nossa Abordagem
Etapa 1: Desenvolvimento de um Meta-Prompt
Etapa 2: Encontrando a Temperatura Ideal
Etapa 3: Validação Externa
Etapa 4: Verificando a Consistência
Ambiente de Desenvolvimento
Resultados do Nosso Estudo
Limitações do Nosso Estudo
Conclusão
Fonte original
Ligações de referência

Analisar títulos e resumos em revisões sistemáticas pode ser uma tarefa difícil e que consome muito tempo. Os pesquisadores têm buscado formas de facilitar isso, especialmente usando aprendizado de máquina. Alguns modelos funcionaram bem para certas revisões, mas não teve muito sucesso em estudos focados em testes diagnósticos. Nosso trabalho anterior tentou usar um tipo específico de aprendizado de máquina chamado BERT para classificar resumos desses tipos de estudos, mas os resultados não foram bons quando testamos em novos dados.

As coisas mudaram com a chegada do ChatGPT no final de 2022, que gerou um interesse muito maior em modelos de linguagem grande (LLMs). Esses modelos são feitos para lidar com dados de texto e conseguem produzir textos que soam como se fossem humanos. Há duas maneiras principais de usar esses modelos: ajuste fino e engenharia de prompts. Ajuste fino significa treinar um modelo existente em um novo conjunto de dados para uma tarefa específica. Esse método pode levar tempo e recursos, mas é mais barato do que construir um novo modelo do zero. Por isso, muitos pesquisadores estão focando na engenharia de prompts. Esse método melhora os resultados sem treinamento adicional, adicionando instruções especiais na entrada.

Até agora, sabemos de apenas um caso em que a engenharia de prompts foi aplicada para analisar referências em revisões de intervenções. No entanto, ainda não sabemos quão bem esses LLMs conseguem classificar resumos para estudos de precisão de testes diagnósticos. Nosso objetivo era criar e testar prompts melhores para duas versões do modelo ChatGPT para classificar esses tipos de resumos.

Preparação do Conjunto de Dados

Usamos um conjunto de dados que já havíamos coletado anteriormente para desenvolver nosso modelo de classificação. Definimos um estudo de precisão de teste diagnóstico como um estudo original que avaliava um teste contra uma referência padrão em humanos. Incluímos certos tipos de estudos como estudos de DTA, mas deixamos de fora outros como estudos de modelos prognósticos, que analisam diferentes pontos no tempo, e casos sem controles.

Coletamos revisões sistemáticas sobre testes diagnósticos de um banco de dados específico. Essas revisões cobriam vários tópicos de saúde, como câncer, problemas estomacais e infecções. O conjunto de dados que coletamos continha arquivos do Excel com títulos, resumos e rótulos identificando se cada estudo era um estudo de DTA ou não.

De um total de cerca de 68.000 resumos, selecionamos um lote menor de títulos e resumos para nossos conjuntos de treinamento. Escolhemos com cuidado diferentes amostras para incluir uma mistura de resumos de DTA e não-DTA para usar no treinamento do nosso prompt.

Visão Geral da Nossa Abordagem

Seguimos um processo de quatro etapas para melhorar a análise de resumos para estudos de precisão de testes diagnósticos.

Desenvolvendo um Meta-Prompt: Começamos criando um prompt inicial usando a API Azure OpenAI para rotular resumos.
Encontrando a Temperatura Certa: Experimentamos com diferentes configurações de temperatura no modelo para ver qual nos dava os melhores resultados. A temperatura controla quão aleatório ou específico o resultado é.
Validação Externa: Testamos nosso prompt em novos dados para ver como ele se sai.
Verificando a Consistência: Por fim, fizemos múltiplos testes para checar se as saídas do modelo eram consistentes ao longo do tempo.

Etapa 1: Desenvolvimento de um Meta-Prompt

Para o primeiro passo, desenvolvemos um meta-prompt que tinha como objetivo identificar se um resumo estava relacionado à precisão de teste diagnóstico. Usamos títulos e resumos do nosso conjunto de dados e realizamos testes para ver quão bem funcionava. A saída seria um simples rótulo verdadeiro ou falso.

Calculamos medidas como Sensibilidade e Especificidade com base nas previsões do modelo. Então, pedimos ao modelo que melhorasse o prompt com base em seu desempenho. Repetimos esse processo várias vezes para refinar nosso prompt, selecionando a melhor versão que equilibrava sensibilidade e especificidade.

Etapa 2: Encontrando a Temperatura Ideal

Depois de desenvolver nosso primeiro meta-prompt, inicialmente configuramos a temperatura para zero, mas queríamos ver se conseguimos resultados melhores ajustando essa configuração. Ao mudar a temperatura para vários níveis, avaliamos os impactos na sensibilidade, especificidade e taxas de erro.

Descobrimos que, à medida que a temperatura aumentava, a sensibilidade tendia a diminuir, o que indicava que uma temperatura mais baixa geralmente produzia resultados mais confiáveis.

Etapa 3: Validação Externa

Nesta etapa, testamos nosso meta-prompt final usando novos conjuntos de dados. Queríamos ver se ele poderia identificar corretamente resumos de DTA de forma consistente. Avaliamos seu desempenho usando sensibilidade, especificidade e o número de documentos que precisavam ser analisados.

Descobrimos que quando testado, o modelo teve um bom desempenho, com alta sensibilidade e especificidade razoável. Esses resultados foram promissores e indicaram que nosso prompt poderia ser aplicado efetivamente na prática.

Etapa 4: Verificando a Consistência

Um aspecto importante do uso de LLMs é a tendência deles de produzir resultados diferentes quando recebem a mesma entrada várias vezes. Para lidar com isso, checamos a consistência das saídas rodando nosso modelo várias vezes nos mesmos conjuntos de dados.

Descobrimos que não havia grandes diferenças nos resultados em várias tentativas. Na nossa análise, mesmo quando combinamos resultados de diferentes experimentos, as melhorias no desempenho foram mínimas.

Ambiente de Desenvolvimento

Para esta pesquisa, usamos o Google Collaboratory e a API Azure OpenAI. Isso nos permitiu aproveitar ferramentas poderosas para executar nossa análise de dados e tarefas de aprendizado de máquina sem precisar de recursos locais.

Resultados do Nosso Estudo

Através de nossos testes, conseguimos identificar um meta-prompt eficaz para classificar resumos de DTA. A versão final do nosso meta-prompt conseguiu alcançar alta sensibilidade e especificidade razoável. Nos testes de validação externa, tanto os modelos GPT-3.5 quanto GPT-4 produziam resultados satisfatórios, com taxas de sensibilidade acima de 0,96, que é significativamente melhor do que as tentativas anteriores usando outros modelos de aprendizado de máquina.

Também notamos diferenças no tempo de processamento e custo entre os dois modelos. O modelo GPT-3.5 era mais rápido e mais barato de usar em comparação ao GPT-4, tornando-o mais acessível para pesquisadores que buscam aplicar essa tecnologia em revisões sistemáticas.

Limitações do Nosso Estudo

Embora nossos achados sejam encorajadores, reconhecemos que existem limitações. Primeiramente, precisamos testar nossos resultados em outros conjuntos de dados para garantir que eles possam ser generalizados. Em segundo lugar, precisamos considerar quão eficazes nossos meta-prompts podem ser com diferentes modelos.

Há também um risco envolvido em confiar em modelos proprietários, pois eles podem mudar ou se tornar menos acessíveis no futuro. Pesquisadores deveriam considerar usar modelos de código aberto para evitar esses riscos.

Por fim, nosso estudo focou principalmente nos aspectos de design dos estudos de DTA. Trabalhos futuros deveriam explorar se incluir elementos mais detalhados poderia melhorar ainda mais os processos de análise de resumos.

Conclusão

Em resumo, conseguimos desenvolver e validar um meta-prompt que pode ajudar a reduzir a carga de trabalho envolvida em revisar resumos para estudos de precisão de testes diagnósticos. Recomendamos que os pesquisadores considerem usar o GPT-3.5 com nosso meta-prompt para análise de títulos e resumos em revisões sistemáticas para melhorar a eficiência e a precisão.

Mais testes em conjuntos de dados adicionais ajudarão a confirmar a eficácia da nossa abordagem, mas os resultados iniciais sugerem um caminho promissor para usar modelos de linguagem grande em revisões sistemáticas.

Melhorando a Triagem de Resumos com Modelos ChatGPT

Esse estudo melhora a classificação abstrata para a precisão de testes diagnósticos usando modelos de linguagem.

Preparação do Conjunto de Dados

Visão Geral da Nossa Abordagem

Etapa 1: Desenvolvimento de um Meta-Prompt

Etapa 2: Encontrando a Temperatura Ideal

Etapa 3: Validação Externa

Etapa 4: Verificando a Consistência

Ambiente de Desenvolvimento

Resultados do Nosso Estudo

Limitações do Nosso Estudo

Conclusão

Ligações de referência

Tópicos referenciados

Melhorando a Triagem de Resumos com Modelos ChatGPT

Esse estudo melhora a classificação abstrata para a precisão de testes diagnósticos usando modelos de linguagem.

#Preparação do Conjunto de Dados

#Visão Geral da Nossa Abordagem

#Etapa 1: Desenvolvimento de um Meta-Prompt

#Etapa 2: Encontrando a Temperatura Ideal

#Etapa 3: Validação Externa

#Etapa 4: Verificando a Consistência

#Ambiente de Desenvolvimento

#Resultados do Nosso Estudo

#Limitações do Nosso Estudo

#Conclusão

Ligações de referência

Tópicos referenciados

Preparação do Conjunto de Dados

Visão Geral da Nossa Abordagem

Etapa 1: Desenvolvimento de um Meta-Prompt

Etapa 2: Encontrando a Temperatura Ideal

Etapa 3: Validação Externa

Etapa 4: Verificando a Consistência

Ambiente de Desenvolvimento

Resultados do Nosso Estudo

Limitações do Nosso Estudo

Conclusão