Aprimorando o Raciocínio em Grandes Modelos de Linguagem
Este estudo analisa estratégias de raciocínio para melhorar o desempenho de modelos de linguagem.
― 5 min ler
Índice
Desenvolvimentos recentes em grandes Modelos de linguagem (LLMs) mostraram que eles têm potencial para melhorar como as máquinas entendem e geram texto. Essa melhoria é super importante em tarefas que exigem raciocínio, como responder Perguntas. Uma das maneiras de melhorar o raciocínio é através de prompts de cadeia de pensamento (CoT), que fazem o modelo pensar passo a passo. Mas ainda tem perguntas sobre quão bem esses métodos funcionam em diferentes modelos e tipos de dados. Esse artigo fala sobre um estudo que testa como várias estratégias de raciocínio se saem quando usadas com diferentes LLMs e Conjuntos de dados.
Propósito do Estudo
O principal objetivo desse estudo é ver se certos métodos de raciocínio que funcionaram bem em modelos mais antigos ainda conseguem ser eficazes em modelos mais novos. Os pesquisadores queriam descobrir se esses métodos poderiam ajudar os modelos a se saírem melhor em perguntas de várias áreas, incluindo ciência e saúde. Eles usaram tanto estratégias existentes quanto criaram novas.
Métodos Usados
No estudo, os pesquisadores compararam seis LLMs diferentes. Esses incluíam modelos populares como o GPT-4 e Flan-T5-xxl, que são conhecidos por suas habilidades em lidar com tarefas complexas. Eles avaliaram os modelos em seis conjuntos de dados que continham perguntas de múltipla escolha com diferentes níveis de dificuldade. Cada pergunta tinha entre duas a cinco opções de resposta, com apenas uma sendo correta.
Para testar as estratégias de raciocínio, os pesquisadores criaram uma estrutura chamada ThoughtSource. Essa estrutura ajudou a gerar, avaliar e anotar os processos de raciocínio usados pelos modelos. Eles desenvolveram dez estratégias de raciocínio diferentes, incluindo um método básico sem prompt específico e nove outros prompts guiados. Alguns desses prompts foram inspirados em técnicas estabelecidas e foram aprimorados ao longo do tempo, com base no que funcionou melhor.
Resultados
Os resultados mostraram que usar estratégias de raciocínio geralmente levou a um desempenho melhor do que apenas perguntar diretamente ao modelo por uma resposta. O modelo GPT-4, em particular, se beneficiou bastante desses prompts específicos, mostrando resultados melhores que os outros modelos. Porém, uma estratégia que envolvia o modelo criticando suas próprias respostas não teve um desempenho bom.
Ao olhar de perto como os modelos se saíram no geral, ficou claro que, enquanto a maioria dos modelos teve pontuações parecidas nos conjuntos de dados, o GPT-4 teve vantagens distintas com certos prompts. O estudo encontrou que modelos melhores se saíram bem em certos conjuntos de dados, especialmente aqueles que envolviam conhecimento geral, enquanto alguns conjuntos de dados específicos precisaram de mais trabalho para melhorar sua eficácia.
Além disso, o FLAN-T5 mostrou resultados decentes considerando seu tamanho, mas houve indícios de sobreposição de dados, sugerindo que ele pode ter sido treinado em tipos de perguntas similares dos conjuntos de dados que estavam sendo testados. Por outro lado, o GPT-3.5-turbo e o GPT-4 superaram os demais, especialmente em questões médicas.
Limitações do Estudo
Apesar de seus achados, o estudo teve limitações. Os pesquisadores escolheram um subconjunto dos conjuntos de dados para os testes devido a restrições de recursos. Essa escolha significou que os resultados deles podem não representar como os modelos se sairiam no conjunto completo de perguntas disponíveis nesses conjuntos de dados.
Eles perceberam alguns problemas com a qualidade dos conjuntos de dados que usaram. Muitas perguntas não indicavam claramente qual resposta era a melhor, levando a confusões. Modelos avançados reconheceram esses problemas e muitas vezes evitaram escolher uma única resposta quando estavam diante da ambiguidade.
Os pesquisadores também evitaram usar técnicas complexas que poderiam melhorar a precisão geral, mas tornariam os modelos mais difíceis de interpretar. Eles focaram em obter uma única resposta clara em vez de uma mistura de respostas incertas.
Outro desafio enfrentado foi que os LLMs que estavam sendo testados são atualizados constantemente. Isso dificulta para qualquer um replicar o estudo com precisão ao longo do tempo. Para ajudar a resolver isso, os pesquisadores disponibilizaram os dados gerados para que outros pudessem revisar.
A falta de diretrizes claras e documentos sobre alguns modelos levantou preocupações sobre a possibilidade de contaminação dos dados. Isso pode ter impactado os resultados, especialmente ao comparar como diferentes modelos se saíram.
Trabalhos Relacionados
Muitos estudos analisaram como funcionam os prompts zero-shot. Algumas pesquisas anteriores focaram especificamente em conjuntos de dados médicos, enquanto outras examinaram vários modelos e tipos de dados. O estudo atual contribui para esse conhecimento ao identificar técnicas de prompting CoT eficazes que podem funcionar bem em uma ampla gama de conjuntos de dados de perguntas e respostas.
Direções Futuras
Pesquisas futuras podem construir em cima desse estudo testando essas estratégias de raciocínio com modelos adicionais. Hoje em dia, tem muitos LLMs abertos disponíveis que podem ser explorados, como LLaMa e Alpaca. Além disso, pode ser benéfico investigar como os usuários percebem a qualidade e a clareza dos processos de raciocínio que diferentes modelos produzem.
Conclusão
Resumindo, o estudo descobriu que aplicar estratégias de raciocínio específicas pode melhorar o desempenho de grandes modelos de linguagem. Enquanto o GPT-4 se destacou como o melhor, outros modelos também mostraram potencial. Há preocupações com a qualidade dos dados e métodos de treinamento dos modelos, que precisam ser investigados mais a fundo. Os achados enfatizam a importância de desenvolver métodos de raciocínio eficazes e destacam áreas para futuras pesquisas para melhorar o desempenho e a usabilidade de grandes modelos de linguagem em tarefas do mundo real.
Título: An automatically discovered chain-of-thought prompt generalizes to novel models and datasets
Resumo: Emergent chain-of-thought (CoT) reasoning capabilities promise to improve performance and explainability of large language models (LLMs). However, uncertainties remain about how reasoning strategies formulated for previous model generations generalize to new model generations and different datasets. In this small-scale study, we compare different reasoning strategies induced by zero-shot prompting across six recently released LLMs (davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl and Cohere command-xlarge) on a mixture of six question-answering datasets, including datasets from scientific and medical domains. Our findings demonstrate that while some variations in effectiveness occur, gains from CoT reasoning strategies remain robust across different models and datasets. GPT-4 has the most benefit from current state-of-the-art reasoning strategies and exhibits the best performance by applying a prompt previously discovered through automated discovery.
Autores: Konstantin Hebenstreit, Robert Praas, Louis P Kiesewetter, Matthias Samwald
Última atualização: 2023-08-03 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.02897
Fonte PDF: https://arxiv.org/pdf/2305.02897
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.