Analisando o Prompting de Cadeia de Pensamento em Modelos de Linguagem
Analisando o impacto do prompting Chain-of-Thought nas habilidades de raciocínio do ChatGPT.
― 6 min ler
A técnica de prompting Chain-of-Thought (CoT) é um jeito de ajudar os modelos de linguagem a raciocinarem passo a passo na hora de responder perguntas. Esse método pode ser especialmente útil para problemas mais complexos, como matemática. Por exemplo, ao adicionar uma instrução simples como "Vamos pensar passo a passo" ao fazer perguntas de matemática, um modelo chamado GPT-3 melhorou sua precisão de 17,7% para 78,7% em um teste específico de matemática.
Isso levanta uma pergunta: esse método ainda funciona com os modelos mais recentes, como o ChatGPT?
Surpreendentemente, a resposta é mista. Em alguns casos, o ChatGPT não se beneficia do Prompting CoT para perguntas de Aritmética. Ele consegue dar boas respostas por conta própria e até gera raciocínios passo a passo sem precisar de instruções extras. Por outro lado, para outros tipos de perguntas, o prompting CoT ainda pode ser útil.
O Desafio de Provar a Eficácia
Determinar a eficácia do prompting CoT no ChatGPT não é tão simples. Como as versões mais novas dos modelos de linguagem são treinadas de forma diferente usando o fine-tuning de instruções (IFT), elas podem apresentar desempenhos diferentes em relação aos modelos anteriores. O ChatGPT foi criado treinando em uma quantidade enorme de tarefas e instruções, o que significa que ele pode já incluir o processo de pensamento sugerido pelo CoT em seu treinamento.
Algumas pesquisas descobriram que quando o ChatGPT foi testado em tarefas de raciocínio aritmético sem nenhuma instrução, ele ainda produziu boas respostas e mostrou até os passos do seu raciocínio. Em contraste, quando os pesquisadores aplicaram as instruções CoT, isso não melhorou o desempenho ou, em alguns casos, até piorou.
Isso leva à teoria de que o ChatGPT essencialmente aprendeu a seguir as instruções CoT por conta própria devido à forma como foi treinado. Isso pode apresentar um risco de viés em relação às instruções específicas com as quais foi treinado, levando a uma situação onde o modelo não se adapta bem a novos ou diferentes tipos de instruções.
Observações dos Experimentos
Nos experimentos que compararam várias estratégias de aprendizado zero-shot entre o GPT-3 e o ChatGPT, os pesquisadores notaram diferenças notáveis. O GPT-3 geralmente se beneficiou do prompting CoT na maioria das tarefas. No entanto, o ChatGPT teve um desempenho melhor sem instruções explícitas em muitos casos, especialmente em tarefas de raciocínio aritmético.
- Zero-Shot com Palavras-chave: Aqui, uma pergunta simples é seguida por palavras-chave para guiar a resposta.
- Zero-Shot sem Instrução: O modelo é questionado sem nenhum prompt, e então sua resposta é usada para um segundo prompt com palavras-chave.
- Zero-Shot com Instrução CoT: Similar à segunda abordagem, mas desta vez a instrução de pensar passo a passo é incluída.
Para testes de aritmética como MultiArith e GSM8K, o ChatGPT frequentemente se saiu melhor sem ser instruído a pensar passo a passo. Isso é diferente do GPT-3, que consistentemente precisou do prompting CoT para melhorar suas respostas.
Por Que Isso Acontece?
Esse comportamento pode vir do treinamento do ChatGPT. É possível que ele tenha memorizado como pensar em problemas de aritmética durante sua fase de treinamento. Como resultado, ele pode se parecer com um prompt que o incentiva a pensar passo a passo mesmo quando nenhuma instrução desse tipo está presente. O desempenho do ChatGPT sem instruções sugere uma forte possibilidade de que ele tenha sido treinado de uma forma que o permita resolver problemas de aritmética naturalmente.
No entanto, esse tipo de memorização pode também trazer desvantagens. O ChatGPT pode ter dificuldades se for solicitado a seguir novas instruções ou resolver problemas fora do que aprendeu durante o treinamento. Essa situação levanta a preocupação de que ele pode estar enviesado para as tarefas e instruções que memorizou, tornando-o menos flexível ou generalizável a novos tipos de tarefas.
Preocupações com Vazamento de Dados
Outro ponto de preocupação é o possível vazamento de informações dos dados de treinamento do ChatGPT. A forma como o modelo foi treinado poderia permitir que alguém deduzisse detalhes sobre seu conjunto de dados de treinamento apenas fazendo certas perguntas. Se os pesquisadores analisarem como um modelo responde a prompts específicos, eles podem descobrir quais instruções estavam incluídas em seu conjunto de treinamento.
Isso é diferente de como os modelos anteriores funcionavam, onde era mais difícil identificar como eles foram treinados apenas com base em suas respostas. O medo é que, como o conjunto de dados é bastante grande, ser capaz de deduzir detalhes sobre ele com base nas saídas possa levar a problemas de privacidade ou preocupações sobre a robustez do modelo.
Avaliando as Capacidades de Raciocínio
Para entender melhor as capacidades de raciocínio do ChatGPT, os pesquisadores analisaram vários tipos de tarefas de raciocínio, como aritmética, senso comum e Raciocínio Simbólico. Aqui está o que eles encontraram:
- O ChatGPT frequentemente produzia bons passos de raciocínio espontaneamente, mesmo sem instrução em tarefas de aritmética.
- Em contraste, adicionar instruções CoT a perguntas sobre raciocínio de senso comum não melhorou a precisão e às vezes até piorou.
- Interessantemente, em outras tarefas, como raciocínio simbólico, ele exibiu padrões semelhantes ao GPT-3, onde o prompting CoT melhorou o desempenho.
Esses achados sugerem que a eficácia das instruções CoT depende muito do tipo de tarefa. Essa variabilidade levanta questões interessantes sobre a natureza do aprendizado e a importância de abordagens de treinamento como o IFT.
Implicações Futuras
À medida que modelos de linguagem como o ChatGPT evoluem, as diferenças em como eles processam instruções e resolvem problemas pedem mais pesquisa. Perguntas permanecem sobre se esses modelos mais novos conseguem se adaptar a novas tarefas e instruções se tiverem um conjunto memorizado de formas de responder.
Entender o equilíbrio entre seguir instruções e raciocínio espontâneo ajudará a refinar como os futuros modelos são construídos e treinados. Há uma necessidade de estratégias claras que permitem que os modelos generalizem melhor para várias tarefas sem viés para instruções memorizadas.
Em conclusão, embora o prompting CoT tenha mostrado potencial para melhorar as capacidades de raciocínio em alguns modelos de linguagem, sua eficácia pode não ser universal. Os métodos de treinamento únicos empregados em modelos mais novos como o ChatGPT revelam vantagens e limitações, sugerindo que pesquisas contínuas são necessárias para desbloquear o potencial total da IA em raciocínio e resolução de problemas.
Título: When do you need Chain-of-Thought Prompting for ChatGPT?
Resumo: Chain-of-Thought (CoT) prompting can effectively elicit complex multi-step reasoning from Large Language Models~(LLMs). For example, by simply adding CoT instruction ``Let's think step-by-step'' to each input query of MultiArith dataset, GPT-3's accuracy can be improved from 17.7\% to 78.7\%. However, it is not clear whether CoT is still effective on more recent instruction finetuned (IFT) LLMs such as ChatGPT. Surprisingly, on ChatGPT, CoT is no longer effective for certain tasks such as arithmetic reasoning while still keeping effective on other reasoning tasks. Moreover, on the former tasks, ChatGPT usually achieves the best performance and can generate CoT even without being instructed to do so. Hence, it is plausible that ChatGPT has already been trained on these tasks with CoT and thus memorized the instruction so it implicitly follows such an instruction when applied to the same queries, even without CoT. Our analysis reflects a potential risk of overfitting/bias toward instructions introduced in IFT, which becomes more common in training LLMs. In addition, it indicates possible leakage of the pretraining recipe, e.g., one can verify whether a dataset and instruction were used in training ChatGPT. Our experiments report new baseline results of ChatGPT on a variety of reasoning tasks and shed novel insights into LLM's profiling, instruction memorization, and pretraining dataset leakage.
Autores: Jiuhai Chen, Lichang Chen, Heng Huang, Tianyi Zhou
Última atualização: 2023-04-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.03262
Fonte PDF: https://arxiv.org/pdf/2304.03262
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.forbes.com/sites/forbestechcouncil/2023/03/09/will-chatgpt-solve-all-our-problems/?sh=6f3e25494833
- https://twitter.com/emollick/status/1635700173946105856
- https://lambdalabs.com/blog/demystifying-gpt-3
- https://arxiv.org/pdf/2303.08774.pdf