Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Computação e linguagem

Melhorando o Raciocínio em Modelos de Linguagem com Otimização de Preferências

Novos métodos aprimoram as habilidades de raciocínio em modelos de linguagem pra melhorar o desempenho nas tarefas.

― 8 min ler


Aprimorando o RaciocínioAprimorando o Raciocíniodos Modelos de LinguagemIA.de resolução de problemas lógicos daNovas técnicas aprimoram as habilidades
Índice

Nos últimos anos, os grandes modelos de linguagem (LLMs) têm atraído bastante atenção pela sua capacidade de realizar várias tarefas. Esses modelos conseguem entender e gerar linguagem humana, o que os torna úteis em tarefas como escrever, resumir e até resolver problemas. No entanto, quando se trata de Raciocínio – a habilidade de pensar logicamente e resolver problemas passo a passo – esses modelos ainda enfrentam desafios.

Esse artigo fala sobre uma nova abordagem chamada "Otimização de Preferências em Traços de Raciocínio." O objetivo é melhorar como os modelos de linguagem raciocinam, refinando sua compreensão de diferentes passos de raciocínio. Os resultados indicam que esse método pode gerar um raciocínio melhor em tarefas que requerem habilidades Matemáticas e outras formas de pensamento lógico.

A Importância do Raciocínio em Modelos de Linguagem

Raciocínio é uma habilidade crítica que envolve analisar informações, tirar conclusões e tomar decisões com base em evidências. No dia a dia, a gente usa raciocínio pra resolver problemas ou entender situações. Por exemplo, se você vê que tá chovendo, pode usar raciocínio pra decidir levar um guarda-chuva quando sair.

No contexto da inteligência artificial, raciocínio é essencial pra criar sistemas que conseguem interagir com humanos. Embora os LLMs tenham avançado muito na compreensão da linguagem, eles ainda têm dificuldades em tarefas que exigem pensamento lógico ou resolução de problemas passo a passo. Essa limitação fez com que os pesquisadores buscassem formas de melhorar as habilidades de raciocínio desses modelos.

Abordagens Atuais para Melhorar o Raciocínio

Um método comum pra aprimorar as habilidades de raciocínio dos modelos de linguagem é chamado de "Chain-of-Thought" (CoT) prompting. Essa técnica incentiva o modelo a gerar sequências de passos intermediários de raciocínio. Basicamente, o modelo é guiado a pensar em um problema em partes, em vez de pular direto pra uma resposta.

Apesar dessa abordagem, simplesmente instruir um modelo a "pensar passo a passo" não garante habilidades reais de raciocínio. Muitos modelos de linguagem ainda dependem muito dos dados de treinamento sem entender completamente o processo lógico por trás de suas respostas. Isso é particularmente evidente em tarefas de raciocínio complexas, onde o desempenho do modelo pode variar bastante dependendo do seu tamanho e da quantidade de dados de treinamento.

Desafios no Raciocínio Matemático

Uma área específica onde o raciocínio é crucial é a matemática. Problemas de matemática costumam exigir uma compreensão clara dos passos necessários pra chegar à resposta correta. Por exemplo, se um aluno tá tentando descobrir o custo total de itens após aplicar um desconto, ele precisa seguir uma sequência específica de cálculos pra chegar à resposta certinha.

Infelizmente, os métodos tradicionais de treinar LLMs em problemas de matemática não resultaram em um desempenho consistentemente bom. Isso pede por abordagens inovadoras que ajudem os modelos a entender melhor os passos lógicos envolvidos na resolução desses problemas.

Introduzindo Técnicas de Otimização de Preferências

A nova abordagem discutida nesse artigo envolve o uso de técnicas de otimização de preferências em passos de raciocínio pra melhorar a precisão dos modelos de linguagem. A ideia é simples: em vez de treinar o modelo apenas com respostas corretas, a gente também pode mostrar como são as respostas erradas. Ao entender tanto os caminhos de raciocínio corretos quanto os incorretos, o modelo pode refiná-los melhor suas habilidades de resolução de problemas.

Criando um Conjunto de Dados de Preferência

Pra implementar essa abordagem, a gente primeiro precisa construir um conjunto de dados de preferências. Esse conjunto contém pares de perguntas (como problemas de matemática) junto com respostas escolhidas (corretas) e rejeitadas (incorretas). Por exemplo, se o modelo se depara com uma pergunta de matemática, ele será treinado pra reconhecer tanto o cálculo correto quanto tentativas close-but-wrong que as pessoas possam fazer.

Desenvolvemos duas maneiras de criar essas respostas rejeitadas:

  1. Corruptela de Dígitos: Essa técnica envolve alterar levemente as respostas corretas, especialmente em raciocínio matemático, mudando alguns dígitos ou cálculos. Por exemplo, se a afirmação original diz "25 + 15" como "40", podemos mudar pra "25 + 14" e apresentar isso como uma resposta rejeitada.

  2. Prompting com LLM Fraco: Nesse método, usamos um modelo de linguagem menor e menos potente pra gerar respostas. Esse modelo pode não fornecer sempre o raciocínio correto, e pegamos essas respostas como respostas rejeitadas. Essas respostas são frequentemente plausíveis, mas não exatas, dando ao modelo principal uma noção melhor dos erros comuns.

Ajustando o Modelo

Depois de construir o conjunto de dados de preferências, a gente ajusta nosso modelo de linguagem. Ajustar significa pegar um modelo já treinado e adaptá-lo pra ter um desempenho melhor em um tipo específico de tarefa, como raciocínio em problemas de matemática. Usando o conjunto de dados de preferências que criamos, conseguimos treinar o modelo não só pra produzir boas respostas, mas também pra evitar erros comuns.

Isso mostrou resultados promissores, especialmente com dois modelos que testamos: Falcon2-11B e Mistral-7B. Esses modelos mostraram um desempenho melhor em vários benchmarks, que avaliam suas habilidades em tarefas de raciocínio.

Avaliando o Desempenho

Pra avaliar como nossa método funciona, testamos os modelos ajustados em vários benchmarks, que são conjuntos padrão de problemas usados pra testar habilidades de raciocínio. Um benchmark principal foi o GSM8K, que consiste em desafiadores problemas de matemática de nível escolar. Também olhamos pra problemas mais difíceis do conjunto AQuA e tarefas de raciocínio não matemático do conjunto ARC.

Os resultados foram encorajadores. Ao implementar a otimização de preferências e ajustar no conjunto de dados de raciocínio, vimos melhorias consistentes na precisão dos modelos. Por exemplo, o Falcon2-11B mostrou um aumento significativo no desempenho, demonstrando que nossa abordagem foi eficaz em melhorar suas habilidades de raciocínio.

Benefícios de Aumentar o Tamanho do Conjunto de Dados de Preferência

Um aspecto crucial da nossa pesquisa foi explorar o impacto de ter mais respostas rejeitadas disponíveis no conjunto. Ao gerar mais passos de raciocínio close-but-wrong, descobrimos que a precisão do modelo melhorou significativamente. Por exemplo, triplicar o número de respostas rejeitadas levou a um aumento notável no desempenho nas tarefas do GSM8K.

Usar uma variedade maior de respostas rejeitadas tornou o modelo mais robusto e melhor capaz de generalizar suas habilidades de raciocínio em diferentes tipos de problemas.

Usando Dados de Treinamento Variados

Durante nosso processo, usamos vários Conjuntos de dados pra criar exemplos de treinamento. O conjunto GSM8K, que inclui problemas de matemática, serviu como um recurso principal. No entanto, também encontramos valor em utilizar conjuntos como AQuA e ARC. Ao misturar conjuntos de dados, os modelos foram expostos a perguntas e padrões de raciocínio diversos.

Ao treinar no conjunto AQuA, por exemplo, o modelo mostrou uma melhoria considerável nas suas tarefas de raciocínio relacionadas a problemas algébricos. Isso destaca a importância de dados de treinamento diversos no desenvolvimento de melhores capacidades de raciocínio em modelos de linguagem.

Conclusão

A exploração da otimização de preferências em traços de raciocínio revela uma avenida promissora pra aprimorar as habilidades de raciocínio dos modelos de linguagem. Ao incorporar ativamente tanto passos de raciocínio corretos quanto incorretos no treinamento, esses modelos podem aprender com os erros, resultando em melhores habilidades de resolução de problemas.

Aproveitar técnicas como corruptela de dígitos e prompting com LLM fraco mostrou que existem maneiras eficazes de criar conjuntos de dados ricos pra Ajuste fino. Adicionar uma gama diversificada de respostas rejeitadas melhora a resiliência e adaptabilidade do modelo em diferentes tarefas de raciocínio.

À medida que os modelos de linguagem continuam a evoluir, é crucial focar em refiná-los pra que fiquem mais confiáveis e eficazes em aplicações do mundo real. Essa abordagem não só melhora o desempenho em tarefas matemáticas, mas também tem o potencial de aprimorar o raciocínio em várias áreas onde o pensamento lógico é vital.

Em pesquisas futuras, explorar maneiras adicionais de gerar respostas rejeitadas e refinar ainda mais as técnicas de otimização de preferências pode levar a capacidades de raciocínio ainda mais robustas em modelos de linguagem. Continuando a iterar nesses métodos, podemos trabalhar pra construir uma IA que imite efetivamente processos de raciocínio semelhantes aos humanos, melhorando sua utilidade em aplicações do dia a dia.

Fonte original

Título: PORT: Preference Optimization on Reasoning Traces

Resumo: Preference optimization methods have been successfully applied to improve not only the alignment of large language models (LLMs) with human values, but also specific natural language tasks such as summarization and stylistic continuations. This paper proposes using preference optimization methods on Chain-of-Thought steps in order to improve the reasoning performances of language models. While the chosen answers are obtained from datasets that include reasoning traces, we propose two complementary schemes for generating rejected answers: digit corruption, and weak LLM prompting. Our approach leads to increased accuracy on the GSM8K, AQuA-RAT, and ARC benchmarks for Falcon2-11B and Mistral-7B. For example, the approach can lead to up to a relative 8.47% increase in accuracy on the GSM8K benchmark without any extra annotations. This work suggests that spending resources on creating more datasets of reasoning traces would further boost LLM performances on informal reasoning tasks.

Autores: Salem Lahlou, Abdalgader Abubaker, Hakim Hacid

Última atualização: 2024-06-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.16061

Fonte PDF: https://arxiv.org/pdf/2406.16061

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes