Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Aprendizagem de máquinas

Melhorando as Habilidades de Raciocínio em Modelos de Linguagem

Explorando maneiras de melhorar o raciocínio dos LLMs sem feedback externo.

― 7 min ler


Avançando as HabilidadesAvançando as Habilidadesde Raciocínio dos LLMlinguagem.autorrefinamento dos modelos deAprimorando as habilidades de
Índice

Avanços recentes em modelos de linguagem grandes (LLMs) mostram que eles conseguem realizar diversas tarefas, especialmente quando se trata de melhorar seu raciocínio em áreas como matemática, ciências e programação. Mas, olhando mais de perto, dá pra ver que esses modelos muitas vezes têm dificuldade em saber quando e onde melhorar suas soluções sem receber um feedback externo. Este trabalho explora novas maneiras de aumentar as habilidades de raciocínio dos LLMs sem depender de ajuda de fora, usando apenas as respostas corretas dos dados de treinamento.

O Desafio com os Modelos Atuais

Apesar de seu desempenho impressionante, muitos dos melhores modelos de hoje têm um ponto fraco quando se trata de auto-refinamento. Eles podem dar boas respostas de vez em quando, mas esse sucesso geralmente depende de feedback externo, como dicas de humanos, outros modelos mais fortes ou ferramentas que ajudam a gerar soluções. Nosso trabalho foca em melhorar as habilidades de auto-refinamento desses modelos de uma forma que dependa apenas das respostas corretas fornecidas no conjunto de treinamento.

Pra isso, nós dividimos o processo de refinamento em três etapas: reconhecer quando uma solução precisa de melhorias, identificar onde as mudanças precisam ser feitas e descobrir como fazer essas mudanças de forma eficaz.

Diferentes Estratégias para Refinamento

Dois tipos principais de modelos são usados pra ajudar no processo de refinamento: Modelos de Recompensa Baseados em Resultados (ORMs) e Modelos de Recompensa Baseados em Processo (PRMs).

Modelos de Recompensa Baseados em Resultados (ORMs)

Os ORMs servem pra avaliar quão provável é que uma determinada resposta esteja correta com base na pergunta feita. Eles são bons pra identificar se a resposta final tá certa, mas costumam assumir que erros serão cometidos em cada etapa do caminho, o que leva a refinamentos desnecessários.

Modelos de Recompensa Baseados em Processo (PRMs)

Por outro lado, os PRMs avaliam cada passo do processo de raciocínio diretamente. Eles dizem se um determinado passo da solução tá certo ou errado. No entanto, treinar esses modelos geralmente requer muita rotulagem manual dos passos, o que pode ser chato e consumir muitos recursos.

Introduzindo ORMs Passo a Passo (SORMs)

Pra lidar com as limitações dos ORMs e PRMs, propomos um novo modelo chamado ORMs Passo a Passo, ou SORMs. Esses modelos são treinados apenas com dados sintéticos pra estimar a possível recompensa futura de um determinado caminho de raciocínio com base em várias tentativas, em vez de apenas uma. Isso leva a uma melhor identificação de passos de raciocínio incorretos, melhorando assim a precisão geral ao realizar refinamentos.

O Processo de Refinamento

Nossa abordagem envolve um processo estruturado pra melhorar o raciocínio dos LLMs. Esse processo é feito pra funcionar sem dados externos. Ele foca primeiro em usar ORM pra determinar quando uma solução precisa de refinamento, depois usa SORM pra identificar onde fazer as mudanças e, por fim, emprega modelos de refinamento tanto globais quanto locais pra executar essas mudanças.

Modelos de Refinamento Global

Os modelos de refinamento global pegam a pergunta inteira e uma solução rascunho como entrada e prevêem como seria uma solução corrigida. Eles não dependem de críticas ou feedback além do rascunho inicial.

Modelos de Refinamento Local

Os modelos de refinamento local pegam uma entrada adicional que identifica onde tá o primeiro erro no rascunho. Essa entrada ajuda eles a focar suas melhorias de forma mais precisa, melhorando a qualidade da resposta final.

Combinando Refinamentos Globais e Locais

Depois de testar o desempenho dos modelos de refinamento global e local separadamente, descobrimos que usá-los juntos traz os melhores resultados. Combinando essas duas abordagens e usando o ORM como um reranker pra escolher o refinamento mais eficaz, conseguimos melhorias significativas na precisão. Essa estratégia mostrou resultados promissores, especialmente pra um modelo chamado LLaMA-2 13B, aumentando sua precisão em várias métricas.

Descobertas e Análise

Através de nossos experimentos, descobrimos vários pontos importantes sobre a eficácia de nossos métodos de refinamento:

SORM vs. ORM

SORMs são superiores aos ORMs tradicionais ao avaliar a correção dos passos intermediários, especialmente em tarefas difíceis. Essa melhoria se traduz em maior precisão nos refinamentos quando erros são detectados. No entanto, quando se trata de prever a correção da resposta final, ORMs ainda superam SORMs, principalmente porque conseguem identificar mais eficazmente as armadilhas potenciais no raciocínio.

A Importância de Modelos de Geração de Dados Fortes

Nossas descobertas também revelaram que a qualidade do modelo estudantil subjacente usado pra gerar soluções afeta diretamente o desempenho dos modelos ORM e SORM. Modelos mais fortes tendem a dar melhor precisão tanto no processamento intermediário quanto nas respostas finais, ressaltando a necessidade de refinar nossos métodos de geração de dados.

Desempenho de Refinamento Global e Local

Tanto os modelos de refinamento global quanto local mostraram capacidades semelhantes em corrigir rascunhos incorretos. Os refinamentos locais tiveram a vantagem de receber informações mais específicas das críticas, enquanto os refinamentos globais podiam recomeçar e explorar abordagens totalmente novas pros problemas.

Usando ORMs pra Reclassificação

Usar ORMs como reclassificadores pra selecionar a melhor solução do rascunho inicial e dos refinamentos demonstrou melhorias significativas na precisão. Esse método nos permite comparar várias soluções candidatas e escolher a melhor, enquanto destaca a importância de fazer avaliações precisas durante todo o processo de refinamento.

Direções Futuras

O trabalho apresentado neste artigo abre várias avenidas pra pesquisa futura. Uma área chave é a melhoria dos modelos de crítica local pra fornecer diretrizes mais detalhadas sobre como refinar erros. Outra direção promissora envolve desenvolver estratégias de refinamento iterativo que aumentem as capacidades de exploração dos LLMs.

Conclusão

A pesquisa apresentada destaca as complexidades envolvidas em melhorar as capacidades de raciocínio dos LLMs. Ao abordar sistematicamente os desafios de quando, onde e como refinar soluções, conseguimos melhorar o desempenho desses modelos sem precisar de feedback externo. A introdução dos SORMs, juntamente com o uso eficaz de refinamentos globais e locais, permite avanços significativos na precisão dos LLMs enfrentando tarefas de raciocínio.

Implicações

À medida que os LLMs continuam a se desenvolver, nossas descobertas podem ter implicações de longo alcance em várias áreas, incluindo educação, desenvolvimento de software, pesquisa científica e resolução de problemas. A capacidade de refinar eficazmente as habilidades de raciocínio pode levar a ferramentas automatizadas melhores que ajudem os usuários a enfrentar desafios complexos de forma mais eficiente e precisa.

Reflexões sobre o Processo de Pesquisa

A jornada pra desenvolver esses modelos foi cheia de experimentação e aprendizado. Cada tentativa ofereceu insights valiosos que moldaram nossa compreensão das capacidades e limitações dos LLMs. Olhando pra frente, será essencial continuar refinando esses modelos enquanto nos mantemos abertos a novas ideias e tecnologias que possam aumentar seu desempenho.

Ao compartilhar nossas descobertas, esperamos inspirar pesquisas e desenvolvimentos futuros na área de inteligência artificial, visando sistemas mais robustos e inteligentes capazes de enfrentar uma gama sempre crescente de tarefas com maior precisão.

Fonte original

Título: GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

Resumo: State-of-the-art language models can exhibit impressive reasoning refinement capabilities on math, science or coding tasks. However, recent work demonstrates that even the best models struggle to identify \textit{when and where to refine} without access to external feedback. Outcome-based Reward Models (\textbf{ORMs}), trained to predict correctness of the final answer indicating when to refine, offer one convenient solution for deciding when to refine. Process Based Reward Models (\textbf{PRMs}), trained to predict correctness of intermediate steps, can then be used to indicate where to refine. But they are expensive to train, requiring extensive human annotations. In this paper, we propose Stepwise ORMs (\textbf{SORMs}) which are trained, only on synthetic data, to approximate the expected future reward of the optimal policy or $V^{\star}$. More specifically, SORMs are trained to predict the correctness of the final answer when sampling the current policy many times (rather than only once as in the case of ORMs). Our experiments show that SORMs can more accurately detect incorrect reasoning steps compared to ORMs, thus improving downstream accuracy when doing refinements. We then train \textit{global} refinement models, which take only the question and a draft solution as input and predict a corrected solution, and \textit{local} refinement models which also take as input a critique indicating the location of the first reasoning error. We generate training data for both models synthetically by reusing data used to train the SORM. We find combining global and local refinements, using the ORM as a reranker, significantly outperforms either one individually, as well as a best of three sample baseline. With this strategy we can improve the accuracy of a LLaMA-2 13B model (already fine-tuned with RL) on GSM8K from 53\% to 65\% when greedily sampled.

Autores: Alex Havrilla, Sharath Raparthy, Christoforus Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Roberta Raileanu

Última atualização: 2024-06-24 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.10963

Fonte PDF: https://arxiv.org/pdf/2402.10963

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes