Aprimorando o Raciocínio Matemático em Modelos de Linguagem Grandes
Um estudo sobre como melhorar o raciocínio matemático com estratégias de dados eficazes.
― 5 min ler
Índice
- Propósito do Estudo
- Entendendo os Limites de Habilidade dos Caminhos de Raciocínio
- Encontrando Caminhos de Raciocínio Ótimos
- Aprimorando as Habilidades do Modelo
- Visão Geral da Estratégia de Dados
- Conjuntos de Dados Usados
- Analisando os Dados
- Avaliando o Desempenho do Conjunto de Teste
- Abordando Fraquezas Específicas
- Enfrentando Habilidades Fora do Domínio (OOD)
- Desenvolvendo um Gerador Automático de Problemas
- Conclusão
- Referências
- Fonte original
- Ligações de referência
Modelos de linguagem grandes (LLMs) mostraram Habilidades impressionantes na resolução de problemas de matemática. Pesquisadores estão se interessando em melhorar essas habilidades, especialmente em modelos de código aberto, usando ajuste fino supervisionado (SFT). Este artigo discute um método para melhorar tarefas de raciocínio matemático nesses modelos através de estratégias de dados. Vamos analisar como encontrar os limites dos Caminhos de Raciocínio e como aprimorar as habilidades matemáticas dos modelos através da gestão de dados.
Propósito do Estudo
Nosso objetivo é desenvolver uma estratégia geral para dados supervisionados que possa ajudar a melhorar as habilidades de raciocínio matemático dos LLMs. Isso envolve duas tarefas principais:
- Encontrar os limites de habilidade dos caminhos de raciocínio, identificando o melhor conjunto desses caminhos.
- Mostrar que diferentes habilidades do modelo podem ser melhoradas combinando conjuntos mínimos ótimos de dados relevantes.
Esse estudo visa fornecer métodos concretos que podem ser aplicados a modelos de código aberto para alcançar alto Desempenho com custos reduzidos.
Entendendo os Limites de Habilidade dos Caminhos de Raciocínio
Encontrando Caminhos de Raciocínio Ótimos
A primeira questão que abordamos é sobre os limites dos caminhos de raciocínio e como escolhê-los de forma eficaz. Ao trabalhar com dados, precisamos equilibrar a quantidade de dados usados com a eficácia para treinar o modelo.
Acreditamos que um pequeno conjunto de caminhos de raciocínio variados e corretos pode aumentar muito as habilidades de raciocínio matemático. Nossa abordagem inclui analisar Conjuntos de dados existentes para identificar duplicatas e garantir variedade dentro dos dados.
Aprimorando as Habilidades do Modelo
A segunda questão foca em como podemos expandir esses limites de habilidade usando conjuntos de problemas adequados. Em vez de criar novos problemas, vamos explorar como oferecer problemas existentes adicionais pode ajudar a melhorar o desempenho do modelo.
Nosso objetivo é descobrir quais tipos de problemas são necessários para ampliar as capacidades do modelo, especialmente quando enfrentando tarefas matemáticas diferentes ou mais complexas.
Estratégia de Dados
Visão Geral daNossa estratégia de dados segue um processo claro:
- Gerar um conjunto inicial de caminhos de raciocínio.
- Remover duplicatas desse conjunto para eliminar caminhos repetidos.
- Analisar o número máximo de caminhos de raciocínio para cada tipo de pergunta.
- Usar essas ideias para treinar o modelo em vários subconjuntos de dados para estudar os impactos.
Conjuntos de Dados Usados
Para este estudo, trabalhamos com vários conjuntos de dados. Esses incluem:
- GSM8K: Um grande conjunto de problemas de matemática de nível escolar.
- MATH: Uma coleção de perguntas de matemática de nível de competição.
- ASDiV e SVAMP: Conjuntos de dados que têm variações nos tipos de problemas matemáticos.
Cada conjunto de dados inclui estilos e níveis de dificuldade diferentes, fornecendo uma base ampla para nossa pesquisa.
Analisando os Dados
Através da nossa análise, percebemos que fornecer uma mistura de caminhos de raciocínio variados e corretos pode melhorar significativamente a capacidade do modelo de resolver problemas de matemática.
Avaliando o Desempenho do Conjunto de Teste
Depois de treinar o modelo com nossa estratégia de dados, testamos ele em diferentes conjuntos de dados. Os resultados mostraram que os modelos tiveram um desempenho melhor com uma mistura de caminhos de raciocínio do que ao usar quantidades maiores de dados que faltavam variedade.
Descobrimos que remover duplicatas não só economizou tempo durante o treinamento, mas também levou a um aumento notável nas habilidades de raciocínio do modelo.
Abordando Fraquezas Específicas
Enfrentando Habilidades Fora do Domínio (OOD)
Outra parte da nossa pesquisa lidou com o que acontece quando modelos enfrentam novos estilos de problemas que eles não treinaram antes. Focamos em um conjunto de dados específico conhecido como GSM-HARD, que é baseado no conjunto de dados GSM8K, mas usa números maiores.
Observamos que o desempenho dos modelos nesse conjunto de dados foi pior do que o esperado. Através de mais investigações, encontramos que os problemas do modelo estavam principalmente relacionados à forma como as perguntas foram elaboradas, e não à habilidade real do modelo.
Desenvolvendo um Gerador Automático de Problemas
Para lidar com as fraquezas identificadas, criamos um Gerador Automático de Problemas. Essa ferramenta produz novos problemas matemáticos semelhantes aos encontrados no GSM-HARD. Pode ajudar a verificar a capacidade do modelo de lidar com diferentes cenários numéricos e servir a propósitos educacionais.
Esse gerador funciona modificando perguntas existentes usando certas regras, garantindo que as respostas permaneçam lógicas e relevantes.
Conclusão
Através do nosso estudo, desenvolvemos uma estratégia de dados eficaz para melhorar as habilidades de raciocínio matemático em modelos de linguagem grandes. Ao identificar os caminhos de raciocínio ótimos e fornecer uma mistura de tipos de dados, podemos aumentar significativamente as habilidades desses modelos.
Além disso, construímos uma ferramenta para gerar perguntas de teste que ajudam a avaliar e melhorar a robustez numérica dos modelos. Essa abordagem não só auxilia na pesquisa atual, mas também abre novas portas para futuros avanços na área de tarefas de raciocínio matemático usando modelos de linguagem grandes.
Enquanto continuamos a explorar esses métodos, esperamos que futuros modelos possuam habilidades e confiabilidade ainda maiores para lidar com problemas matemáticos complexos em vários conjuntos de dados.
Referências
Título: An Empirical Study of Data Ability Boundary in LLMs' Math Reasoning
Resumo: Large language models (LLMs) are displaying emergent abilities for math reasoning tasks,and there is a growing attention on enhancing the ability of open-source LLMs through supervised fine-tuning (SFT).In this paper, we aim to explore a general data strategy for supervised data to help optimize and expand math reasoning ability.Firstly, we determine the ability boundary of reasoning paths augmentation by identifying these paths' minimal optimal set.Secondly, we validate that different abilities of the model can be cumulatively enhanced by Mix of Minimal Optimal Sets of corresponding types of data, while our models MMOS achieve SOTA performance on series base models under much lower construction costs.Besides, we point out GSM-HARD is not really hard and today's LLMs no longer lack numerical robustness.Also, we provide an Auto Problem Generator for robustness testing and educational applications.Our code and data are publicly available at https://github.com/cyzhh/MMOS.
Autores: Zui Chen, Yezeng Chen, Jiaqi Han, Zhijie Huang, Ji Qi, Yi Zhou
Última atualização: 2024-02-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2403.00799
Fonte PDF: https://arxiv.org/pdf/2403.00799
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.