Améliorer le raisonnement mathématique dans les grands modèles de langage
Une étude sur l'amélioration du raisonnement mathématique grâce à des stratégies de données efficaces.
― 6 min lire
Table des matières
- Objectif de l'étude
- Comprendre les limites de capacité des chemins de raisonnement
- Trouver des chemins de raisonnement optimaux
- Améliorer les capacités du modèle
- Vue d'ensemble de la Stratégie de données
- Jeux de données utilisés
- Analyse des données
- Évaluation de la performance sur le jeu de test
- Aborder des faiblesses spécifiques
- S'attaquer aux capacités hors domaine (OOD)
- Développer un générateur automatique de problèmes
- Conclusion
- Source originale
- Liens de référence
Les modèles de langage large (LLMs) ont montré des compétences impressionnantes pour résoudre des problèmes de maths. Les chercheurs sont motivés à améliorer ces Capacités, surtout dans les modèles open-source, en utilisant le fine-tuning supervisé (SFT). Cet article discute d'une méthode pour améliorer les tâches de raisonnement mathématique dans ces modèles grâce à des stratégies de données. On va examiner comment trouver les limites des Chemins de raisonnement et comment améliorer les capacités mathématiques des modèles à travers la gestion des données.
Objectif de l'étude
Notre but, c'est de développer une stratégie générale pour des données supervisées qui peuvent aider à améliorer les compétences en raisonnement mathématique des LLMs. Ça implique deux tâches principales :
- Trouver les limites de capacité des chemins de raisonnement en identifiant le meilleur ensemble de ces chemins.
- Montrer que différentes capacités du modèle peuvent être améliorées en combinant des ensembles de données minimaux et optimaux.
Cette étude vise à fournir des méthodes concrètes qui peuvent être appliquées aux modèles open-source pour atteindre de hautes Performances à moindre coût.
Comprendre les limites de capacité des chemins de raisonnement
Trouver des chemins de raisonnement optimaux
La première question qu'on aborde, c'est les limites des chemins de raisonnement et comment les choisir efficacement. Quand on travaille avec des données, il faut équilibrer la quantité de données utilisées avec leur efficacité pour entraîner le modèle.
On pense qu'un petit ensemble de chemins de raisonnement variés et corrects peut booster considérablement les compétences en raisonnement mathématique. Notre approche inclut l'analyse des Jeux de données existants pour identifier les doublons et assurer la variété au sein des données.
Améliorer les capacités du modèle
La deuxième question se concentre sur comment on peut élargir ces limites de capacité en utilisant des ensembles de problèmes appropriés. Au lieu de créer de nouveaux problèmes, on va explorer comment offrir des problèmes existants supplémentaires peut aider à améliorer la performance du modèle.
Notre but, c'est de découvrir quels types de problèmes sont nécessaires pour élargir les capacités du modèle, surtout face à des tâches mathématiques différentes ou plus complexes.
Stratégie de données
Vue d'ensemble de laNotre stratégie de données suit un processus clair :
- Générer un ensemble initial de chemins de raisonnement.
- Dédupliquer cet ensemble pour enlever les chemins en double.
- Analyser le nombre maximal de chemins de raisonnement pour chaque type de question.
- Utiliser ces insights pour entraîner le modèle sur différents sous-ensembles de données pour étudier les impacts.
Jeux de données utilisés
Pour cette étude, on a travaillé avec plusieurs jeux de données. Ceux-ci incluent :
- GSM8K : Un grand jeu de données de problèmes de maths de niveau scolaire.
- MATH : Une collection de questions de maths de niveau compétition.
- ASDiV et SVAMP : Des jeux de données qui ont des variations dans les types de problèmes de maths.
Chaque jeu de données inclut différents styles et niveaux de difficulté, offrant une base large pour notre recherche.
Analyse des données
À travers notre analyse, on a réalisé que fournir un mélange de chemins de raisonnement variés et corrects peut améliorer de manière significative la capacité du modèle à résoudre des problèmes de maths.
Évaluation de la performance sur le jeu de test
Après avoir entraîné le modèle avec notre stratégie de données, on l'a testé sur différents jeux de données. Les résultats ont montré que les modèles se débrouillaient mieux avec un mélange de chemins de raisonnement qu'en utilisant de plus grandes quantités de données qui manquaient de variété.
On a découvert que supprimer les doublons non seulement faisait gagner du temps pendant l'entraînement, mais menait également à un boost notable des compétences en raisonnement du modèle.
Aborder des faiblesses spécifiques
S'attaquer aux capacités hors domaine (OOD)
Une autre partie de notre recherche a porté sur ce qui se passe quand les modèles font face à de nouveaux styles de problèmes qu'ils n'ont pas encore rencontrés. On s'est concentré sur un jeu de données spécifique connu sous le nom de GSM-HARD, qui est basé sur le jeu de données GSM8K mais utilise des nombres plus grands.
On a observé que la performance des modèles sur ce jeu de données était pire que prévu. En enquêtant davantage, on a trouvé que les problèmes du modèle étaient principalement dus à la façon dont les questions étaient formulées, plutôt qu'à la capacité réelle du modèle.
Développer un générateur automatique de problèmes
Pour traiter les faiblesses identifiées, on a créé un générateur automatique de problèmes. Cet outil produit de nouveaux problèmes de maths similaires à ceux trouvés dans GSM-HARD. Il peut aider à vérifier la capacité du modèle à gérer différents scénarios numériques et servir des fins éducatives.
Ce générateur fonctionne en modifiant des questions existantes selon certaines règles tout en s'assurant que les réponses restent logiques et pertinentes.
Conclusion
À travers notre étude, on a développé une stratégie de données efficace pour améliorer les compétences en raisonnement mathématique dans les grands modèles de langage. En identifiant les chemins de raisonnement optimaux et en fournissant un mélange de types de données, on peut significativement améliorer les capacités de ces modèles.
De plus, on a construit un outil pour générer des questions de test qui aident à évaluer et améliorer la robustesse numérique des modèles. Cette approche aide non seulement à la recherche actuelle, mais ouvre aussi de nouvelles portes pour de futurs progrès dans le domaine des tâches de raisonnement mathématique utilisant de grands modèles de langage.
En continuant d'explorer ces méthodes, on espère que les modèles futurs auront des capacités et une fiabilité encore plus grandes pour gérer des problèmes mathématiques complexes à travers divers jeux de données.
Titre: An Empirical Study of Data Ability Boundary in LLMs' Math Reasoning
Résumé: Large language models (LLMs) are displaying emergent abilities for math reasoning tasks,and there is a growing attention on enhancing the ability of open-source LLMs through supervised fine-tuning (SFT).In this paper, we aim to explore a general data strategy for supervised data to help optimize and expand math reasoning ability.Firstly, we determine the ability boundary of reasoning paths augmentation by identifying these paths' minimal optimal set.Secondly, we validate that different abilities of the model can be cumulatively enhanced by Mix of Minimal Optimal Sets of corresponding types of data, while our models MMOS achieve SOTA performance on series base models under much lower construction costs.Besides, we point out GSM-HARD is not really hard and today's LLMs no longer lack numerical robustness.Also, we provide an Auto Problem Generator for robustness testing and educational applications.Our code and data are publicly available at https://github.com/cyzhh/MMOS.
Auteurs: Zui Chen, Yezeng Chen, Jiaqi Han, Zhijie Huang, Ji Qi, Yi Zhou
Dernière mise à jour: 2024-02-23 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.00799
Source PDF: https://arxiv.org/pdf/2403.00799
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.