Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Améliorer le raisonnement mathématique dans des modèles de langue plus petits

Une nouvelle méthode améliore les compétences en résolution de mathématiques dans des modèles linguistiques plus petits en utilisant le DPO et l'auto-formation.

― 8 min lire


Amélioration desAmélioration descompétences en maths pourles modèles de languemodèles d'IA.performances en mathématiques desDe nouvelles méthodes améliorent les
Table des matières

Former des modèles de langage pour résoudre des problèmes de maths, c'est un défi mais carrément important. Pour bien entraîner, il faut des données de qualité qui montrent comment résoudre ces problèmes. Alors que certaines de ces données peuvent venir d'experts, une autre méthode courante est d'utiliser les infos de plus gros modèles de langage puissants. Cependant, compter sur ces gros modèles peut coûter cher et parfois être imprévisible.

Dans cet article, on parle d'une nouvelle méthode qui aide les plus petits modèles de langage à améliorer leurs compétences en Raisonnement mathématique. Cette méthode passe par l'Auto-formation, où les modèles apprennent de leurs propres sorties. On introduit aussi une technique appelée Optimisation des Préférences Directes (DPO) qui aide à orienter les modèles pour fournir de meilleures réponses.

Le Problème avec les Méthodes Traditionnelles

Former des modèles de langage pour résoudre des problèmes de maths a souvent dépendu de données chères provenant de gros modèles. Ces grands modèles, bien qu'efficaces en raisonnement, peuvent avoir des coûts élevés et être moins fiables. Par exemple, des modèles comme GPT-4 peuvent fournir des annotations utiles, mais leur utilisation n'est pas toujours pratique.

Des recherches antérieures ont montré que les petits modèles peuvent améliorer leur raisonnement en apprenant des plus gros modèles. Même si cette méthode est efficace, elle peut coûter cher en ressources informatiques. Notre approche vise à réduire ces coûts tout en boostant la performance.

Aperçu de l'Auto-Formation

L'auto-formation est une technique où un modèle entraîné agit comme un prof pour s'aider à apprendre de nouvelles données. Le modèle va générer des réponses pour de nouveaux problèmes de maths et ensuite utiliser celles-ci pour s'améliorer. Le but est de créer de meilleures données étiquetées qui peuvent aider à améliorer sa performance. Cette méthode a été utilisée avec succès dans divers domaines, y compris le traitement du langage naturel.

Optimisation des Préférences Directes (DPO)

DPO est une technique qui améliore le processus d'auto-formation. Au lieu de se fier uniquement à un modèle de récompense, DPO permet d'ajuster directement le modèle de langage en fonction des préférences humaines. Le processus commence par un modèle générant plusieurs réponses à une question donnée. Ces réponses sont ensuite classées selon qu'elles sont bonnes ou mauvaises d'après les retours humains.

En utilisant ces données, le modèle est entraîné pour fournir de meilleures réponses à l'avenir. DPO aide surtout le modèle à se concentrer sur les tâches de raisonnement, particulièrement en maths. Comme les réponses de maths peuvent être facilement vérifiées pour leur validité, ça rend plus simple la création de jeux de données pour DPO.

Le Cadre d'Auto-Formation Augmenté par DPO

Notre méthode proposée commence par une phase de réchauffement où le modèle est formé sur des données étiquetées. Après ce premier entraînement, le modèle utilise les étapes d'auto-formation et de DPO pour peaufiner sa performance.

Pendant l'étape DPO, le modèle génère un ensemble d'explications pour des questions données. Ces explications sont étiquetées comme correctes ou incorrectes en fonction des bonnes réponses qu'elles fournissent. Le modèle s'entraîne ensuite sur ces données étiquetées pour améliorer sa performance.

Dans l'étape SFT suivante, le modèle amélioré génère de nouvelles explications basées sur la compréhension affinée de l'étape DPO. Ce processus continue de manière itérative, permettant au modèle de s'améliorer progressivement.

Utilisation de Calculatrices Externes

Un autre défi avec les plus petits modèles de langage, c'est qu'ils ont souvent du mal avec l'arithmétique de base. Pour pallier ce problème, on intègre une calculatrice externe dans nos modèles. Cet outil aide à améliorer les compétences Arithmétiques des modèles, menant à de meilleures Performances dans les tâches mathématiques.

Beaucoup de techniques actuelles limitent le traitement à une question à la fois quand on utilise une calculatrice, ce qui ralentit les performances. Notre méthode permet de traiter plusieurs questions en même temps, améliorant ainsi la vitesse et l'efficacité globales.

Configuration de l'Expérience

Pour comprendre comment notre méthode performe, on a utilisé une variété de modèles, notamment deux versions de Flan-T5, comme modèles de base. On a utilisé ces modèles sur un benchmark populaire pour les problèmes de mathématiques de type texte appelé GSM8K. En plus, on a créé un jeu de validation séparé en sélectionnant une partie des exemples d'entraînement.

Dans nos expériences, on a comparé notre méthode aux méthodes traditionnelles de fine-tuning supervisé et aux méthodes d'auto-formation standard. Cette comparaison visait à montrer à quel point notre processus augmenté par DPO fonctionne mieux par rapport aux techniques établies.

Principales Découvertes

Nos résultats montrent que les méthodes d'auto-formation, y compris notre approche augmentée par DPO, surpassent significativement les méthodes de fine-tuning supervisé traditionnelles. Ce succès prouve que l'auto-formation peut améliorer efficacement les capacités de raisonnement des modèles de langage.

Bien que les deux méthodes d'auto-formation aient amélioré les modèles supervisés initiaux, notre approche augmentée par DPO a montré une performance supérieure tant sur des tâches connues (dans le domaine) que sur des nouvelles (hors domaine).

Notamment, notre méthode capitalise sur les avantages de l'auto-formation tout en minimisant les coûts. En générant des données de haute qualité grâce à l'étape DPO, on a constaté que les modèles pouvaient fournir de meilleures réponses sans nécessiter plus de ressources.

L'Importance de l'Entraînement Itératif

On a observé que notre méthode d'entraînement itératif entraîne des améliorations constantes. Les premiers résultats ont montré que les deux méthodes d'auto-formation commençaient de manière similaire. Pourtant, au fur et à mesure que l'entraînement avançait, notre approche augmentée par DPO montrait systématiquement de meilleurs résultats à chaque étape.

Cette amélioration met en évidence l'efficacité de notre méthode pour peaufiner la performance des modèles de langage. Même les plus grands modèles ont montré de solides gains au fil des itérations.

L'Impact de DPO sur l'Auto-Formation

L'étape DPO dans notre processus joue un rôle crucial dans l'amélioration du cadre d'auto-formation. Les évaluations précoces ont montré que bien que l'étape DPO apportait des améliorations limitées pour des solutions uniques, elle améliorait significativement la capacité du modèle à générer plusieurs justifications.

En échantillonnant plusieurs solutions par problème, on a trouvé que l'entraînement DPO incite le modèle à produire des sorties variées et de haute qualité. Cette capacité à générer une plus large gamme de solutions renforce la performance globale.

Le Rôle des Calculatrices Externes

Comme mentionné précédemment, les petits modèles ont souvent du mal avec les problèmes d'arithmétique. Notre méthode utilise une calculatrice externe pour résoudre ce problème. Sans cela, les modèles ont tendance à produire de nombreuses sorties incorrectes même si la réponse finale semble correcte. Cette limitation réduit la précision globale.

Dans nos études d'ablation, on a découvert que les modèles utilisant la calculatrice ont mieux performé à travers diverses itérations. Ce résultat illustre l'importance d'intégrer des outils qui soutiennent les capacités de raisonnement du modèle.

Conclusion

En résumé, on a introduit une nouvelle méthode pour améliorer les capacités de raisonnement mathématique des plus petits modèles de langage grâce à l'auto-formation augmentée par DPO. Cette technique non seulement améliore les capacités d'apprentissage de ces modèles mais le fait aussi de manière efficace en ressources. En utilisant à la fois l'auto-formation et DPO, nos modèles ont réalisé des améliorations significatives de leur performance, tout en s'attaquant aux défis posés par des échelles plus petites et le raisonnement arithmétique.

Nos découvertes suggèrent que les recherches futures devraient se concentrer sur l'expansion de cette approche à d'autres tâches de raisonnement, l'identification de jeux de données adaptés, et l'exploration de moyens pour collecter des données non étiquetées de haute qualité. Ce travail ouvre de nouvelles voies pour améliorer les modèles de langage et leurs applications dans divers domaines.

Source originale

Titre: Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning

Résumé: Effective training of language models (LMs) for mathematical reasoning tasks demands high-quality supervised fine-tuning data. Besides obtaining annotations from human experts, a common alternative is sampling from larger and more powerful LMs. However, this knowledge distillation approach can be costly and unstable, particularly when relying on closed-source, proprietary LMs like GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate that the reasoning abilities of small-scale LMs can be enhanced through self-training, a process where models learn from their own outputs. We also show that the conventional self-training can be further augmented by a preference learning algorithm called Direct Preference Optimization (DPO). By integrating DPO into self-training, we leverage preference data to guide LMs towards more accurate and diverse chain-of-thought reasoning. We evaluate our method across various mathematical reasoning tasks using different base models. Our experiments show that this approach not only improves LMs' reasoning performance but also offers a more cost-effective and scalable solution compared to relying on large proprietary LMs.

Auteurs: Tianduo Wang, Shichen Li, Wei Lu

Dernière mise à jour: 2024-07-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.18248

Source PDF: https://arxiv.org/pdf/2407.18248

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires