Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Évaluation des modèles de langue dans la résolution de problèmes de mathématiques

Une étude testant des modèles de langage sur des problèmes de maths variés révèle des lacunes dans le raisonnement.

― 6 min lire


Les modèles de langageLes modèles de langagefoirent avec lesvariations de maths.simples.galère avec des changements de mathsDe nouveaux tests montrent que l'IA
Table des matières

Les modèles de langage, comme ceux utilisés en intelligence artificielle, ont montré de super compétences dans plein de domaines, y compris les problèmes de maths. Mais il y a beaucoup de discussions sur le fait de savoir si ces modèles comprennent vraiment les concepts mathématiques ou s'ils se contentent de chercher des schémas dans les problèmes. Un signe courant de ce problème, c’est que quand on change légèrement les problèmes de maths, ces modèles se trompent souvent. Ça soulève la nécessité de tester à quel point ces modèles peuvent gérer différents types de questions mathématiques de manière fiable.

Le besoin d’une meilleure évaluation

Pour mieux évaluer ces modèles, les chercheurs ont créé un nouveau jeu de données contenant diverses questions de maths ajustées de différentes manières. On appelle ça le jeu de données "mathématiques à l'école primaire adversariales". En testant environ 25 modèles de langage sur ce jeu de données, les chercheurs espèrent voir comment ces modèles gèrent les changements dans les problèmes. L'objectif est de comprendre à quel point leurs compétences en Raisonnement Mathématique sont cohérentes face à différentes Variations de questions.

Qu'est-ce que le raisonnement mathématique ?

Le raisonnement mathématique est essentiel pour développer l'intelligence artificielle. Ça implique de comprendre le problème, de créer une stratégie pour le résoudre, puis de calculer la réponse. Les modèles de langage ont montré de bons résultats dans de nombreux tests de maths, y compris des problèmes simples pour les jeunes élèves et même des problèmes plus compliqués pour les lycéens et les étudiants.

Par exemple, certains modèles avancés ont atteint des taux de précision de plus de 90 % sur des tests populaires. Cependant, beaucoup de gens dans la communauté de recherche débattent encore de savoir si ces modèles comprennent vraiment les maths ou appliquent simplement des schémas appris. Des preuves suggèrent que ces modèles échouent parfois à saisir des détails de base dans les problèmes, ce qui conduit à des erreurs que les humains éviteraient probablement.

Un regard plus attentif sur les modèles

Dans cette étude, les chercheurs ont examiné comment différents modèles de langage gèrent diverses questions de maths. Ils ont découvert que même quand les modèles avaient déjà résolu des problèmes similaires, ils pouvaient encore se tromper si de nouvelles informations étaient ajoutées. C'est un signe clair que les modèles ne comprennent peut-être pas entièrement les problèmes.

Pour approfondir, les chercheurs ont décidé d’évaluer les modèles face à un ensemble de problèmes conçus pour être plus difficiles et plus variés que les tests habituels. Ce nouveau critère a révélé que les taux de précision pouvaient chuter de manière significative, montrant que même si les modèles peuvent obtenir de bons scores sur des tests standards, ils galèrent quand ils sont confrontés à de légers changements dans les questions.

Variations dans les problèmes de maths

Le nouveau jeu de données comprend huit types de variations différentes qui montrent comment les changements peuvent affecter la capacité d'un modèle à répondre correctement. Ces variations incluent :

  1. Variation numérique : Changer les chiffres dans un problème.
  2. Variation arithmétique : Ajuster les opérations impliquées, comme passer de l’addition à la soustraction.
  3. Compréhension du problème : Reformuler ou reformuler le problème.
  4. Insertion de distracteurs : Ajouter des informations inutiles au problème qui n’aident pas à le résoudre.
  5. Pensée critique : Tester si le modèle peut reconnaître des informations manquantes dans un problème.

Chacune de ces variations a été conçue pour pousser les modèles à penser de manière critique et à gérer les problèmes de maths de manière plus robuste.

Résultats des tests

Après avoir testé les modèles, les chercheurs ont trouvé que même si certains modèles performaient bien sur les questions originales, ils avaient des difficultés significatives avec les variations. Ils ont noté que les modèles étaient particulièrement faibles en ce qui concerne la pensée critique et les variations arithmétiques, tandis qu'ils étaient un peu meilleurs pour gérer les variations numériques et les questions reformulées.

Ce constat met en avant le manque général de robustesse des modèles. Même le modèle le plus performant a quand même échoué à maintenir ses performances face à des questions modifiées. Ça montre un écart entre les capacités des modèles et ce qui est nécessaire pour résoudre des problèmes de maths de manière fiable.

Exploration des techniques de nudging

Les chercheurs ont aussi regardé différentes techniques de nudging pour voir si ça pouvait améliorer les performances des modèles sur ces questions variées. Des techniques comme le nudging "Chain-of-Thought", qui encouragent les modèles à expliquer leur raisonnement étape par étape, ont montré un certain potentiel. Cependant, aucune des techniques n’a réussi à produire de manière cohérente une haute précision sur toutes les variations de questions.

Nudging compositionnel

Pour améliorer encore les résultats des modèles, les chercheurs ont expérimenté avec une nouvelle approche appelée nudging compositionnel. Cette méthode encourage les modèles à décomposer des problèmes complexes en parties plus petites, à générer des objectifs pour chaque partie et ensuite à calculer en conséquence. Les résultats ont montré que cette méthode pouvait effectivement améliorer les performances des modèles sur les questions originales et leurs variations.

Cependant, même avec ces améliorations, les modèles n’ont pas entièrement atteint la précision observée dans les tests originaux. Ça montre qu'il faut continuer à améliorer la façon dont ces modèles comprennent et résolvent les problèmes de maths.

Conclusion

En conclusion, même si les modèles de langage ont fait de grands progrès en performance générale, il y a des lacunes significatives dans leur capacité à gérer efficacement les changements dans les problèmes de maths. Ce travail met en lumière la nécessité de développer de meilleurs critères d’évaluation et des modèles plus résilients qui peuvent faire face à de petits changements dans les questions à grande échelle.

Malgré les progrès réalisés, beaucoup de modèles ne performent toujours pas à un niveau comparable au raisonnement humain en maths, surtout quand des changements simples sont introduits. Ce travail vise à poser une base pour des recherches supplémentaires sur l'amélioration des performances et de la fiabilité des modèles de langage dans le domaine des maths, ouvrant la voie à des technologies plus robustes à l'avenir.

Source originale

Titre: GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers

Résumé: Large language models (LLMs) have achieved impressive performance across various mathematical reasoning benchmarks. However, there are increasing debates regarding whether these models truly understand and apply mathematical knowledge or merely rely on shortcuts for mathematical reasoning. One essential and frequently occurring evidence is that when the math questions are slightly changed, LLMs can behave incorrectly. This motivates us to evaluate the robustness of LLMs' math reasoning capability by testing a wide range of question variations. We introduce the adversarial grade school math (GSM-Plus) dataset, an extension of GSM8K augmented with various mathematical perturbations. Our experiments on 25 LLMs and 4 prompting techniques show that while LLMs exhibit different levels of math reasoning abilities, their performances are far from robust. In particular, even for problems that have been solved in GSM8K, LLMs can make mistakes when new statements are added or the question targets are altered. We also explore whether more robust performance can be achieved by composing existing prompting methods, in which we try an iterative method that generates and verifies each intermediate thought based on its reasoning goal and calculation result.

Auteurs: Qintong Li, Leyang Cui, Xueliang Zhao, Lingpeng Kong, Wei Bi

Dernière mise à jour: 2024-07-01 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2402.19255

Source PDF: https://arxiv.org/pdf/2402.19255

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires