Les LLM galèrent avec des tâches de raisonnement basiques
Des tests récents montrent que les LLM ont des faiblesses en raisonnement simple malgré leurs bons scores aux benchmarks.
― 6 min lire
Table des matières
Les Grands Modèles de Langage (LLMs) comme GPT-3.5, GPT-4, Claude et d'autres sont souvent célébrés pour leurs capacités avancées à comprendre et à générer du texte comme des humains. Cependant, des études récentes montrent que ces modèles peuvent avoir du mal avec des tâches de Raisonnement simples qui nécessitent un bon sens de base. Cet article va se pencher sur un problème particulier conçu pour tester ces modèles, révélant des faiblesses significatives dans leurs capacités de raisonnement.
Le Problème
Le problème dont on parle est formulé comme suit :
"Alice a X frères et Y sœurs. Combien de sœurs le frère d'Alice a-t-il ?"
À première vue, cette question semble simple. Elle présente un scénario impliquant Alice, ses frères et ses sœurs, et elle demande combien de sœurs a le frère d'Alice. Résoudre ce problème nécessite des compétences de raisonnement basiques que la plupart des adultes, et même des enfants, peuvent gérer facilement.
La bonne réponse est tout simplement le nombre de sœurs qu'Alice a, puisque tous les frères et sœurs partagent les mêmes parents. Cela signifie que le frère d'Alice a les mêmes sœurs qu'Alice.
La Mise en Place : Tester les Modèles
Pour voir comment les LLMs actuels gèrent ce problème simple, nous avons testé différents modèles, à la fois fermés et open-source. Les modèles fermés comprenaient des versions mainstream comme GPT-4 d'OpenAI et Claude d'Anthropic. Les modèles open-source incluaient les variantes LLaMa et Mistral.
Nous avons créé différentes versions du problème original en changeant les valeurs de X et Y, ce qui nous a permis d'évaluer la capacité de chaque modèle à répondre à la question dans diverses conditions.
Les Résultats
Les résultats de nos tests ont montré des échecs surprenants parmi la plupart des modèles lorsqu'ils étaient confrontés au problème AIW. Beaucoup d'entre eux ont eu du mal à générer la bonne réponse même après avoir été invités plusieurs fois ou avoir reçu des instructions pour reconsidérer leurs réponses.
Comparaison des Performances
Modèles Fermés : Bien que certains modèles fermés comme GPT-4 aient parfois donné la bonne réponse soutenue par un raisonnement sensé, ils ont souvent échoué à le faire de manière consistante. Par exemple, la performance de GPT-4 variait largement, ce qui a conduit à des moments où il a donné la bonne réponse et des moments où ce n'était pas le cas.
Modèles Open-Source : De nombreux modèles dans l'espace open-source, comme LLaMa et Mistral, ont souvent échoué à répondre correctement. Ces modèles ont montré un manque de cohérence significatif dans leurs réponses, conduisant à des réponses incorrectes ou à aucune réponse significative.
Une Version Plus Difficile du Problème
Pour tester davantage les modèles, nous avons créé une version plus complexe du problème AIW, qui incluait plus de membres de la famille et demandait aussi le nombre de cousins. Ce nouveau problème nécessitait non seulement un raisonnement basique mais aussi un peu plus de déduction logique et de calcul.
Quand nous avons présenté ce problème plus difficile aux modèles, les résultats étaient encore pires. La plupart des modèles n'ont pas pu fournir la bonne réponse, et ceux qui ont réussi à le faire ont aussi montré un niveau élevé de surconfiance dans leurs réponses incorrectes.
Surconfiance et Confabulation
Un problème frappant noté pendant les tests était la surconfiance des modèles dans leurs réponses. Plusieurs fois, lorsqu'un modèle a généré une réponse incorrecte, il exprimait quand même sa Confiance dans son raisonnement. Par exemple, certains modèles affirmaient que leur logique était solide ou qu'ils avaient correctement analysé le problème, même quand ce n'était clairement pas le cas.
Ce phénomène, connu sous le nom de "confabulation", se produit lorsque les modèles fournissent un raisonnement qui semble plausible mais est finalement erroné ou sans rapport. Cette qualité de fausse confiance et de raisonnement mal placé peut induire les utilisateurs en erreur en leur faisant croire que les modèles fonctionnent mieux qu'ils ne le font réellement.
Implications des Résultats
Les échecs observés soulèvent de sérieuses questions sur les capacités revendiquées des LLMs modernes. Bien que ces modèles soient classés hautement sur la base de divers tests standardisés, leur capacité à effectuer même des tâches de raisonnement simples est remise en question.
Le Rôle des Référentiels Standardisés
Beaucoup des modèles testés affichent des scores élevés sur des référentiels de raisonnement standardisés, suggérant qu'ils possèdent de fortes capacités de raisonnement. Cependant, la mauvaise performance sur le problème AIW indique que ces référentiels ne mesurent pas adéquatement les véritables compétences de raisonnement des modèles.
Ce décalage suggère que les tests standardisés peuvent ne pas couvrir tous les aspects du raisonnement. Il pourrait être bénéfique pour la communauté scientifique de réévaluer comment ces référentiels sont construits et ce qu'ils mesurent réellement.
Directions Futures
Étant donné les limites identifiées à travers le problème AIW, il est clair que les travaux futurs doivent se concentrer sur l'amélioration des capacités de raisonnement des modèles de langue.
Créer de Meilleurs Référentiels : Les futurs référentiels devraient incorporer des problèmes simples, quotidiens qui nécessitent du raisonnement de bon sens. Ces tâches devraient être conçues pour révéler des faiblesses dans les compétences de raisonnement qui pourraient autrement passer inaperçues.
Améliorer la Formation des Modèles : Il est nécessaire d'avoir des méthodes de formation qui mettent l'accent sur le raisonnement plutôt que sur la mémorisation par cœur des faits. Cela pourrait impliquer l'utilisation de jeux de données diversifiés qui encouragent les modèles à comprendre les relations et les connexions logiques entre les concepts.
Incorporer les Retours Utilisateurs : Les futures versions des LLMs pourraient bénéficier de mécanismes leur permettant d'apprendre des interactions avec les utilisateurs, surtout dans des conversations à plusieurs tours où ils doivent être invités à reconsidérer leurs réponses.
Conclusion
Les LLMs testés montrent une rupture significative dans le raisonnement lorsqu'ils sont confrontés à des problèmes simples. Leurs scores élevés sur les référentiels standardisés ne correspondent pas à leur capacité à résoudre des questions quotidiennes, mettant en évidence un domaine critique à améliorer. Alors que les avancées en IA continuent, comprendre les limites et les capacités de ces modèles sera essentiel pour exploiter leur plein potentiel et assurer leur déploiement sûr dans des applications réelles.
Titre: Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models
Résumé: Large Language Models (LLMs) are often described as being instances of foundation models - that is, models that transfer strongly across various tasks and conditions in few-show or zero-shot manner, while exhibiting scaling laws that predict function improvement when increasing the pre-training scale. These claims of excelling in different functions and tasks rely on measurements taken across various sets of standardized benchmarks showing high scores for such models. We demonstrate here a dramatic breakdown of function and reasoning capabilities of state-of-the-art models trained at the largest available scales which claim strong function, using a simple, short, conventional common sense problem (AIW problem) formulated in concise natural language, easily solvable by humans. The breakdown is dramatic, as models show strong fluctuations across even slight problem variations that should not affect problem solving, also expressing strong overconfidence in the wrong solutions, often backed up by plausible sounding explanation-like confabulations. Various standard interventions in an attempt to get the right solution, like various type of enhanced prompting, or urging the models to reconsider the wrong solutions again by multi step re-evaluation, fail. We take these initial observations to the scientific and technological community to stimulate urgent re-assessment of the claimed capabilities of current generation of LLMs. Such re-assessment also requires common action to create standardized benchmarks that would allow proper detection of such basic reasoning deficits that obviously manage to remain undiscovered by current state-of-the-art evaluation procedures and benchmarks. Code for reproducing experiments in the paper and raw experiments data can be found at https://github.com/LAION-AI/AIW
Auteurs: Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti, Jenia Jitsev
Dernière mise à jour: 2024-07-13 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.02061
Source PDF: https://arxiv.org/pdf/2406.02061
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/LAION-AI/AIW
- https://github.com/LAION-AI/AIW/README.md
- https://aiguide.substack.com/p/can-large-language-models-reason
- https://www.science.org/doi/10.1126/science.adj5957
- https://arxiv.org/abs/2310.01798
- https://arxiv.org/abs/2203.11171
- https://arxiv.org/pdf/2205.11916.pdf
- https://openreview.net/forum?id=IkmD3fKBPQ
- https://arxiv.org/abs/2403.02615v1
- https://arxiv.org/abs/2402.12348v1
- https://arxiv.org/abs/2402.08939
- https://arxiv.org/abs/2402.03686v1
- https://arxiv.org/abs/2404.14963v2
- https://github.com/atfortes/Awesome-LLM-Reasoning
- https://arxiv.org/abs/2304.13007
- https://arxiv.org/abs/2312.10003
- https://discord.gg/BZqhreFazY
- https://discord.gg/GsKh4mBVcv
- https://github.com/LAION-AI/AIW/tree/main/collected_responses
- https://github.com/LAION-AI/AIW/tree/main/collected_responses/multi_turn_conversation.json