REBEL : Faire progresser le raisonnement dans les modèles de langage
REBEL améliore les tâches de raisonnement complexe avec des outils externes et des méthodes récursives.
― 4 min lire
Table des matières
Les grands modèles de langage (LLMs) s'en sortent bien pour répondre aux questions. Mais ils galèrent un peu avec les questions qui demandent des connaissances qui ne figurent pas dans leurs données d'apprentissage. Ces connaissances, elles ne peuvent venir que de l'observation ou de l'interaction avec le monde réel. Les méthodes actuelles décomposent les tâches de raisonnement en plusieurs étapes, mais ça peut limiter leur capacité à résoudre des problèmes complexes.
On présente une méthode appelée REBEL (Recursion Based Extensible LLM). REBEL est conçu pour gérer des tâches de raisonnement complexes grâce à des techniques comme la planification dynamique. Ça permet aux LLMs de raisonner en décomposant les problèmes et en utilisant des outils externes. Ces outils peuvent être décrits en langage courant, ce qui rend facile de spécifier ce qui est nécessaire.
Travaux Connexes
Il y a différentes manières d'aborder les tâches de raisonnement avec des LLMs. Ça peut impliquer la création de prompts ou l'ajustement du modèle. Ici, on se concentre sur les techniques de prompts. Une méthode courante est le chaînage avant, qui utilise des règles logiques à partir de faits connus pour arriver à une réponse.
Certains systèmes vont plus loin, générant des actions spécifiques basées sur des étapes de raisonnement. Une autre approche collecte des infos à partir de divers outils pour répondre aux questions. Il existe plusieurs méthodes pour vérifier comment un modèle peut répondre à des questions avec une structure complexe. Des travaux antérieurs ont montré comment décomposer les problèmes aide au raisonnement.
L'Algorithme REBEL
L'algorithme REBEL fonctionne en décomposant les questions en parties plus petites jusqu'à ce qu'il n'y ait plus de parties à créer. Chaque question et sa réponse est appelée un tuple. Par exemple, un utilisateur peut poser une question qui mène à des sous-questions plus petites. L'algorithme traite chacune de ces sous-questions de manière récursive.
Pour éviter les boucles infinies, l'algorithme garde une trace des parties déjà vérifiées et enlève celles qui sont trop similaires aux réponses existantes. REBEL garde aussi une liste d'outils disponibles, ce qui aide à décider de la meilleure façon de répondre à une question.
Étapes Clés de REBEL
- Décomposition de la Question : Cette étape divise une question en parties plus petites selon ce qu'un LLM génère.
- Vérification de Mémoire : On vérifie si la question peut être répondue sans utiliser d'outils.
- Sélection de l'Outil : Le LLM décide quel outil sera le meilleur pour répondre.
- Utilisation de l'Outil : L'outil sélectionné est appelé pour obtenir une réponse, et cette réponse est utilisée pour la sortie finale.
Configuration Expérimentale
Le système REBEL a été testé sur trois ensembles de données : Compositional Celebrities, FEVER, et HotPotQA. Le but était de voir à quel point REBEL répondait bien aux questions par rapport à d'autres systèmes. On a vérifié si les réponses étaient correctes en les comparant à un standard défini.
Résultats
REBEL a montré de meilleures performances que les systèmes existants pour répondre à des questions complexes nécessitant plusieurs faits. Dans l'ensemble de données Compositional Celebrities, REBEL a amélioré les méthodes antérieures de façon notable. Cependant, dans l'ensemble de données HotPotQA, REBEL a rencontré des défis avec des questions plus complexes qui demandaient des étapes de raisonnement plus approfondies.
Pour l'ensemble de données FEVER, REBEL a légèrement mieux performé que les autres systèmes dans la vérification des faits. Ça vient du fait que REBEL collecte beaucoup de faits pendant son traitement.
Conclusion
REBEL introduit une nouvelle façon de raisonner en utilisant des approches récursives et des outils externes. Il montre du potentiel pour répondre à des questions qui nécessitent de combiner de nombreux faits et de faire des requêtes précises. Mais il a aussi des limites pour les questions plus simples.
Les futurs travaux peuvent se concentrer sur l'amélioration des LLMs à chaque étape de REBEL et tester des moyens de contrôler à quel point la décomposition des questions va en profondeur.
Titre: LLM Guided Inductive Inference for Solving Compositional Problems
Résumé: While large language models (LLMs) have demonstrated impressive performance in question-answering tasks, their performance is limited when the questions require knowledge that is not included in the model's training data and can only be acquired through direct observation or interaction with the real world. Existing methods decompose reasoning tasks through the use of modules invoked sequentially, limiting their ability to answer deep reasoning tasks. We introduce a method, Recursion based extensible LLM (REBEL), which handles open-world, deep reasoning tasks by employing automated reasoning techniques like dynamic planning and forward-chaining strategies. REBEL allows LLMs to reason via recursive problem decomposition and utilization of external tools. The tools that REBEL uses are specified only by natural language description. We further demonstrate REBEL capabilities on a set of problems that require a deeply nested use of external tools in a compositional and conversational setting.
Auteurs: Abhigya Sodani, Lauren Moos, Matthew Mirman
Dernière mise à jour: 2023-09-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.11688
Source PDF: https://arxiv.org/pdf/2309.11688
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.