Une nouvelle approche pour le raisonnement dans les modèles de langage
Présentation d'un cadre pour améliorer l'efficacité et la précision dans le raisonnement des modèles de langage.
― 6 min lire
Table des matières
Les modèles de langage avancés (LLMs) sont des outils qui peuvent faire plein de trucs, comme écrire, répondre à des questions et résoudre des problèmes. Ils ont montré des capacités impressionnantes dans plein de domaines mais ont encore du mal avec des tâches de raisonnement complexes. Les approches précédentes pour améliorer leur précision ignoraient souvent les coûts croissants liés à l'utilisation de ces modèles, surtout dans des situations réelles qui nécessitent des solutions ouvertes.
Pour régler ce problème, on propose une nouvelle approche appelée le cadre Default-Interventionist (DefInt). Ce cadre combine deux façons de réfléchir que les humains utilisent : des réponses rapides et intuitives et un raisonnement plus lent et réfléchi. L'idée est d'utiliser efficacement de plus petits modèles de langage pour des réponses rapides tout en faisant appel à de plus grands modèles plus puissants quand de la réflexion plus profonde est nécessaire.
La théorie du double processus
La pensée humaine peut être divisée en deux systèmes. Le premier système (Système 1) fonctionne rapidement et de manière intuitive. Il est bon pour faire des jugements rapides basés sur des expériences passées. Bien que ce système soit souvent précis, il peut mener à des erreurs sans réflexion approfondie. Le deuxième système (Système 2) est plus lent et plus délibéré. Il offre des processus de pensée en profondeur et peut corriger les erreurs commises par le premier système.
DefInt vise à rassembler ces deux systèmes pour créer un processus de raisonnement plus efficace pour les LLMs. En utilisant des modèles plus petits pour des réponses rapides et des modèles plus grands pour la réflexion, on peut améliorer à la fois la précision et l'efficacité du raisonnement.
Le cadre Default-Interventionist
DefInt fonctionne en utilisant d'abord de plus petits modèles de langage pour générer des réponses rapides et peu coûteuses. Si ces réponses semblent incertaines, le cadre fait appel à des modèles plus grands pour des Interventions plus réfléchies. Ce processus aide à maintenir un raisonnement de haute qualité tout en réduisant le coût d'utilisation de modèles puissants.
Comment ça marche
Réponses par défaut : Le système commence avec des modèles plus petits pour produire des réponses rapides. Ces modèles sont moins chers à utiliser et peuvent générer des pensées variées en fonction de leur formation.
Vérification de confiance : Un évaluateur indépendant vérifie le niveau de confiance des réponses rapides. Si la confiance est basse, le système switch vers un modèle plus grand pour un examen plus approfondi.
Intervention : Le modèle plus grand réfléchit sur les premières pensées et peut les remplacer si nécessaire. Ça garantit que le raisonnement reste précis et de qualité.
Suivi régulier : Le cadre active régulièrement le modèle plus grand pour s'assurer que le raisonnement reste sur la bonne voie. Cela adapte le processus pour maintenir la qualité.
Avantages de DefInt
Efficacité des coûts : En utilisant des modèles plus petits pour la plupart des raisonnements, DefInt réduit considérablement les coûts liés à l'utilisation de modèles plus grands.
Diversité des solutions : Le cadre utilise plusieurs modèles plus petits, augmentant la variété des réponses générées. Ça s'avère super utile pour des tâches ouvertes qui requièrent des solutions créatives.
Performance compétitive : Même s'il s'appuie sur des réponses rapides au début, le cadre permet des interventions en temps utile qui peuvent corriger des erreurs et améliorer la qualité générale du raisonnement.
Résultats expérimentaux
On a testé DefInt sur plusieurs tâches de raisonnement pour mesurer son efficacité. Ça inclut des tâches close-ended, qui ont des réponses spécifiques, et des tâches open-ended, qui invitent à des solutions créatives. Les résultats montrent que DefInt a systématiquement mieux performé que les méthodes traditionnelles, en termes de précision et de coût.
Tâches close-ended : Dans des tâches où les réponses sont connues, DefInt a produit les résultats les plus précis tout en utilisant moins de ressources par rapport à d'autres méthodes.
Tâches open-ended : Pour les tâches qui encouragent la créativité, DefInt a non seulement maintenu la précision mais a aussi offert un plus large éventail de solutions, bénéficiant des pensées initiales variées générées par des modèles plus petits.
Comparaison avec les méthodes traditionnelles
D'autres méthodes courantes pour le raisonnement LLM se sont surtout concentrées sur l'amélioration de la précision, souvent au détriment de l'efficacité. Des techniques comme Chain-of-Thought (CoT) guident les LLMs à réfléchir étape par étape mais peuvent être coûteuses en ressources. Tree-of-Thoughts (ToT) permet d'explorer plusieurs chemins de raisonnement mais nécessite aussi beaucoup de ressources.
En revanche, DefInt trouve un équilibre entre performance et utilisation des ressources. En combinant efficacement des réponses rapides et intuitives avec une réflexion soignée lorsque c'est nécessaire, le cadre permet des processus de raisonnement plus fluides et plus rentables.
Perspectives et travaux futurs
Les résultats de l'utilisation de DefInt suggèrent qu'une combinaison efficace de différents processus de raisonnement peut mener à des améliorations significatives en performance. Comprendre comment et quand intervenir avec des modèles plus grands peut améliorer l'efficacité globale des LLMs.
Les travaux futurs se concentreront sur le perfectionnement de cette approche et son test sur des problèmes plus complexes. L'intégration des retours des utilisateurs et des applications réelles pourrait encore améliorer les capacités du cadre.
Conclusion
DefInt représente une avancée prometteuse pour améliorer les capacités de raisonnement des grands modèles de langage. En utilisant à la fois des réponses rapides et intuitives et une réflexion délibérée, ce cadre améliore non seulement la précision des tâches de raisonnement mais réduit aussi les coûts. Ça ouvre la voie à des applications plus larges des LLMs dans divers domaines, de l'éducation aux affaires, et fournit une méthode pour aborder efficacement et à moindre coût des défis de raisonnement complexes.
Titre: Synergy-of-Thoughts: Eliciting Efficient Reasoning in Hybrid Language Models
Résumé: Large language models (LLMs) have shown impressive emergent abilities in a wide range of tasks, but the associated expensive API cost greatly limits the real application. Previous works like chain-of-thought (CoT) and tree-of-thoughts (ToT) have predominately focused on enhancing accuracy, but overlook the rapidly increasing API cost, which could be particularly problematic for open-ended real-world tasks with huge solution spaces. Motivated by the dual process theory of human cognition, we propose "Synergy of Thoughts"(SoT) to unleash the synergistic potential of hybrid LLMs with different scales for efficient reasoning. By default, SoT uses smaller-scale language models to generate multiple low-cost intuitive thoughts, which resembles the parallel intuitions produced by System 1. We then design a confidence evaluator where the intuitive thoughts are cross-evaluated and introduce a controllable threshold mechanism to decide their mutual conflict. If these intuitive thoughts exhibit conflicts, SoT will invoke the reflective reasoning of scaled-up language models to emulate the intervention of System 2, which will override the intuitive thoughts and rectify the reasoning results. This framework is model-agnostic and training-free, which can be flexibly implemented with various off-the-shelf LLMs. Experiments on six representative reasoning tasks show that SoT substantially reduces the API cost by 38.3%-75.1%, and simultaneously achieves state-of-the-art reasoning accuracy and solution diversity. Notably, the average token cost reduction on open-ended tasks reaches up to 69.1%.
Auteurs: Yu Shang, Yu Li, Fengli Xu, Yong Li
Dernière mise à jour: 2024-08-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.02563
Source PDF: https://arxiv.org/pdf/2402.02563
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.