Améliorer les LLMs avec l'apprentissage augmenté par des outils
TP-LLaMA améliore la prise de décision en apprenant des succès et des échecs.
― 7 min lire
Table des matières
Ces dernières années, les grands modèles de langage (LLMs) ont montré de sacrées capacités en compréhension, génération et raisonnement. Mais ces modèles ont aussi des limites. Ils ont du mal à accéder à des infos en temps réel et parfois, ils galèrent avec des tâches précises. Pour régler ces soucis, les chercheurs ont commencé à booster les LLMs avec des outils qui leur permettent d’interagir avec des applis externes, généralement via des APIs. Ces LLMs augmentés par des outils peuvent aider les utilisateurs à réaliser une large gamme de tâches plus efficacement.
Le Développement des LLMs Aids par Outils
Les LLMs augmentés par des outils améliorent les performances des modèles traditionnels en leur permettant d’utiliser des outils externes pour diverses tâches. Cette interaction aide les LLMs à agir comme des intermédiaires efficaces, comblant le fossé entre les utilisateurs et des applications complexes. Les avancées récentes dans ce domaine ont donné naissance à des modèles capables de réaliser des tâches comme naviguer sur le web et raisonner de manière multimodale.
ToolLLaMA et Ses Limites
Un modèle important dans ce domaine est ToolLLaMA, qui utilise une méthode appelée recherche en profondeur basée sur un arbre de décision (DFSDT) pour raisonner avec des APIs du monde réel. Bien que ToolLLaMA montre de meilleures performances en planification et Prise de décision par rapport aux anciennes méthodes, il a une limitation notable. Il utilise seulement les chemins réussis des arbres de décision pour l’entraînement. Cette approche ignore les leçons précieuses tirées des tentatives échouées pendant le processus de raisonnement.
Un Nouveau Cadre pour l’Entraînement
Pour améliorer les lacunes des modèles existants, un nouveau cadre est proposé. Ce cadre vise à optimiser les trajectoires d’inférence, ce qui signifie améliorer le processus de prise de décision des LLMs en intégrant des insights des erreurs faites en chemin. En utilisant des données de préférence extraites des arbres de décision, le modèle peut tirer parti des tentatives réussies et échouées pour peaufiner son apprentissage et ses capacités de raisonnement.
Construction des Données de Préférence
La première étape dans ce processus est de construire un nouvel ensemble de données appelé ToolPreference. Cet ensemble de données se concentre sur la création de paires de préférences basées sur les actions entreprises pendant le raisonnement. Il prend en compte à la fois les chemins réussis et les échecs, permettant une compréhension plus complète de la manière d’optimiser les décisions futures.
La construction de l’ensemble de données ToolPreference implique deux méthodes clés : des paires d’échantillons de préférences par chemin et par étape. La méthode par chemin relie les chemins réussis et échoués à la fin des arbres de décision, tandis que la méthode par étape capture les différences entre chaque étape de raisonnement, fournissant des détails plus fins qui peuvent améliorer les compétences inférentielles du modèle.
Ajustement du Modèle
Après le développement de l’ensemble de données ToolPreference, la phase suivante implique un ajustement fin du LLM en utilisant cet ensemble de données enrichi. Le modèle subit d’abord un ajustement supervisé (SFT) avec des trajectoires réussies. Ensuite, un entraînement d’optimisation de préférences direct (DPO) est appliqué. Cette méthode permet au modèle d’aligner encore plus ses préférences de raisonnement avec les insights issus des tentatives réussies et échouées.
Évaluation du Nouveau Modèle
Pour évaluer l’efficacité de cette nouvelle approche, des expériences sont menées en utilisant divers scénarios de tâches. Les métriques d’évaluation incluent le taux de réussite et le taux de victoire. Le taux de réussite mesure la probabilité que le modèle fournisse une réponse correcte dans un nombre limité d’étapes, tandis que le taux de victoire quantifie à quelle fréquence les réponses du modèle sont préférées à celles d’autres modèles.
Résultats des Expériences
Les résultats indiquent que le nouveau modèle, connu sous le nom de ToolPrefer-LLaMA (TP-LLaMA), surpasse significativement les modèles précédents dans divers scénarios. TP-LLaMA affiche un taux de réussite et un taux de victoire plus élevés, démontrant de meilleures capacités de prise de décision et une plus grande adaptabilité à des outils et instructions non vus.
Efficacité et Généralisation
Un autre aspect important du nouveau modèle est son efficacité. Les expériences sur l’efficacité révèlent que TP-LLaMA nécessite moins d’étapes d’inférence pour arriver à des conclusions réussies par rapport aux modèles qui n’utilisaient que des trajectoires réussies pour l’entraînement. Cette amélioration de la vitesse de raisonnement peut être attribuée à la capacité du modèle à éviter des explorations inutiles lors de la prise de décision.
À travers des tests approfondis, TP-LLaMA montre aussi de fortes capacités de généralisation, lui permettant de gérer efficacement de nouveaux outils et instructions. C’est un avantage crucial, car cela permet au modèle de rester fiable dans un large éventail de situations.
Insights des Tentatives Échouées
Le concept d’apprendre des échecs est crucial dans ce cadre. Les modèles traditionnels peuvent considérer les échecs comme insignifiants, mais TP-LLaMA exploite ces expériences pour améliorer ses performances. En tenant compte de ce qui n’a pas fonctionné lors des tentatives précédentes, le modèle est mieux équipé pour prendre des décisions éclairées à l’avenir.
Cette approche s’aligne bien avec les principes d'apprentissage humains, car les gens ont souvent tendance à grandir grâce à leurs erreurs. La capacité du cadre à intégrer ces insights dans son processus d’entraînement marque un pas en avant significatif dans le développement des LLMs augmentés par des outils.
Conclusion
Dans l’ensemble, le cadre proposé d’optimisation des trajectoires d’inférence améliore significativement les capacités de raisonnement des LLMs augmentés par des outils. En élargissant l’espace d’apprentissage grâce à l’intégration des insights d’erreur et en utilisant un ensemble de Données de préférences complet, TP-LLaMA montre un potentiel pour améliorer la performance et l’efficacité. Les travaux futurs pourraient explorer de nouvelles avancées, y compris la transition potentielle d’une structure d’arbre de pensée à un graphe de pensée pour des capacités de raisonnement encore plus riches.
Alors que les chercheurs continuent de peaufiner ces modèles, les applications potentielles pour les LLMs augmentés par des outils sont vastes. Avec un meilleur accès à des infos en temps réel et de meilleures capacités de prise de décision, ces modèles pourraient servir de puissants outils dans divers domaines, du service client à l’analyse de données, ouvrant la voie à une nouvelle génération de systèmes intelligents.
Titre: Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees
Résumé: Tool-augmented large language models (LLMs) leverage tools, often in the form of APIs, to enhance their reasoning capabilities on complex tasks, thus taking on the role of intelligent agents interacting with the real world. The recently introduced ToolLLaMA model by Qin et al. [2024] utilizes the depth-first search-based decision tree (DFSDT) method for reasoning with $16000+$ real-world APIs, which effectively improves the planning and inferencing performance of tool-augmented LLMs compared to traditional chain reasoning approaches. However, their approach only employs successful paths from decision trees (also called inference trees) for supervised fine-tuning (SFT) during training, which does not fully exploit the advantages of the tree of thought. In this study, we propose an inference trajectory optimization framework based on the preference data extracted from decision trees to address this limitation. We first introduce a novel method for constructing preference data from the tree of thought, capitalizing on the failed explorations previously overlooked in the trees. Specifically, we generate an effective step-wise preference dataset, named ToolPreference, for tool use based on the ToolBench dataset. In the subsequent training phase, we first fine-tune the LLM with tool-usage expert trajectories and then use these step-wise preference pairs for direct preference optimization (DPO) to update the policy of the LLM, resulting in our ToolPrefer-LLaMA (TP-LLaMA) model. Our experiments demonstrate that by obtaining insights from errors in inference trees, TP-LLaMA significantly outperforms the baselines across almost all test scenarios by a large margin and exhibits better generalization capabilities with unseen APIs. At the same time, TP-LLaMA has also demonstrated superior reasoning efficiency compared to the baselines, making it more suitable for complex tool-usage reasoning tasks.
Auteurs: Sijia Chen, Yibo Wang, Yi-Feng Wu, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Lijun Zhang
Dernière mise à jour: 2024-06-11 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.07115
Source PDF: https://arxiv.org/pdf/2406.07115
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.