Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle# Calcul et langage# Apprentissage automatique

Nouveau cadre améliore la formation des agents linguistiques

Un nouveau cadre améliore la façon dont les agents linguistiques apprennent et accomplissent des tâches.

― 8 min lire


Améliorer les compétencesAméliorer les compétencesdes agents linguistiquesd'intervention humaine.agents linguistiques avec moinsLe cadre booste l'apprentissage des
Table des matières

Les agents linguistiques, qui sont des programmes conçus pour interagir avec les utilisateurs en utilisant le langage naturel, ont amélioré leur capacité à prendre des décisions par eux-mêmes. Cette avancée vient de l'utilisation de grands modèles de langage qui peuvent raisonner et effectuer des tâches basées sur les informations qu'ils reçoivent. Récemment, les chercheurs se sont concentrés sur l'enseignement à ces agents pour améliorer leur performance en utilisant un raisonnement multi-étapes et en suivant leurs actions pendant qu'ils résolvent des problèmes. Cependant, rassembler ces informations nécessite généralement beaucoup d'efforts, soit par le biais de l'intervention humaine, soit par des techniques de prompting complexes.

Pour résoudre ce problème, un nouveau cadre appelé AT a été introduit pour permettre aux agents linguistiques d'annoter de manière autonome leurs chemins d'action, similaire à une méthode appelée ReAct. Le composant principal de ce cadre est un agent appelé ActRe. Cet agent fournit des raisons pour les actions prises par les agents linguistiques, les aidant à construire un registre de leurs décisions. En échantillonnant des actions et en obtenant des explications pour celles-ci d'ActRe, les agents linguistiques peuvent créer des Trajectoires qui les aideront à apprendre de leurs efforts passés.

Le besoin d'un entraînement efficace

La collecte de données d'entraînement pour les agents linguistiques se fait souvent de deux manières principales : en utilisant des démonstrations humaines ou en déployant des systèmes spécialisés qui agissent dans un contexte linguistique. Malheureusement, ces deux méthodes nécessitent un effort humain considérable et ne sont pas très évolutives. C'est là que le cadre AT entre en jeu, visant à créer un processus plus efficace.

Des modèles de langage de plus en plus puissants ont conduit à des mises en œuvre réussies des agents linguistiques dans diverses tâches. Ces agents peuvent comprendre et agir en fonction de leur environnement, montrant des résultats impressionnants. Cependant, les méthodes de collecte des données d'actions multi-étapes nécessaires pour entraîner ces agents dépendent encore fortement de l'intervention humaine ou de configurations complexes.

Le cadre AT

Le cadre AT permet aux agents linguistiques de rassembler des informations sur leurs actions sans beaucoup d'aide humaine. Le cadre utilise l'agent ActRe pour expliquer les raisons derrière les actions de l'agent linguistique principal, ce qui est dans le style ReAct. Quand un agent essaie une nouvelle action, il peut demander à ActRe le raisonnement derrière cette action. Ce processus permet de créer de nouveaux chemins d'action qui incluent le raisonnement, pouvant ensuite être utilisés pour l'entraînement.

L'objectif de l'utilisation d'AT est de créer une manière structurée pour que les agents linguistiques s'améliorent à travers un auto-entraînement contrastif. Dans ce processus, les agents apprennent à la fois de leurs actions réussies et de celles qui ne l'étaient pas, leur permettant d'affiner leur prise de décision au fil du temps.

Entraînement et amélioration

Le cadre AT a été testé dans des environnements simulés comme AlfWorld et WebShop, où les agents linguistiques doivent accomplir des tâches nécessitant un raisonnement multi-étapes. Dans ces environnements, les agents linguistiques entraînés avec AT ont pu atteindre des taux de succès impressionnants, souvent en égalant ou en dépassant la performance humaine.

L'entraînement implique plusieurs rounds où les agents rassemblent des informations et apprennent de leurs succès et échecs. Le processus commence par un entraînement initial, souvent réalisé par des moyens traditionnels, mais ensuite passe à une approche plus autonome. Les agents collectent leurs propres données, qui sont ensuite utilisées pour affiner leurs capacités grâce à des techniques d'entraînement contrastif, leur permettant de saisir les nuances de l'accomplissement des tâches au-delà de la performance basique.

Autonomie dans l'annotation des trajectoires

Un aspect clé du cadre AT est de permettre aux agents d'annoter de manière autonome leurs trajectoires. Cela est réalisé grâce à l'agent de prompting ActRe, qui fournit des raisons pour les actions de l'agent. Quand un agent prend une action qui diffère de ce qu'il pensait au départ être la meilleure, il peut consulter l'agent ActRe pour comprendre pourquoi cette action pourrait être valide.

Cette méthode automatise le processus normal de modification du raisonnement dans les chemins d'action habituellement dirigé par des humains. Avec ActRe, les agents linguistiques peuvent compiler un plus large éventail de chemins d'action sans avoir besoin de s'appuyer sur des données générées par des humains. Cette innovation permet la création de trajectoires plus diversifiées, menant à de meilleurs résultats d'apprentissage.

Processus d'auto-entraînement contrastif

Dans le processus d'auto-entraînement, les agents linguistiques sont enseignés à évaluer leurs actions en comparant des trajectoires réussies et non réussies. Le cadre AT utilise des méthodes de gradient de politique avec des structures de récompense spécifiques pour affiner les capacités de prise de décision des agents. Au lieu des méthodes de fine-tuning supervisé traditionnelles, les agents apprennent à partir de leurs propres expériences, utilisant les succès et échecs accumulés pour améliorer leur performance.

Le processus consiste à rassembler des données, les analyser, puis utiliser cette information pour modifier les comportements futurs. En se concentrant sur leurs succès et leurs échecs, les agents peuvent progressivement améliorer leurs compétences en prise de décision. Cette méthode permet un apprentissage et une adaptation continus sans intervention humaine constante.

Expérimentation et résultats

Des tests expérimentaux sur des plateformes comme AlfWorld et WebShop ont montré que le cadre AT améliore considérablement les capacités des agents linguistiques. Dans AlfWorld, les agents entraînés sous ce cadre ont obtenu un taux de succès élevé, tandis que dans WebShop, ils ont égalé les performances humaines. Le processus de raffinement itératif a conduit à d'autres améliorations, indiquant que le cadre construit efficacement sur les connaissances précédentes pour améliorer l'accomplissement futur des tâches.

Les résultats montrent que le cadre AT surpasse de nombreuses techniques existantes, y compris les cadres de prompting traditionnels et les modèles de langage entièrement fine-tunés. En permettant aux agents d'apprendre de manière autonome à partir de leurs expériences, AT offre un avantage clair dans l'entraînement des agents linguistiques pour des tâches de prise de décision complexes.

Défis dans la mise en œuvre

Bien que le cadre AT montre des promesses, des défis demeurent. Rassembler des chemins d'action divers peut être délicat, et il y a toujours le risque de produire des données de mauvaise qualité. Il est également essentiel de s'assurer que les agents ne deviennent pas trop dépendants de prompts ou de méthodes de raisonnement spécifiques, car cela pourrait limiter leur capacité d'adaptation globale.

De plus, le besoin d'améliorations continues signifie que le cadre nécessitera des mises à jour et ajustements réguliers en fonction de la performance des agents dans des tâches réelles. À mesure que les agents deviennent plus capables, les méthodes utilisées pour les entraîner devront également évoluer.

Directions futures

Le développement continu du cadre AT ouvre la voie à un futur où les agents linguistiques peuvent atteindre des niveaux plus élevés d'autonomie et d'efficacité. En exploitant la puissance des grands modèles de langage et en améliorant leurs processus d'entraînement, les chercheurs peuvent créer des systèmes qui non seulement accomplissent des tâches, mais qui s'améliorent aussi de manière spectaculaire au fil du temps.

Incorporer des techniques plus sophistiquées, comme des méthodes d'apprentissage par renforcement ou des mécanismes de feedback complexes, pourrait encore améliorer les capacités des agents linguistiques. Il y a aussi un potentiel à explorer comment ces agents autonomes peuvent interagir avec des applications réelles dans les affaires, l'éducation et d'autres domaines.

Conclusion

Le cadre AT représente un pas en avant significatif dans l'entraînement et la capacité des agents linguistiques. En permettant l'annotation autonome des trajectoires et en tirant parti de l'auto-entraînement contrastif, le cadre permet aux agents d'apprendre de leurs succès et échecs avec un minimum de supervision humaine. Cette approche conduit à de meilleures performances et des processus de collecte de données plus efficaces, en faisant un outil précieux dans le développement de futurs systèmes autonomes. À mesure que la recherche continue, les capacités des agents linguistiques sont susceptibles de s'étendre encore davantage, ouvrant la voie à des systèmes plus intelligents et adaptables.

Source originale

Titre: ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy

Résumé: Language agents have demonstrated autonomous decision-making abilities by reasoning with foundation models. Recently, efforts have been made to train language agents for performance improvement, with multi-step reasoning and action trajectories as the training data. However, collecting such trajectories still requires considerable human effort, by either artificial annotation or implementations of diverse prompting frameworks. In this work, we propose A$^3$T, a framework that enables the Autonomous Annotation of Agent Trajectories in the style of ReAct. The central role is an ActRe prompting agent, which explains the reason for an arbitrary action. When randomly sampling an external action, the ReAct-style agent could query the ActRe agent with the action to obtain its textual rationales. Novel trajectories are then synthesized by prepending the posterior reasoning from ActRe to the sampled action. In this way, the ReAct-style agent executes multiple trajectories for the failed tasks, and selects the successful ones to supplement its failed trajectory for contrastive self-training. Realized by policy gradient methods with binarized rewards, the contrastive self-training with accumulated trajectories facilitates a closed loop for multiple rounds of language agent self-improvement. We conduct experiments using QLoRA fine-tuning with the open-sourced Mistral-7B-Instruct-v0.2. In AlfWorld, the agent trained with A$^3$T obtains a 1-shot success rate of 96%, and 100% success with 4 iterative rounds. In WebShop, the 1-shot performance of the A$^3$T agent matches human average, and 4 rounds of iterative refinement lead to the performance approaching human experts. A$^3$T agents significantly outperform existing techniques, including prompting with GPT-4, advanced agent frameworks, and fully fine-tuned LLMs.

Auteurs: Zonghan Yang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu

Dernière mise à jour: 2024-04-01 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2403.14589

Source PDF: https://arxiv.org/pdf/2403.14589

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires