Améliorer les agents web avec des données auto-générées
Les modèles de langue améliorent les performances sur le web grâce à des techniques d'auto-amélioration.
― 7 min lire
Table des matières
- Défis dans l'entraînement des agents web
- Qu'est-ce que les grands modèles de langage ?
- Auto-amélioration dans les modèles de langage
- WebArena comme référence
- Exploration des techniques d'auto-amélioration
- Données synthétiques
- Évaluation de la performance
- Résultats de l'auto-amélioration
- Est-ce que l'auto-amélioration fonctionne ?
- Acquisition de nouvelles capacités
- Robustesse de la performance
- Qualité des trajectoires générées
- Auto-amélioration itérative
- Recherches connexes
- Conclusion
- Directions futures
- Remerciements
- Source originale
- Liens de référence
Les grands modèles de langage (LLMs) sont des outils puissants pour comprendre et générer du langage humain. Cependant, les utiliser comme agents web pour accomplir des tâches complexes peut être compliqué. Cet article parle de la manière dont ces modèles peuvent s'améliorer par eux-mêmes dans ces situations difficiles en générant leurs propres données d'entraînement et en apprenant de celles-ci.
Défis dans l'entraînement des agents web
Former des agents capables d'interagir avec des environnements web rencontre souvent plusieurs obstacles. Un des problèmes majeurs est le manque de données d'entraînement adaptées aux actions spécifiques nécessaires pour naviguer sur le web. Collecter des données pour des tâches qui nécessitent plusieurs étapes de prise de décision prend beaucoup de temps et peut coûter cher. De plus, évaluer la performance d'un agent peut être difficile car l'évaluation automatique des actions effectuées n'est pas simple.
Qu'est-ce que les grands modèles de langage ?
Les grands modèles de langage utilisent d'énormes quantités de données textuelles pour apprendre des motifs dans le langage. Cette connaissance leur permet de générer des réponses, de répondre à des questions et de résumer des informations. Bien qu'ils montrent du potentiel dans des tâches simples, ils ont souvent du mal avec des tâches qui nécessitent une série d'actions ou une compréhension profonde d'un contexte.
Auto-amélioration dans les modèles de langage
Des études récentes montrent que les LLMs peuvent améliorer leur performance au fil du temps. Une des façons dont ils le font est en utilisant leurs propres résultats pour créer de nouveaux exemples qui améliorent leur entraînement. Cette méthode, appelée auto-amélioration, les aide à s'adapter à de nouvelles tâches sans avoir besoin de plus de données d'entraînement supervisées.
WebArena comme référence
WebArena est une référence utilisée pour tester les capacités des agents LLM dans des environnements web réalistes. Dans ce cadre, les agents doivent accomplir des tâches en interagissant directement avec des pages web. Par exemple, un agent pourrait devoir déterminer le temps de trajet entre deux endroits en utilisant une carte en ligne. Pour réussir ces tâches, les agents doivent effectuer une série d'actions, souvent appelées une trajectoire.
Exploration des techniques d'auto-amélioration
On explore à quel point les LLMs peuvent être efficaces pour améliorer leur performance dans des tâches web longues et complexes. En ajustant ces modèles sur des Données synthétiques générées à partir de leurs propres résultats, on obtient des améliorations significatives des taux d'accomplissement des tâches.
Données synthétiques
Les données synthétiques se réfèrent à des exemples créés par les modèles eux-mêmes. Ces données peuvent servir de matériel d'entraînement de haute qualité pour améliorer encore la performance. On se concentre sur la collecte de deux types de données synthétiques : des exemples dans le domaine et hors domaine.
Données synthétiques dans le domaine
Les données dans le domaine sont générées à partir de tâches que le modèle a déjà rencontrées. Par exemple, si le modèle essaie de répondre à des questions sur les temps de trajet et génère un certain nombre d'actions plausibles, ces actions peuvent être filtrées pour la qualité et utilisées pour un entraînement supplémentaire.
Données synthétiques hors domaine
Les données hors domaine sont complètement nouvelles et différentes de ce que le modèle a vu auparavant. En demandant au modèle de créer des tâches et des solutions complètement nouvelles, on peut élargir ses capacités au-delà de son champ d'entraînement initial.
Évaluation de la performance
Évaluer comment ces agents performent est crucial. On introduit plusieurs indicateurs pour évaluer leur efficacité, leur robustesse et la qualité globale de leurs actions. En particulier, on se penche sur deux nouveaux indicateurs : les scores de capacité et une version modifiée du score VERTEX pour suivre la qualité des séquences d'actions.
Résultats de l'auto-amélioration
Est-ce que l'auto-amélioration fonctionne ?
Grâce à nos expériences, on constate que le réglage sur des ensembles de données synthétiques peut effectivement améliorer la performance de manière significative. Le modèle ayant la meilleure performance, qui a utilisé une combinaison d'exemples dans le domaine et hors domaine, a montré une augmentation de 31 % des tâches complétées avec succès.
Acquisition de nouvelles capacités
Nos résultats montrent que l'auto-amélioration permet aux agents d'acquérir de nouvelles capacités tout en conservant celles qu'ils avaient déjà. Cependant, certaines capacités peuvent être perdues dans le processus. Globalement, les agents que nous avons testés ont gagné plus d'aptitudes qu'ils n'en ont perdues, ce qui indique un résultat positif net.
Robustesse de la performance
La robustesse se réfère à la capacité d'un agent à performer de manière cohérente dans différents scénarios. Dans nos résultats, nous avons constaté que les modèles auto-améliorés affichaient une plus grande cohérence dans l'accomplissement des tâches par rapport à leurs versions de base. Cette cohérence peut être cruciale pour des applications dans la vie réelle où la fiabilité est essentielle.
Qualité des trajectoires générées
Un aspect important de la performance est la qualité et la longueur des séquences d'actions générées par les agents. Nos analyses suggèrent que, bien que l'auto-amélioration puisse aider à la performance, elle peut aussi conduire à des séquences d'actions plus longues et à un nombre accru d'actions non valides dans certains cas. Équilibrer la complexité et la qualité de ces actions est essentiel pour des interactions web efficaces.
Auto-amélioration itérative
On a également exploré si faire de l'auto-amélioration plusieurs fois entraîne encore plus d'avantages. Bien que nous ayons observé quelques gains lors d'un deuxième tour de réglage, les améliorations étaient moins significatives que lors du premier tour. Cela indique que, bien que l'auto-amélioration soit bénéfique, il y a des rendements décroissants lorsqu'elle est appliquée plusieurs fois.
Recherches connexes
L'auto-amélioration dans les LLMs est un domaine d'intérêt croissant. Différentes techniques sont explorées, y compris l'utilisation des propres résultats des modèles pour un entraînement supplémentaire. D'autres recherches se sont concentrées sur des stratégies de demande qui peuvent améliorer la performance dans des tâches spécifiques.
Conclusion
En résumé, notre travail démontre que les grands modèles de langage peuvent s'auto-améliorer dans le cadre de tâches web longues et complexes. Grâce à l'utilisation de données d'entraînement synthétiques, ces modèles non seulement améliorent leur performance mais acquièrent aussi de nouvelles capacités avec une dégradation minimale de la qualité des actions. Cette approche a le potentiel d'élever considérablement l'efficacité des LLMs dans des environnements dynamiques et complexes. À mesure que ces modèles continuent d'évoluer, ils peuvent devenir de plus en plus habiles à naviguer dans les défis des interactions web dans le monde réel.
Directions futures
Les travaux futurs pourraient se concentrer sur le perfectionnement des indicateurs d'évaluation des Performances des agents et sur l'exploration d'un éventail plus large de tâches web. De plus, l'intégration d'évaluations humaines dans le processus pourrait améliorer la fiabilité de nos résultats. L'objectif ultime est de développer des agents linguistiques robustes capables de gérer une grande variété de tâches avec aisance et efficacité.
Remerciements
On aimerait remercier les financements et le soutien reçus de diverses organisations et institutions qui ont contribué à cette recherche. Leurs ressources ont été inestimables pour mener à bien nos expériences et analyses.
Titre: Large Language Models Can Self-Improve At Web Agent Tasks
Résumé: Training models to act as agents that can effectively navigate and perform actions in a complex environment, such as a web browser, has typically been challenging due to lack of training data. Large language models (LLMs) have recently demonstrated some capability to navigate novel environments as agents in a zero-shot or few-shot fashion, purely guided by natural language instructions as prompts. Recent research has also demonstrated LLMs have the capability to exceed their base performance through self-improvement, i.e. fine-tuning on data generated by the model itself. In this work, we explore the extent to which LLMs can self-improve their performance as agents in long-horizon tasks in a complex environment using the WebArena benchmark. In WebArena, an agent must autonomously navigate and perform actions on web pages to achieve a specified objective. We explore fine-tuning on three distinct synthetic training data mixtures and achieve a 31\% improvement in task completion rate over the base model on the WebArena benchmark through a self-improvement procedure. We additionally contribute novel evaluation metrics for assessing the performance, robustness, capabilities, and quality of trajectories of our fine-tuned agent models to a greater degree than simple, aggregate-level benchmark scores currently used to measure self-improvement.
Auteurs: Ajay Patel, Markus Hofmarcher, Claudiu Leoveanu-Condrei, Marius-Constantin Dinu, Chris Callison-Burch, Sepp Hochreiter
Dernière mise à jour: 2024-10-01 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.20309
Source PDF: https://arxiv.org/pdf/2405.20309
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://chat.lmsys.org/?leaderboard
- https://nips.cc/public/guides/CodeSubmissionPolicy
- https://neurips.cc/public/EthicsGuidelines
- https://tex.stackexchange.com/a/122329
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://store.economist.com/
- https://www.chilis.com/
- https://www.couponcabin.com/
- https://www.grammarly.com/
- https://www.grammarly.com/plans