Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Intelligence artificielle# Calcul et langage

Améliorer les agents web avec des données auto-générées

Les modèles de langue améliorent les performances sur le web grâce à des techniques d'auto-amélioration.

― 7 min lire


Les agents webLes agents webs'améliorentefficacement.synthétiques.capacités en utilisant des donnéesLes modèles de langue améliorent leurs
Table des matières

Les grands modèles de langage (LLMs) sont des outils puissants pour comprendre et générer du langage humain. Cependant, les utiliser comme agents web pour accomplir des tâches complexes peut être compliqué. Cet article parle de la manière dont ces modèles peuvent s'améliorer par eux-mêmes dans ces situations difficiles en générant leurs propres données d'entraînement et en apprenant de celles-ci.

Défis dans l'entraînement des agents web

Former des agents capables d'interagir avec des environnements web rencontre souvent plusieurs obstacles. Un des problèmes majeurs est le manque de données d'entraînement adaptées aux actions spécifiques nécessaires pour naviguer sur le web. Collecter des données pour des tâches qui nécessitent plusieurs étapes de prise de décision prend beaucoup de temps et peut coûter cher. De plus, évaluer la performance d'un agent peut être difficile car l'évaluation automatique des actions effectuées n'est pas simple.

Qu'est-ce que les grands modèles de langage ?

Les grands modèles de langage utilisent d'énormes quantités de données textuelles pour apprendre des motifs dans le langage. Cette connaissance leur permet de générer des réponses, de répondre à des questions et de résumer des informations. Bien qu'ils montrent du potentiel dans des tâches simples, ils ont souvent du mal avec des tâches qui nécessitent une série d'actions ou une compréhension profonde d'un contexte.

Auto-amélioration dans les modèles de langage

Des études récentes montrent que les LLMs peuvent améliorer leur performance au fil du temps. Une des façons dont ils le font est en utilisant leurs propres résultats pour créer de nouveaux exemples qui améliorent leur entraînement. Cette méthode, appelée auto-amélioration, les aide à s'adapter à de nouvelles tâches sans avoir besoin de plus de données d'entraînement supervisées.

WebArena comme référence

WebArena est une référence utilisée pour tester les capacités des agents LLM dans des environnements web réalistes. Dans ce cadre, les agents doivent accomplir des tâches en interagissant directement avec des pages web. Par exemple, un agent pourrait devoir déterminer le temps de trajet entre deux endroits en utilisant une carte en ligne. Pour réussir ces tâches, les agents doivent effectuer une série d'actions, souvent appelées une trajectoire.

Exploration des techniques d'auto-amélioration

On explore à quel point les LLMs peuvent être efficaces pour améliorer leur performance dans des tâches web longues et complexes. En ajustant ces modèles sur des Données synthétiques générées à partir de leurs propres résultats, on obtient des améliorations significatives des taux d'accomplissement des tâches.

Données synthétiques

Les données synthétiques se réfèrent à des exemples créés par les modèles eux-mêmes. Ces données peuvent servir de matériel d'entraînement de haute qualité pour améliorer encore la performance. On se concentre sur la collecte de deux types de données synthétiques : des exemples dans le domaine et hors domaine.

Données synthétiques dans le domaine

Les données dans le domaine sont générées à partir de tâches que le modèle a déjà rencontrées. Par exemple, si le modèle essaie de répondre à des questions sur les temps de trajet et génère un certain nombre d'actions plausibles, ces actions peuvent être filtrées pour la qualité et utilisées pour un entraînement supplémentaire.

Données synthétiques hors domaine

Les données hors domaine sont complètement nouvelles et différentes de ce que le modèle a vu auparavant. En demandant au modèle de créer des tâches et des solutions complètement nouvelles, on peut élargir ses capacités au-delà de son champ d'entraînement initial.

Évaluation de la performance

Évaluer comment ces agents performent est crucial. On introduit plusieurs indicateurs pour évaluer leur efficacité, leur robustesse et la qualité globale de leurs actions. En particulier, on se penche sur deux nouveaux indicateurs : les scores de capacité et une version modifiée du score VERTEX pour suivre la qualité des séquences d'actions.

Résultats de l'auto-amélioration

Est-ce que l'auto-amélioration fonctionne ?

Grâce à nos expériences, on constate que le réglage sur des ensembles de données synthétiques peut effectivement améliorer la performance de manière significative. Le modèle ayant la meilleure performance, qui a utilisé une combinaison d'exemples dans le domaine et hors domaine, a montré une augmentation de 31 % des tâches complétées avec succès.

Acquisition de nouvelles capacités

Nos résultats montrent que l'auto-amélioration permet aux agents d'acquérir de nouvelles capacités tout en conservant celles qu'ils avaient déjà. Cependant, certaines capacités peuvent être perdues dans le processus. Globalement, les agents que nous avons testés ont gagné plus d'aptitudes qu'ils n'en ont perdues, ce qui indique un résultat positif net.

Robustesse de la performance

La robustesse se réfère à la capacité d'un agent à performer de manière cohérente dans différents scénarios. Dans nos résultats, nous avons constaté que les modèles auto-améliorés affichaient une plus grande cohérence dans l'accomplissement des tâches par rapport à leurs versions de base. Cette cohérence peut être cruciale pour des applications dans la vie réelle où la fiabilité est essentielle.

Qualité des trajectoires générées

Un aspect important de la performance est la qualité et la longueur des séquences d'actions générées par les agents. Nos analyses suggèrent que, bien que l'auto-amélioration puisse aider à la performance, elle peut aussi conduire à des séquences d'actions plus longues et à un nombre accru d'actions non valides dans certains cas. Équilibrer la complexité et la qualité de ces actions est essentiel pour des interactions web efficaces.

Auto-amélioration itérative

On a également exploré si faire de l'auto-amélioration plusieurs fois entraîne encore plus d'avantages. Bien que nous ayons observé quelques gains lors d'un deuxième tour de réglage, les améliorations étaient moins significatives que lors du premier tour. Cela indique que, bien que l'auto-amélioration soit bénéfique, il y a des rendements décroissants lorsqu'elle est appliquée plusieurs fois.

Recherches connexes

L'auto-amélioration dans les LLMs est un domaine d'intérêt croissant. Différentes techniques sont explorées, y compris l'utilisation des propres résultats des modèles pour un entraînement supplémentaire. D'autres recherches se sont concentrées sur des stratégies de demande qui peuvent améliorer la performance dans des tâches spécifiques.

Conclusion

En résumé, notre travail démontre que les grands modèles de langage peuvent s'auto-améliorer dans le cadre de tâches web longues et complexes. Grâce à l'utilisation de données d'entraînement synthétiques, ces modèles non seulement améliorent leur performance mais acquièrent aussi de nouvelles capacités avec une dégradation minimale de la qualité des actions. Cette approche a le potentiel d'élever considérablement l'efficacité des LLMs dans des environnements dynamiques et complexes. À mesure que ces modèles continuent d'évoluer, ils peuvent devenir de plus en plus habiles à naviguer dans les défis des interactions web dans le monde réel.

Directions futures

Les travaux futurs pourraient se concentrer sur le perfectionnement des indicateurs d'évaluation des Performances des agents et sur l'exploration d'un éventail plus large de tâches web. De plus, l'intégration d'évaluations humaines dans le processus pourrait améliorer la fiabilité de nos résultats. L'objectif ultime est de développer des agents linguistiques robustes capables de gérer une grande variété de tâches avec aisance et efficacité.

Remerciements

On aimerait remercier les financements et le soutien reçus de diverses organisations et institutions qui ont contribué à cette recherche. Leurs ressources ont été inestimables pour mener à bien nos expériences et analyses.

Source originale

Titre: Large Language Models Can Self-Improve At Web Agent Tasks

Résumé: Training models to act as agents that can effectively navigate and perform actions in a complex environment, such as a web browser, has typically been challenging due to lack of training data. Large language models (LLMs) have recently demonstrated some capability to navigate novel environments as agents in a zero-shot or few-shot fashion, purely guided by natural language instructions as prompts. Recent research has also demonstrated LLMs have the capability to exceed their base performance through self-improvement, i.e. fine-tuning on data generated by the model itself. In this work, we explore the extent to which LLMs can self-improve their performance as agents in long-horizon tasks in a complex environment using the WebArena benchmark. In WebArena, an agent must autonomously navigate and perform actions on web pages to achieve a specified objective. We explore fine-tuning on three distinct synthetic training data mixtures and achieve a 31\% improvement in task completion rate over the base model on the WebArena benchmark through a self-improvement procedure. We additionally contribute novel evaluation metrics for assessing the performance, robustness, capabilities, and quality of trajectories of our fine-tuned agent models to a greater degree than simple, aggregate-level benchmark scores currently used to measure self-improvement.

Auteurs: Ajay Patel, Markus Hofmarcher, Claudiu Leoveanu-Condrei, Marius-Constantin Dinu, Chris Callison-Burch, Sepp Hochreiter

Dernière mise à jour: 2024-10-01 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.20309

Source PDF: https://arxiv.org/pdf/2405.20309

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires