WebGUM : Faire avancer la navigation web autonome
WebGUM automatise les tâches web en utilisant la compréhension visuelle et linguistique pour une meilleure efficacité.
― 7 min lire
Table des matières
La navigation sur le web, c'est le fait d'utiliser un ordi pour parcourir des sites en suivant les instructions de l'utilisateur. C'est souvent répétitif et ça demande pas mal d'input manuel, comme cliquer sur des boutons, remplir des formulaires ou chercher des infos. Avec l'essor de la technologie, on s'intéresse de plus en plus à l'automatisation de ces tâches. Des agents web autonomes peuvent aider les utilisateurs à réaliser ces tâches plus rapidement, ce qui fait gagner du temps et réduit les erreurs.
Cependant, développer ces agents web, c'est pas simple. Les méthodes traditionnelles reposent souvent sur des essais et des erreurs, ce qui peut être inefficace et entraîner des erreurs, comme verrouiller un compte en entrant le mauvais mot de passe. Du coup, les chercheurs explorent d'autres façons de former ces agents pour améliorer leur précision et leur efficacité.
Approches Actuelles
La plupart des méthodes actuelles utilisent un type d’apprentissage appelé apprentissage par renforcement (RL), qui est basé sur l'apprentissage par l'expérience et les récompenses pour de bonnes actions. Bien que cette méthode soit efficace, elle nécessite souvent de nombreux essais pour apprendre les meilleures actions à réaliser, ce qui peut être lourd et causer divers problèmes. Comme solution, les chercheurs ont commencé à utiliser des méthodes de formation hors ligne qui s'appuient sur des données pré-collectées plutôt que d'explorer le web en temps réel.
La formation hors ligne utilise des ensembles de données statiques créées à partir de démonstrations humaines. Ces ensembles fournissent des exemples de tâches de navigation web réussies, permettant aux agents d'apprendre à partir d'expériences passées. Cependant, les méthodes hors ligne sont généralement moins efficaces comparées à l'apprentissage en temps réel, car elles ne s’adaptent pas aussi bien aux nouvelles situations.
Présentation de WebGUM
Pour relever ces défis, on a développé un nouvel agent web autonome appelé WebGUM. Cet agent peut comprendre à la fois les images des pages web et le code HTML sous-jacent qui compose ces pages. En combinant ces deux sources d'information, WebGUM peut prendre de meilleures décisions et réaliser des tâches de navigation web en suivant des instructions en langage naturel.
WebGUM utilise un grand modèle de langage qui a été formé pour comprendre les instructions des utilisateurs. Cette approche améliore sa capacité à comprendre les tâches et lui permet de gérer des instructions plus complexes de manière efficace. Il utilise aussi des infos visuelles à partir de captures d'écran des pages web, ce qui l'aide à mieux comprendre la mise en page et le design des sites avec lesquels il interagit.
Comment Fonctionne WebGUM
WebGUM apprend à naviguer sur le web en observant à la fois le HTML et les images des pages web. Quand on lui donne une instruction, il analyse les visuels et le texte fournis pour déterminer les actions correctes à entreprendre. Par exemple, si un utilisateur demande de trouver un email spécifique et de le transférer à quelqu'un, WebGUM va regarder la mise en page du client email et le contenu des emails pour accomplir la tâche.
Les aspects clés du design de WebGUM incluent :
Apprentissage multimodal : En observant à la fois l'information visuelle et textuelle, WebGUM obtient une compréhension plus complète des pages web, ce qui lui permet de prendre de meilleures décisions.
Ajustement Fins des Instructions : Le modèle de langage utilisé par WebGUM a été spécifiquement formé pour suivre des instructions, ce qui améliore sa capacité à comprendre et à traiter les commandes des utilisateurs.
Utilisation d'un Grand Ensemble de Données : WebGUM a été formé sur un énorme ensemble de données de tâches de navigation web réussies. Ces données d'entraînement étendues aident à améliorer ses performances et sa capacité à généraliser sur diverses tâches, même complexes.
Formation conjointe : Les composants visuels et linguistiques de WebGUM sont formés ensemble, permettant une meilleure intégration de l'information visuelle et textuelle.
Évaluation des Performances
Les performances de WebGUM ont été testées sur des benchmarks établis en navigation web, comme MiniWoB++. Ces tests comparent son taux de succès par rapport à d'autres modèles existants. Les résultats montrent que WebGUM surpasse de manière significative les méthodes de formation hors ligne antérieures. Par exemple, il a amélioré le taux de succès par rapport aux meilleures méthodes précédentes de 31,9%.
Dans une autre évaluation sur le benchmark WebShop, qui simule une expérience d'achat en ligne, WebGUM a aussi obtenu un taux de succès plus élevé comparé aux meilleurs modèles existants. Ça confirme que son design et son approche de formation en font un agent compétitif dans les tâches de navigation web.
Avantages de WebGUM
WebGUM offre plusieurs avantages qui améliorent son efficacité et sa convivialité :
Précision Améliorée : En s'appuyant à la fois sur le HTML et les visuels, WebGUM comprend mieux la tâche à accomplir et peut exécuter les actions plus précisément.
Flexibilité : Le modèle peut gérer une large gamme de tâches, des actions simples comme remplir des formulaires à des tâches plus complexes impliquant plusieurs étapes. Cette polyvalence le rend adapté à différentes applications.
Formation Efficace : La combinaison d'un grand ensemble de données et de l'ajustement des capacités de suivi des instructions permet à WebGUM d'apprendre efficacement, réduisant le besoin d'essais et d'erreurs longs pendant la formation.
Convivialité : WebGUM peut suivre des instructions en langage naturel, ce qui facilite les interactions des utilisateurs sans avoir besoin de connaissances techniques ou de comprendre des langages de programmation.
Défis et Directions Futures
Malgré ses succès, il y a encore des défis à relever. Un défi important est la nécessité d'un ensemble de données plus diversifié et à grande échelle. Bien que l'ensemble de données actuel soit conséquent, il ne couvre pas la grande diversité d'internet. Des données plus variées aideront WebGUM à mieux généraliser ses compétences sur différents sites et tâches.
Un autre domaine à améliorer est sa capacité à gérer efficacement les situations imprévues. Dans des scénarios réels, les pages web peuvent changer souvent et des éléments inattendus peuvent apparaître. Construire un système plus robuste qui peut s'adapter à ces changements sera essentiel pour un déploiement pratique.
Les futures recherches pourraient aussi explorer la combinaison des méthodes de formation en ligne et hors ligne, ce qui pourrait aider à maintenir les avantages de l'apprentissage hors ligne tout en gagnant l'adaptabilité des systèmes en ligne.
Conclusion
WebGUM représente une avancée significative dans le domaine de la navigation web autonome. En combinant efficacement la compréhension visuelle avec un solide modèle de langage formé pour suivre des instructions, il surpasse les méthodes de formation hors ligne existantes. Sa capacité à s'adapter et à fonctionner avec des entrées multimodales en fait une solution robuste pour automatiser les tâches web.
Au fur et à mesure qu'on continue à affiner ses capacités et à élargir ses données d'entraînement, WebGUM deviendra encore plus habile à gérer les complexités de la navigation sur le web. Cette avancée offre un bon aperçu pour l'avenir des agents web et leur potentiel à simplifier les tâches en ligne pour les utilisateurs.
Impacts Plus Larges
Le déploiement de WebGUM et d'agents autonomes similaires pourrait avoir un impact significatif sur l'utilisation quotidienne d'internet. En automatisant les tâches répétitives, les utilisateurs pourraient passer moins de temps sur des activités banales, leur permettant de se concentrer sur des interactions plus significatives en ligne. Cependant, il faut faire attention lors du déploiement de tels agents dans des scénarios réels, car des erreurs peuvent entraîner des problèmes de sécurité ou des violations de données.
En conclusion, alors qu'on s'efforce d'améliorer WebGUM et d'enrichir ses capacités, notre objectif est de créer un outil qui non seulement aide les utilisateurs, mais contribue également à rendre internet plus accessible et agréable.
Titre: Multimodal Web Navigation with Instruction-Finetuned Foundation Models
Résumé: The progress of autonomous web navigation has been hindered by the dependence on billions of exploratory interactions via online reinforcement learning, and domain-specific model designs that make it difficult to leverage generalization from rich out-of-domain data. In this work, we study data-driven offline training for web agents with vision-language foundation models. We propose an instruction-following multimodal agent, WebGUM, that observes both webpage screenshots and HTML pages and outputs web navigation actions, such as click and type. WebGUM is trained by jointly finetuning an instruction-finetuned language model and a vision encoder with temporal and local perception on a large corpus of demonstrations. We empirically demonstrate this recipe improves the agent's ability of grounded multimodal perception, HTML comprehension, and multi-step reasoning, outperforming prior works by a significant margin. On the MiniWoB, we improve over the previous best offline methods by more than 45.8%, even outperforming online-finetuned SoTA, humans, and GPT-4-based agent. On the WebShop benchmark, our 3-billion-parameter model achieves superior performance to the existing SoTA, PaLM-540B. Furthermore, WebGUM exhibits strong positive transfer to the real-world planning tasks on the Mind2Web. We also collect 347K high-quality demonstrations using our trained models, 38 times larger than prior work, and make them available to promote future research in this direction.
Auteurs: Hiroki Furuta, Kuang-Huei Lee, Ofir Nachum, Yutaka Matsuo, Aleksandra Faust, Shixiang Shane Gu, Izzeddin Gur
Dernière mise à jour: 2024-02-25 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.11854
Source PDF: https://arxiv.org/pdf/2305.11854
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/google-research/scenic
- https://github.com/google-research/t5x/blob/main/docs/models.md
- https://console.cloud.google.com/storage/browser/gresearch/webllm/webn
- https://github.com/stanfordnlp/miniwob-plusplus-demos
- https://github.com/princeton-nlp/WebShop/tree/master/baseline_models/data
- https://github.com/google-research/google-research/tree/master/mm_webnav
- https://sites.google.com/view/mm-webnav/