Simple Science

La science de pointe expliquée simplement

# Informatique# Interaction homme-machine# Intelligence artificielle# Calcul et langage# Apprentissage automatique

Présentation d'AutoGLM : Ton assistant numérique plus intelligent

AutoGLM simplifie les interactions avec la tech, rendant les tâches quotidiennes plus efficaces.

― 7 min lire


AutoGLM : Ton assistantAutoGLM : Ton assistantIAmanière efficace.utilisateurs avec la technologie deAutoGLM redéfinit l'interaction des
Table des matières

As-tu déjà souhaité que ton ordi ou ton smartphone puisse mieux te comprendre ? Fais connaissance avec AutoGLM, un nouveau type d’assistant numérique qui vise à rendre tes interactions avec la technologie plus fluides et faciles. Ce système est conçu pour contrôler automatiquement des applis et des sites web via des interfaces graphiques (GUIs), ce qui est juste un mot un peu barbare pour dire qu’il t’aide à utiliser tes appareils sans les tracas habituels.

Le Défi de la Technologie Actuelle

Bien que beaucoup de modèles avancés gèrent bien la langue, ils galèrent souvent quand il s'agit de prendre des décisions dans la vraie vie. Ça les rend moins efficaces pour des tâches où ils doivent s’adapter rapidement aux changements. AutoGLM entre en jeu pour résoudre ce problème en apprenant des expériences du Monde réel et en s'améliorant avec le temps-un peu comme nous, les humains, on apprend de nos erreurs (et peut-être quelques moments embarrassants).

Axes de Focus : Navigateurs et Téléphones

L’équipe derrière AutoGLM a choisi la navigation web et le contrôle de smartphone comme les deux principaux domaines pour montrer ses capacités. L’idée est de créer un système pratique qui peut gérer efficacement des tâches du quotidien. Imagine essayer de réserver un resto ou de commander ta boisson préférée-AutoGLM est fait pour t’assister dans ces situations quotidiennes.

Points Clés du Développement

En bossant sur AutoGLM, l’équipe a réalisé quelques trucs importants. D’abord, ils ont découvert qu’avoir une “interface intermédiaire” bien conçue est essentiel. Ça peut sonner technique, mais en gros, ça aide à organiser la façon dont l’assistant numérique pense à la planification et à l’exécution des tâches. En gardant ces deux choses séparées, AutoGLM peut être flexible et précis.

Ensuite, ils ont créé un système de formation unique qui permet à l’assistant d’Apprendre et de s’adapter en interagissant avec les utilisateurs au fil du temps. Ça veut dire qu’AutoGLM s’améliore dans ses tâches plus il pratique-un peu comme un élève qui révise pour un gros test.

Points Forts de la Performance

Parlons de ce qu’AutoGLM peut faire. En navigation web, il a atteint un Taux de réussite de 55,2 % sur une évaluation de tâche populaire appelée VAB-WebArena-Lite, et il améliorait souvent son score à 59,1 % lors d’une deuxième tentative. Pour les tâches réelles sur OpenTable, il a atteint un impressionnant 96,2 % de succès. Sur les appareils Android, il a obtenu un taux de réussite de 36,2 % sur AndroidLab et un incroyable 89,7 % sur des tâches communes dans des applis chinoises populaires.

Faire Travailler AutoGLM pour Toi

Si tu te demandes comment utiliser AutoGLM, certaines de ses fonctionnalités sont déjà disponibles via une extension de navigateur ou une appli Android. Ça veut dire que tu peux commencer à profiter de ses capacités tout de suite-pas besoin d'attendre que les robots prennent le contrôle !

Le Paysage des Dispositifs Numériques

Les appareils numériques sont partout, et ça offre une super opportunité pour des assistants comme AutoGLM. Ce qui est excitant, c'est que ces assistants peuvent apprendre à partir d'informations visuelles et textuelles riches dans un cadre contrôlé. En plus, ils sont adaptés à de nombreux utilisateurs, donc pas mal de gens peuvent bénéficier de ce qu’AutoGLM a à offrir.

Le Défi des Données

Cependant, le chemin pour créer des assistants efficaces n’a pas été sans défis. Un gros problème est le manque de données de prise de décision. La plupart des infos trouvées en ligne sont statiques et ne montrent pas comment les gens prennent vraiment des choix dans le monde réel. Pour surmonter ça, l’équipe devait trouver des moyens d’ajouter plus de connaissances dynamiques, que ce soit à travers des interactions réelles ou en simulant des scénarios.

Soutenir les Utilisateurs, Pas les Remplacer

AutoGLM est conçu pour soutenir les utilisateurs-pas les remplacer. En aidant les humains à s'adapter à des assistants numériques plus intelligents, le système apprend à aider de manière plus efficace. Cette approche collaborative permet aussi aux chercheurs d’étudier comment ces assistants fonctionnent et quels risques pourraient surgir à mesure qu'ils continuent à évoluer.

Résumé du Processus de Développement

Alors, comment l’équipe a-t-elle construit AutoGLM ? Ils se sont concentrés sur la création d'agents de base basés sur le modèle ChatGLM. Ce processus a impliqué des techniques de formation et des infrastructures qui soutiennent le déploiement auprès des utilisateurs, s'assurant que les assistants numériques puissent apprendre et s’adapter en temps réel.

Insight 1 : L'Importance des Interfaces Intermédiaires

Pendant le développement, l’équipe a découvert qu’il était crucial de séparer la planification de l’exécution. Ils ont compris qu'avoir l'assistant qui planifie à l'avance tout en étant capable de réaliser ses actions avec précision aiderait à améliorer son efficacité. Ça veut dire qu’AutoGLM pourrait mieux identifier des éléments sur une page web ou dans une appli, ce qui est essentiel pour accomplir les tâches correctement.

Insight 2 : Systèmes d'Apprentissage Auto-Évolutifs

Le deuxième gros insight concernait la création d’un système de formation qui permettrait à l'assistant d'évoluer avec le temps. Ça veut dire qu’AutoGLM peut apprendre de ses erreurs et être mieux préparé pour les tâches futures. L’équipe a utilisé un cadre spécial pour aider à former l'assistant, cherchant des moyens de surmonter les obstacles et de trouver de nouvelles voies vers le succès.

Évaluation de Performance

Maintenant, jetons un œil à la performance d’AutoGLM lors des tests. L’équipe a effectué des évaluations sur différentes tâches pour voir à quel point il pouvait gérer des situations du monde réel.

Performance de Navigation Web

AutoGLM a été testé en utilisant des références comme VAB-WebArena-Lite, qui contient une variété de tâches destinées à imiter ce que de vrais utilisateurs pourraient demander. Les résultats ont montré qu’AutoGLM faisait des progrès énormes pour réduire l'écart entre les assistants numériques et les utilisateurs humains réels.

Performance Android

Sur Android, AutoGLM a été mis à l’épreuve dans des environnements de test et des applis réelles. Il a réussi à montrer une amélioration significative par rapport à d’autres concurrents, prouvant qu’il pouvait gérer diverses tâches que les utilisateurs effectuent généralement sur leurs téléphones.

Tests dans le Monde Réel

Pour voir à quel point AutoGLM pouvait aider les utilisateurs dans la vraie vie, l’équipe l’a évalué sur des applis chinoises populaires. Ils ont élaboré des requêtes de test pour voir comment l’assistant pouvait performer dans ces scénarios réels. Les résultats ont révélé que même s’il n'était pas parfait, il aidait à simplifier les tâches et à les réaliser plus rapidement.

Conclusion : Un Pas Vers des Assistants Plus Intelligents

En résumé, AutoGLM est une avancée excitante dans le monde des assistants numériques. En se concentrant sur la conception d'une forte séparation entre planification et exécution, et en développant des moyens pour que l’assistant apprenne avec le temps, l’équipe derrière AutoGLM a posé les bases pour des interactions GUI pratiques et efficaces. Avec des taux de succès impressionnants et le potentiel d'applications plus larges, AutoGLM est certainement un pas vers des interactions avec la technologie beaucoup plus conviviales.

Que ce soit pour commander ta boisson préférée ou réserver une table pour le dîner, AutoGLM est là pour t’aider-ton propre assistant personnel qui ne te jugera pas pour avoir commandé cette pizza extra-large !

Source originale

Titre: AutoGLM: Autonomous Foundation Agents for GUIs

Résumé: We present AutoGLM, a new series in the ChatGLM family, designed to serve as foundation agents for autonomous control of digital devices through Graphical User Interfaces (GUIs). While foundation models excel at acquiring human knowledge, they often struggle with decision-making in dynamic real-world environments, limiting their progress toward artificial general intelligence. This limitation underscores the importance of developing foundation agents capable of learning through autonomous environmental interactions by reinforcing existing models. Focusing on Web Browser and Phone as representative GUI scenarios, we have developed AutoGLM as a practical foundation agent system for real-world GUI interactions. Our approach integrates a comprehensive suite of techniques and infrastructures to create deployable agent systems suitable for user delivery. Through this development, we have derived two key insights: First, the design of an appropriate "intermediate interface" for GUI control is crucial, enabling the separation of planning and grounding behaviors, which require distinct optimization for flexibility and accuracy respectively. Second, we have developed a novel progressive training framework that enables self-evolving online curriculum reinforcement learning for AutoGLM. Our evaluations demonstrate AutoGLM's effectiveness across multiple domains. For web browsing, AutoGLM achieves a 55.2% success rate on VAB-WebArena-Lite (improving to 59.1% with a second attempt) and 96.2% on OpenTable evaluation tasks. In Android device control, AutoGLM attains a 36.2% success rate on AndroidLab (VAB-Mobile) and 89.7% on common tasks in popular Chinese APPs.

Auteurs: Xiao Liu, Bo Qin, Dongzhu Liang, Guang Dong, Hanyu Lai, Hanchen Zhang, Hanlin Zhao, Iat Long Iong, Jiadai Sun, Jiaqi Wang, Junjie Gao, Junjun Shan, Kangning Liu, Shudan Zhang, Shuntian Yao, Siyi Cheng, Wentao Yao, Wenyi Zhao, Xinghan Liu, Xinyi Liu, Xinying Chen, Xinyue Yang, Yang Yang, Yifan Xu, Yu Yang, Yujia Wang, Yulin Xu, Zehan Qi, Yuxiao Dong, Jie Tang

Dernière mise à jour: 2024-10-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2411.00820

Source PDF: https://arxiv.org/pdf/2411.00820

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires