Améliorer le contrôle des appareils avec le jeu de données Android
Un nouveau jeu de données améliore le traitement du langage naturel pour le contrôle des appareils Android.
― 9 min lire
Table des matières
- Qu'est-ce que l'ensemble de données ?
- Composants de l'ensemble de données
- Importance de l'ensemble de données
- Processus de collecte des données
- Structure de l'ensemble de données
- Défis du contrôle des appareils
- Évaluation des performances
- Applications potentielles
- Conclusion
- Source originale
- Liens de référence
À mesure que la technologie progresse, de plus en plus de gens veulent des appareils capables de comprendre et de répondre à leurs commandes orales ou écrites. C’est particulièrement vrai pour les appareils mobiles comme les smartphones, où les utilisateurs trouvent souvent plus facile de donner une commande plutôt que de faire défiler des menus. Cette idée forme la base des systèmes de contrôle des appareils, qui visent à interpréter le langage humain et à effectuer des tâches sur des appareils.
Cet article couvre des recherches sur un grand ensemble de données conçu pour améliorer ces systèmes de contrôle d'appareils spécifiquement pour les appareils Android. L'ensemble de données, connu sous le nom d'Android in the Wild, offre une collection complète d'exemples montrant des utilisateurs effectuant des tâches et le langage correspondant utilisé pour décrire ces tâches.
Qu'est-ce que l'ensemble de données ?
L'ensemble de données Android in the Wild est un pas en avant significatif dans le développement de systèmes capables de contrôler des appareils mobiles grâce au langage naturel. Il comprend au total 715 000 Épisodes d'interactions utilisateur, ce qui est beaucoup plus grand que les ensembles de données précédents disponibles pour la recherche. Chaque épisode est une démonstration de la façon dont quelqu'un interagit avec un appareil Android, accompagnée du langage utilisé.
L'ensemble de données propose une grande variété de tâches, englobant environ 30 000 commandes uniques. Il couvre plusieurs versions d'Android et différents types d'appareils, ce qui le rend plus utile pour former des modèles qui doivent fonctionner dans diverses situations.
Composants de l'ensemble de données
Épisodes et instructions
Chaque épisode de l'ensemble de données comprend une instruction de but en langage simple. Cela décrit ce que l'utilisateur souhaite accomplir, comme vérifier la météo ou envoyer un message. Avec cet objectif, l'épisode contient une séquence d'actions que l'utilisateur prend pour compléter cette tâche.
Captures d'écran et actions
L'ensemble de données enregistre non seulement les commandes, mais aussi les captures d'écran de l'interface de l'appareil à chaque étape. Ces captures d'écran aident à visualiser ce que l'utilisateur voit à l'écran et à identifier comment il interagit avec différents éléments de l'interface utilisateur. Les actions sont également documentées, indiquant si l'utilisateur a appuyé sur un bouton, glissé sur l'écran ou tapé du texte.
Exécution des gestes
L'ensemble de données capture des gestes détaillés comme des appuis et des glissements, qui sont importants pour comprendre comment reproduire le comportement humain sur un écran. Cet enregistrement minutieux inclut des informations sur l'endroit où l'utilisateur a touché l'écran et ce qu'il a fait après.
Importance de l'ensemble de données
L'ensemble de données Android in the Wild est crucial pour plusieurs raisons.
Combler un vide
Auparavant, les chercheurs avaient du mal à trouver de grands ensembles de données incluant des tâches diverses. Les ensembles de données existants manquaient souvent de variété ou se concentraient uniquement sur des plateformes spécifiques. Ce nouvel ensemble de données répond à ces problèmes en fournissant un large éventail de variations de tâches provenant d'une utilisation réelle.
Soutenir des applications diverses
La riche variété de tâches enregistrées dans l'ensemble de données lui permet d'avoir de nombreuses applications pratiques. Les développeurs peuvent l'utiliser pour créer des systèmes qui effectuent diverses fonctions, de l'accès à l'information au contrôle des appareils intelligents. La flexibilité offerte par l'ensemble de données en fait une ressource précieuse pour quiconque travaille dans le domaine de l'automatisation mobile.
Améliorer les modèles de contrôle des appareils
Un des principaux objectifs de cet ensemble de données est de former et d'améliorer les appareils qui comprennent les commandes en langage naturel. En utilisant l'ensemble de données, les chercheurs peuvent développer des modèles qui interprètent mieux les intentions des utilisateurs et effectuent des tâches en conséquence. Cela a des implications significatives pour les utilisateurs handicapés ou ceux dans des situations où utiliser les mains n'est pas faisable.
Processus de collecte des données
Démonstrations humaines
Pour compiler l'ensemble de données, les chercheurs ont demandé à des individus d'effectuer des tâches sur des appareils Android. Ces démonstrations ont été enregistrées, capturant à la fois les actions entreprises et le langage utilisé pour les décrire. Les évaluateurs ont été encouragés à agir naturellement et à traiter la tâche comme s'ils aidaient un ami.
Processus en deux étapes
La collecte de données a suivi un processus en deux étapes. D'abord, les évaluateurs ont effectué les tâches, puis ils ont passé en revue leurs actions enregistrées pour identifier et renommer des tâches simples, en une seule étape. Cette approche minutieuse a permis de garantir que l'ensemble de données incluait à la fois des tâches complexes à plusieurs étapes et des actions plus simples tirées des interactions réelles des utilisateurs.
Utilisation de l'émulateur Android
Les données ont été collectées à l'aide d'un émulateur Android, permettant un environnement contrôlé pour exécuter diverses actions. Cette configuration a fourni une vue claire de l'écran et a capturé toutes les interactions sans aucune interférence extérieure.
Structure de l'ensemble de données
Organisation des épisodes
Les épisodes de l'ensemble de données sont organisés de manière à ce que les chercheurs puissent facilement analyser les performances à travers différentes tâches. La collection inclut à la fois des tâches à plusieurs étapes et des tâches à une seule étape, ce qui signifie que les utilisateurs peuvent comprendre les flux de travail de manière complète.
Ensembles d'entraînement et de test
Pour aider à la recherche, l'ensemble de données est divisé en ensembles d'entraînement et de test recommandés. Cela aide à évaluer à quel point les modèles fonctionnent bien face à de nouvelles tâches et situations qu'ils n'ont pas encore rencontrées. La structure permet de tester la généralisabilité à travers diverses conditions.
Défis du contrôle des appareils
Les systèmes de contrôle des appareils font face à de nombreux défis découlant de la nécessité d'interpréter le langage avec précision et de l'exécuter par des gestes sur un écran. Un de ces défis est la nécessité de comprendre l'interface utilisateur visuellement. Comme les utilisateurs s'appuient sur diverses applications pour différentes tâches, le système doit apprendre à s'adapter et à répondre à des commandes et interfaces diverses.
Complexité de l'espace d'action
L'ensemble de données présente un espace d'action qui inclut des gestes précis plutôt que de simples commandes. Par exemple, au lieu de reconnaître uniquement une commande basique comme "cliquer", le système doit aussi apprendre à interpréter les glissements, les traînées et d'autres interactions. Cette complexité conduit finalement à un système de contrôle des appareils plus efficace.
Gestion des instructions diverses
Les utilisateurs ne formulent pas toujours les commandes de la même manière. Certains peuvent utiliser des demandes courtes, tandis que d'autres posent des questions ou utilisent des descriptions plus longues. Former des modèles à gérer cette variété est essentiel pour créer un système qui fonctionne bien dans des scénarios réels.
Évaluation des performances
Les chercheurs ont développé diverses métriques pour évaluer à quel point les systèmes de contrôle des appareils fonctionnent en utilisant l'ensemble de données. Ces évaluations aident à déterminer à quel point un système peut se généraliser à des tâches non vues et gérer différentes versions d'Android.
Correspondance des actions
Pour évaluer les systèmes, un score de correspondance des actions est utilisé. Ce score aide à quantifier à quel point les actions d'un agent s'alignent avec les actions attendues pour une tâche donnée. En comparant les actions individuelles et leurs résultats associés, les chercheurs peuvent évaluer les performances du système.
Applications potentielles
L'ensemble de données Android in the Wild ouvre plusieurs possibilités passionnantes pour la recherche future et le développement d'applications.
Fonctionnalités d'accessibilité
Pour les utilisateurs handicapés, un système de contrôle des appareils propulsé par une interprétation précise du langage naturel peut permettre un nouveau niveau d'accessibilité. Cela permet aux gens d'interagir avec leurs appareils de manière plus simple et efficace.
Automatisation des maisons intelligentes
Implémenter cette technologie dans des appareils de maison intelligente peut aider les utilisateurs à contrôler leur domicile par des commandes vocales, rendant les tâches quotidiennes plus simples et efficaces.
Interfaces utilisateur améliorées
En analysant l'ensemble de données, les développeurs peuvent obtenir des informations sur la façon dont les utilisateurs interagissent avec leurs appareils. Ces informations peuvent conduire à la conception de meilleures interfaces utilisateur qui tiennent compte de différents styles d'interaction.
Conclusion
L'ensemble de données Android in the Wild représente une avancée significative dans le domaine du contrôle des appareils et du traitement du langage naturel. Il fournit une collection complète et diversifiée d'interactions utilisateur, essentielles pour développer des systèmes capables de comprendre et d'exécuter des commandes aussi efficacement qu'un humain. En continuant à explorer cet ensemble de données enrichissant, les chercheurs peuvent travailler à la création de systèmes de contrôle des appareils plus intuitifs et accessibles qui améliorent l'utilisation quotidienne de la technologie.
Titre: Android in the Wild: A Large-Scale Dataset for Android Device Control
Résumé: There is a growing interest in device-control systems that can interpret human natural language instructions and execute them on a digital device by directly controlling its user interface. We present a dataset for device-control research, Android in the Wild (AITW), which is orders of magnitude larger than current datasets. The dataset contains human demonstrations of device interactions, including the screens and actions, and corresponding natural language instructions. It consists of 715k episodes spanning 30k unique instructions, four versions of Android (v10-13),and eight device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It contains multi-step tasks that require semantic understanding of language and visual context. This dataset poses a new challenge: actions available through the user interface must be inferred from their visual appearance. And, instead of simple UI element-based actions, the action space consists of precise gestures (e.g., horizontal scrolls to operate carousel widgets). We organize our dataset to encourage robustness analysis of device-control systems, i.e., how well a system performs in the presence of new task descriptions, new applications, or new platform versions. We develop two agents and report performance across the dataset. The dataset is available at https://github.com/google-research/google-research/tree/master/android_in_the_wild.
Auteurs: Christopher Rawles, Alice Li, Daniel Rodriguez, Oriana Riva, Timothy Lillicrap
Dernière mise à jour: 2023-10-27 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.10088
Source PDF: https://arxiv.org/pdf/2307.10088
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/google-research/google-research/tree/master/android
- https://developer.android.com/studio/run/emulator
- https://creativecommons.org/licenses/by/4.0/
- https://www.tensorflow.org/tutorials/load_data/tfrecord#reading_a_tfrecord_file_2
- https://www.neurips.cc/Conferences/2023/CallForDatasetsBenchmarks
- https://mirrors.ctan.org/macros/latex/contrib/natbib/natnotes.pdf
- https://www.ctan.org/pkg/booktabs
- https://www.emfield.org/icuwb2010/downloads/IEEE-PDF-SpecV32.pdf
- https://mirrors.ctan.org/macros/latex/required/graphics/grfguide.pdf
- https://neurips.cc/Conferences/2023/PaperInformation/FundingDisclosure