Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Calcul et langage

Améliorer la compréhension de l'UI des applis mobiles avec une prévision textuelle

Une nouvelle approche pour prédire les changements d'UI des applis mobiles en fonction des actions des utilisateurs.

― 6 min lire


Prédire les changementsPrédire les changementsde l'interface mobilejour de l'interface d'app.Une méthode pour prévoir les mises à
Table des matières

Les applis mobiles sont partout. Les gens les utilisent pour plein de trucs comme lire des news, faire du shopping, prendre des rendez-vous, et apprendre des nouvelles choses. En utilisant ces applis, certains utilisateurs peuvent avoir du mal à voir ou toucher l'écran. Pour les aider, on peut créer des systèmes intelligents qui comprennent et exécutent des tâches dans les applis mobiles pour ceux qui préfèrent ne pas interagir directement avec l'écran. Mais le gros défi, c'est de savoir comment bien représenter ce qui se passe dans l'interface utilisateur (UI) de l'appli, qui inclut des images, du texte, et d'autres éléments importants.

Énoncé du Problème

La plupart des méthodes existantes pour comprendre les UIS se sont concentrées soit sur des éléments spécifiques, soit sur l'écran entier, mais elles ont du mal à relier les deux. C'est super important parce que quand un utilisateur interagit avec une appli en effectuant une action, ça change ce qui apparaît sur l'écran suivant. Donc, il faut trouver un meilleur moyen de comprendre comment ces Actions affectent l'interface utilisateur de l'appli.

Nouvelle Approche : Textual Foresight

Pour résoudre ce problème, on propose une nouvelle méthode appelée Textual Foresight. Cette approche essaie de prédire à quoi ressemblera un futur écran en se basant sur l'écran actuel et l'action qu'un utilisateur prend. L'idée, c'est de décrire le prochain état de l'UI en utilisant une description simple. En faisant ça, on peut apprendre une compréhension plus équilibrée des parties spécifiques de l'UI et de l'écran global.

Création du Dataset : OpenApp

Pour entraîner notre nouveau modèle, on a créé un dataset appelé OpenApp. Ce dataset comprend une collection d'images d'applis mobiles et leurs actions correspondantes. OpenApp est spécial parce que c'est le premier dataset public pour apprendre les représentations d'UI d'applis. Notre objectif était de rassembler suffisamment de données pour rendre notre méthode efficace tout en garantissant que les données puissent être librement accessibles et utilisées par d'autres.

Comment Textual Foresight Fonctionne

Textual Foresight utilise l'UI actuelle et les actions prises par les utilisateurs. Par exemple, quand un utilisateur clique sur un bouton ou sélectionne une option, le modèle apprend à prédire ce qui va se passer ensuite. Il fait ça en analysant à la fois les éléments spécifiques de l'UI et le contenu général de l'écran pour générer une légende qui décrit l'écran futur attendu.

Équilibrage des Caractéristiques

L'idée clé de notre méthode, c'est que les actions peuvent aider à combler le fossé d'information entre les éléments locaux de l'UI et la vue globale de l'écran. En se concentrant sur les deux aspects, Textual Foresight vise à produire de meilleures représentations qui peuvent mener à une performance améliorée sur diverses tâches en aval.

Objectifs d'Apprentissage

L'objectif de Textual Foresight est d'entraîner un modèle capable de générer des descriptions pour les futurs états de l'UI en se basant sur l'UI actuelle et une action. Ça nécessite que le modèle comprenne non seulement ce que fait chaque élément, mais aussi comment cette action va changer la présentation globale de l'écran.

Expériences et Résultats

On a mené une série d'expériences pour évaluer l'efficacité de Textual Foresight par rapport aux méthodes existantes. Les résultats ont montré que notre approche surpassait les méthodes à la pointe, surtout en générant des légendes utiles pour les UIs.

Métriques de Performance

Pour mesurer nos résultats, on a comparé Textual Foresight à d'autres approches en utilisant diverses tâches. Ces tâches incluaient la résumation d'écran, la légendage d'éléments, et la prédiction de si un élément de l'UI est cliquable ou pas. Les résultats ont indiqué que notre méthode montrait systématiquement de meilleures performances, souvent avec moins de données.

Efficacité des Données

Une des caractéristiques marquantes de Textual Foresight, c'est son efficacité à utiliser les données. On a montré que notre modèle pouvait obtenir de meilleurs résultats en utilisant significativement moins d'images que les modèles existants. Ça veut dire que notre méthode non seulement fonctionne bien mais est aussi efficace en termes de ressources.

Comparaison avec les Méthodes Existantes

Les méthodes traditionnelles, comme le légendage d'éléments, se concentrent seulement sur la compréhension des composants individuels de l'UI. Bien qu'elles évitent certains inconvénients, elles manquent souvent la vue d'ensemble de la façon dont ces éléments interagissent dans le contexte complet de l'écran. En revanche, notre approche prend en compte à la fois les contextes locaux et globaux, ce qui mène à des descriptions plus riches et informatives.

Qualité du Dataset et Défis

En créant le dataset OpenApp, on a rencontré des défis pour offrir des annotations de haute qualité. On a fait attention à la manière dont les actions de l'UI étaient associées à leurs éléments d'écran correspondants. Certains cas nécessitaient des ajustements soigneux pour s'assurer que les actions correspondaient correctement aux composants de l'UI.

Travaux Futurs

Bien que Textual Foresight ait montré des résultats prometteurs, il y a encore des domaines à améliorer. Élargir le dataset pour inclure des interactions et des types d'UI plus divers pourrait potentiellement améliorer la performance du modèle. De plus, incorporer des retours humains dans le processus d'annotation pourrait aider à affiner encore la qualité du dataset.

Considérations Éthiques

Quand on travaille avec des données utilisateurs, c'est essentiel de considérer la confidentialité et les implications éthiques. On s'est assuré que notre dataset a été construit en utilisant des données anonymes et n'a pas introduit de nouveaux problèmes éthiques. Cependant, quand on développe des systèmes qui effectuent des actions au nom des utilisateurs, il est vital de maintenir la transparence et la confiance des utilisateurs.

Conclusion

En résumé, Textual Foresight représente une avancée significative dans la compréhension des interfaces utilisateur des applis mobiles. En combinant la compréhension des éléments locaux avec le contexte global de l'écran, notre approche offre une manière plus complète de prédire les changements dans l'UI. La création du dataset OpenApp est une contribution précieuse au domaine, permettant davantage de recherche et développement.

À travers nos expériences, on a démontré que cette méthode non seulement surpasse les approches existantes mais le fait aussi avec plus d'efficacité. Alors qu'on continue à affiner nos modèles et nos datasets, on vise à contribuer à la création de technologies plus intelligentes et accessibles qui bénéficient à tous les utilisateurs.

Source originale

Titre: Tell Me What's Next: Textual Foresight for Generic UI Representations

Résumé: Mobile app user interfaces (UIs) are rich with action, text, structure, and image content that can be utilized to learn generic UI representations for tasks like automating user commands, summarizing content, and evaluating the accessibility of user interfaces. Prior work has learned strong visual representations with local or global captioning losses, but fails to retain both granularities. To combat this, we propose Textual Foresight, a novel pretraining objective for learning UI screen representations. Textual Foresight generates global text descriptions of future UI states given a current UI and local action taken. Our approach requires joint reasoning over elements and entire screens, resulting in improved UI features: on generation tasks, UI agents trained with Textual Foresight outperform state-of-the-art by 2% with 28x fewer images. We train with our newly constructed mobile app dataset, OpenApp, which results in the first public dataset for app UI representation learning. OpenApp enables new baselines, and we find Textual Foresight improves average task performance over them by 5.7% while having access to 2x less data.

Auteurs: Andrea Burns, Kate Saenko, Bryan A. Plummer

Dernière mise à jour: 2024-08-07 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.07822

Source PDF: https://arxiv.org/pdf/2406.07822

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires