Améliorer la lecture d'écran pour les déficiences visuelles
Un nouveau système d'IA améliore l'accessibilité pour les utilisateurs malvoyants grâce à une meilleure lecture d'écran.
― 6 min lire
Table des matières
- Le Défi de la Lecture d'Écran
- Présentation de l'Agent Tree-of-Lens
- Évaluation de l'Agent ToL
- L'Importance de la Disposition dans la Lecture d'Écran
- Comment Fonctionne le Tree-of-Lens
- La Référence et le Processus de Test
- Résoudre les Problèmes de Navigation
- Conclusion et Travaux Futurs
- Source originale
- Liens de référence
Les interfaces graphiques (GUI) sont le principal moyen par lequel nous interagissons avec nos appareils numériques. À mesure que la technologie évolue, il y a un besoin croissant d'aider les utilisateurs à mieux comprendre ces interfaces, en particulier ceux qui peuvent avoir des difficultés à voir. Les efforts récents se sont concentrés sur la création de modèles d'IA capables d'interpréter les GUI, mais beaucoup de ces outils manquent d'une tâche importante : lire l'écran en fonction de points spécifiques choisis par les utilisateurs. Cela est appelé la tâche de Point-et-Lire d'Écran (Screen Point-and-Read ou ScreenPR).
Le Défi de la Lecture d'Écran
Typiquement, les outils de lecture d'écran sont rigides et ne peuvent pas s'adapter très bien à différentes parties de l'écran. Il y a un besoin d'un nouveau modèle qui utilise les avancées récentes de l'IA, en particulier les Modèles de Langage Multimodaux de Grande Taille (MLLM), pour améliorer le fonctionnement de la lecture d'écran. La tâche est simple : lorsque l'utilisateur pointe vers un endroit spécifique sur l'écran, nous voulons donner une description claire de ce que cette zone contient et comment elle s'intègre dans la disposition générale.
Présentation de l'Agent Tree-of-Lens
Pour s'attaquer à la tâche ScreenPR, nous avons développé un nouveau système appelé l'agent Tree-of-Lens (ToL). Cet agent utilise un mécanisme de ancrage unique pour comprendre la disposition de l'écran. Il commence par le point de l'utilisateur et la capture d'écran correspondante pour construire un Arbre de Disposition Hiérarchique. Cet arbre aide l'agent à comprendre non seulement le contenu du segment mais aussi comment il se rapporte à d'autres éléments sur l'écran.
Les détails de la disposition sont essentiels pour interpréter avec précision ce qui est affiché à l'écran. En transmettant ces informations de disposition, l'agent ToL se distingue des outils existants.
Évaluation de l'Agent ToL
Nous avons soigneusement testé l'agent ToL contre d'autres modèles en utilisant une nouvelle référence spécifiquement conçue pour la tâche ScreenPR. Cette référence comprend des captures d'écran de divers types de GUI, tels que des applications mobiles et des pages web. Nos tests montrent que l'agent ToL performe significativement mieux que la concurrence, atteignant une plus grande précision dans les descriptions de contenu et de disposition.
Nous avons également exploré comment l'agent ToL pourrait aider dans les tâches de navigation de GUI mobile. En analysant les actions entreprises lors de la navigation, il a pu identifier des erreurs et améliorer le processus de navigation.
L'Importance de la Disposition dans la Lecture d'Écran
Les GUI regorgent d'informations visuelles. Elles contiennent des couleurs, des icônes, du texte et des arrangements spatiaux, ce qui peut souvent être déroutant. Une compréhension claire de la disposition est critique pour donner un sens à ces informations. Par exemple, si deux éléments se ressemblent mais sont placés à des emplacements différents, identifier leurs positions peut prévenir les malentendus.
Notre agent ToL se concentre sur la fourniture de descriptions détaillées qui incluent à la fois le contenu et la disposition de la GUI.
Comment Fonctionne le Tree-of-Lens
L'agent ToL commence par recevoir un point de coordonnées et une capture d'écran de la GUI. Il construit ensuite son Arbre de Disposition Hiérarchique, qui organise les informations de disposition de l'écran. Les nœuds de cet arbre représentent différentes régions de la GUI, allant de sections larges comme des panneaux à des éléments spécifiques comme des boutons.
Pour créer cet arbre, nous avons formé un modèle de détection en utilisant un nouveau jeu de données qui comprend un grand nombre de captures d'écran étiquetées d'applications Android. Ce modèle peut automatiquement identifier à la fois des régions globales et locales au sein d'une capture d'écran.
La Référence et le Processus de Test
Nous avons introduit la référence Screen Point-and-Read, qui contient une grande variété de captures d'écran. Chaque capture d'écran a été annotée avec des points cibles, ce qui nous permet de évaluer comment les modèles, y compris notre agent ToL, performent sur la tâche ScreenPR.
Grâce à des tests rigoureux, nous avons constaté que l'agent ToL surpassait les autres modèles dans la génération de descriptions précises à la fois du contenu et de la disposition. Les évaluations humaines ont également montré que l'agent ToL fournissait les résultats les plus favorables par rapport aux autres systèmes.
Résoudre les Problèmes de Navigation
En plus de lire les écrans, nous avons également appliqué l'agent ToL pour évaluer les actions d'un agent de navigation mobile. Lorsque l'agent mobile entreprend des actions sur l'écran, l'agent ToL décrit le contexte de chaque action. Cette information aide à déterminer si les actions entreprises sont correctes en fonction de l'objectif de l'utilisateur.
Nous avons collecté des données à partir de diverses tâches d'agents mobiles pour valider l'efficacité de l'agent ToL dans l'identification des actions incorrectes. Les résultats étaient prometteurs, montrant que l'agent ToL peut considérablement améliorer le processus de prise de décision pour les navigateurs mobiles.
Conclusion et Travaux Futurs
Le travail derrière l'agent Tree-of-Lens et la référence Screen Point-and-Read représente une avancée significative vers l'amélioration de l'accessibilité pour les utilisateurs ayant des handicaps visuels. En fournissant des descriptions riches, conscientes de la disposition, du contenu de l'écran, l'agent ToL améliore la façon dont les utilisateurs interagissent avec les interfaces numériques.
Malgré ces avancées, des défis persistent. La dépendance à des modèles d'IA de grande taille peut entraîner des retards et des coûts, rendant les applications dans le monde réel difficiles. Les travaux futurs devront se concentrer sur la création de solutions plus efficaces et conviviales tout en garantissant la sécurité du contenu généré.
Dans l'ensemble, l'agent ToL se distingue par sa capacité à combiner la compréhension du contenu avec la compréhension de la disposition, ouvrant la voie à de futurs développements dans la technologie accessible.
Titre: Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding
Résumé: Graphical User Interfaces (GUIs) are central to our interaction with digital devices and growing efforts have been made to build models for various GUI understanding tasks. However, these efforts largely overlook an important GUI-referring task: screen reading based on user-indicated points, which we name the Screen Point-and-Read (ScreenPR) task. Currently, this task is predominantly handled by rigid accessible screen reading tools, in great need of new models driven by advancements in Multimodal Large Language Models (MLLMs). In this paper, we propose a Tree-of-Lens (ToL) agent, utilizing a novel ToL grounding mechanism, to address the ScreenPR task. Based on the input point coordinate and the corresponding GUI screenshot, our ToL agent constructs a Hierarchical Layout Tree. Based on the tree, our ToL agent not only comprehends the content of the indicated area but also articulates the layout and spatial relationships between elements. Such layout information is crucial for accurately interpreting information on the screen, distinguishing our ToL agent from other screen reading tools. We also thoroughly evaluate the ToL agent against other baselines on a newly proposed ScreenPR benchmark, which includes GUIs from mobile, web, and operating systems. Last but not least, we test the ToL agent on mobile GUI navigation tasks, demonstrating its utility in identifying incorrect actions along the path of agent execution trajectories. Code and data: https://screen-point-and-read.github.io
Auteurs: Yue Fan, Lei Ding, Ching-Chen Kuo, Shan Jiang, Yang Zhao, Xinze Guan, Jie Yang, Yi Zhang, Xin Eric Wang
Dernière mise à jour: 2024-10-25 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.19263
Source PDF: https://arxiv.org/pdf/2406.19263
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.