Simple Science

La science de pointe expliquée simplement

# Informatique # Interaction homme-machine # Génie logiciel

Améliorer l'accessibilité avec la génération automatique de texte alternatif

Une nouvelle méthode vise à améliorer le texte alt pour les icônes d'applis mobiles afin d'aider les utilisateurs malvoyants.

Sabrina Haque, Christoph Csallner

― 6 min lire


Automatisation du texte Automatisation du texte alternatif pour l'accessibilité améliorant l'accès pour tous les alternatif pour les icônes d'app, Une nouvelle méthode génère du texte
Table des matières

Rendre les applis mobiles accessibles à tous, surtout aux personnes malvoyantes, c'est un gros défi. Beaucoup de gens dépendent des applis pour diverses tâches, mais souvent, ces applis ne donnent pas assez d'infos pour ceux qui utilisent des lecteurs d'écran. Ça complique la navigation et l'utilisation des fonctionnalités de l'appli. Une grande partie du problème vient du manque de descriptions significatives pour les petites images ou icônes sur lesquelles les utilisateurs cliquent pour interagir avec l'appli.

L'Importance de l'Alt-Text

Les icônes jouent un rôle crucial dans la façon dont les utilisateurs interagissent avec les applis mobiles. Elles aident à naviguer et à effectuer des actions sans prendre trop de place sur l'écran. Cependant, beaucoup d'icônes manquent de bonnes descriptions, appelées alt-text. L'alt-text est super important car il permet aux technologies d'assistance, comme les lecteurs d'écran, d'expliquer ce que font les icônes aux utilisateurs malvoyants. Quand l'alt-text est absent ou flou, ça crée des obstacles pour utiliser l'appli.

Défis Actuels

Les méthodes traditionnelles pour créer de l'alt-text avec l'apprentissage profond nécessitent de grandes quantités de données. Ces méthodes ne fonctionnent parfois pas bien avec la variété d'icônes utilisées dans différentes applis. Ça pose des problèmes pour générer des descriptions précises pour des icônes moins courantes. De plus, les modèles récents qui combinent info visuelle et texte, appelés Modèles de Langage Visuel (VLM), exigent souvent des captures d'écran complètes de l'appli. Cela peut être problématique pendant les premières étapes de développement d'une appli quand le design n'est pas encore fini.

Une Nouvelle Approche

Pour relever ces défis, on propose une nouvelle méthode utilisant de Grands Modèles de Langage (LLM) pour créer automatiquement des alt-text utiles pour les icônes d'applis mobiles. En s'appuyant sur des infos de base sur les icônes, comme leur type, leurs ID de ressources et le contexte environnant dans l'appli, on peut produire des descriptions significatives.

Comment Ça Marche

  1. Contexte de l'Icône : Lors de la génération de l'alt-text, on collecte des infos sur le contexte de l'icône. Ça inclut des détails comme les noms de classe, les identifiants, et tout texte associé à l'icône.

  2. Description de l'Icône : Les caractéristiques visuelles de l'icône sont analysées pour créer une description basique. On utilise un modèle multimodal qui peut traiter images et texte.

  3. Combinaison d'Infos : Les caractéristiques et les infos de contexte de l'icône sont ensuite combinées dans une invite pour le LLM. Ça aide à générer un alt-text plus pertinent et précis pour l'icône.

Évaluation de Notre Méthode

On a testé notre nouvelle approche contre des méthodes existantes pour voir comment elle s'en sort. Pour notre évaluation, on a utilisé un dataset avec 1 635 icônes contenant des alt-text générés par des humains. On a comparé notre alt-text généré avec des approches traditionnelles de deep learning et des VLM modernes.

Métriques de Comparaison

Pour mesurer comment notre alt-text correspondait aux descriptions de référence, on a utilisé plusieurs métriques. Celles-ci incluent :

  • BLEU : Ça évalue à quel point notre texte généré correspond au texte de référence en fonction des séquences de mots.

  • ROUGE : Ça mesure combien d'infos importantes dans le texte de référence sont capturées par notre texte généré.

  • CIDEr : Ça va au-delà du simple match de mots et regarde l'importance des mots selon leur rareté dans le dataset.

  • SPICE : Ça se concentre sur la compréhension des significations derrière les mots en analysant leur structure sémantique sous-jacente.

Résultats de l'Évaluation

Nos résultats ont montré que notre méthode surpasse constamment les méthodes existantes, particulièrement dans la génération d'alt-text pertinent pour des écrans partiels. Elle nécessite aussi un dataset beaucoup plus petit pour l'entraînement par rapport aux méthodes traditionnelles, ce qui la rend plus efficace.

Étude Utilisateur

Pour comprendre à quel point notre alt-text généré serait utile dans des scénarios réels, on a aussi conduit une étude utilisateur avec des participants. Ils ont reçu des paires d'écrans et d'alt-text provenant de différents modèles. Les participants ont évalué la précision de chaque description.

Résultats de l'Étude Utilisateur

Les participants ont généralement noté positivement l'alt-text généré par notre méthode, souvent en le comparant favorablement aux standards de référence. Cela suggère que notre approche est efficace pour fournir des descriptions contextuellement pertinentes pour les icônes, améliorant l'ergonomie pour les utilisateurs malvoyants.

Conclusion

L'Accessibilité est cruciale dans le développement d'applis mobiles. Notre nouvelle approche pour générer de l'alt-text pour les icônes est prometteuse, surtout pour les développeurs cherchant à améliorer l'accessibilité sans avoir besoin de gros datasets. En intégrant cette méthode dans les outils de développement, on espère en faire une pratique standard pour la génération d'alt-text dans les applis mobiles. Ça peut aider à construire des environnements numériques plus inclusifs pour tout le monde.

Travaux Futurs

En regardant vers l'avenir, il y a plusieurs domaines qu'on pourrait explorer pour améliorer encore notre approche. Ceux-ci incluent :

  1. Élargir le Dataset : Rassembler plus de datasets d'icônes diversifiés pour améliorer l'exactitude de la génération d'alt-text.

  2. Mises à Jour en Temps Réel : Développer des méthodes permettant la génération en temps réel de l'alt-text à mesure que les designs d'applis évoluent.

  3. Feedback Utilisateur : Intégrer le feedback des utilisateurs dans le système pour affiner continuellement le processus de génération d'alt-text.

  4. Intégration avec les Outils de Développement : Créer des plugins ou des fonctionnalités dans des environnements de développement populaires pour faciliter le processus de génération d'alt-text pendant le développement d'applis.

  5. Application Plus Large : Adapter l'approche à d'autres éléments d'UI, pas seulement aux icônes, pour créer une solution d'accessibilité plus complète.

En se concentrant sur ces domaines, on peut améliorer l’efficacité de notre méthode et contribuer à un paysage d'applis mobiles plus accessible.

Source originale

Titre: Inferring Alt-text For UI Icons With Large Language Models During App Development

Résumé: Ensuring accessibility in mobile applications remains a significant challenge, particularly for visually impaired users who rely on screen readers. User interface icons are essential for navigation and interaction and often lack meaningful alt-text, creating barriers to effective use. Traditional deep learning approaches for generating alt-text require extensive datasets and struggle with the diversity and imbalance of icon types. More recent Vision Language Models (VLMs) require complete UI screens, which can be impractical during the iterative phases of app development. To address these issues, we introduce a novel method using Large Language Models (LLMs) to autonomously generate informative alt-text for mobile UI icons with partial UI data. By incorporating icon context, that include class, resource ID, bounds, OCR-detected text, and contextual information from parent and sibling nodes, we fine-tune an off-the-shelf LLM on a small dataset of approximately 1.4k icons, yielding IconDesc. In an empirical evaluation and a user study IconDesc demonstrates significant improvements in generating relevant alt-text. This ability makes IconDesc an invaluable tool for developers, aiding in the rapid iteration and enhancement of UI accessibility.

Auteurs: Sabrina Haque, Christoph Csallner

Dernière mise à jour: 2024-10-07 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.18060

Source PDF: https://arxiv.org/pdf/2409.18060

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires

Vision par ordinateur et reconnaissance des formes Améliorer la reconnaissance des scènes sous-marines avec un focus ciblé

Une nouvelle méthode améliore la précision dans la classification d'images sous-marines en isolant des caractéristiques clés.

Jianqi Zhang, Mengxuan Wang, Jingyao Wang

― 8 min lire