Mejorando la accesibilidad con generación automática de texto alternativo
Un nuevo método busca mejorar el texto alternativo para los íconos de aplicaciones móviles para ayudar a los usuarios con discapacidades visuales.
Sabrina Haque, Christoph Csallner
― 6 minilectura
Tabla de contenidos
Hacer que las aplicaciones móviles sean accesibles para todos, especialmente para los que tienen problemas de visión, es un gran desafío. Mucha gente depende de estas aplicaciones para varias tareas, pero a menudo no ofrecen suficiente información para quienes usan lectores de pantalla. Esto genera dificultades al navegar y usar las funciones de la app. Una parte importante de este problema es la falta de descripciones significativas para las imágenes pequeñas o íconos que los usuarios tocan para interactuar con la app.
La Importancia del Alt-Text
Los íconos juegan un rol crucial en cómo los usuarios interactúan con las aplicaciones móviles. Ayudan a navegar y realizar acciones sin ocupar mucho espacio en la pantalla. Sin embargo, muchos íconos no tienen descripciones adecuadas, conocidas como alt-text. El alt-text es importante porque permite que tecnologías asistivas, como los lectores de pantalla, expliquen lo que hacen los íconos a los usuarios con discapacidad visual. Cuando falta el alt-text o no es claro, se crean obstáculos para usar la aplicación.
Desafíos Actuales
Los métodos tradicionales para crear alt-text usando aprendizaje profundo requieren grandes cantidades de datos. A veces, estos métodos no funcionan bien con la variedad de íconos que se usan en diferentes aplicaciones. Esto lleva a problemas para generar descripciones precisas para íconos menos comunes. Además, los modelos recientes que combinan información visual y textual, conocidos como Modelos de Lenguaje Visual (VLM), a menudo requieren capturas de pantalla completas de la app. Esto puede ser un problema durante las etapas iniciales de desarrollo, cuando el diseño aún no está terminado.
Un Nuevo Enfoque
Para abordar estos desafíos, proponemos un nuevo método que usa Modelos de Lenguaje Grandes (LLMs) para crear automáticamente alt-text útil para íconos de aplicaciones móviles. Aprovechando información básica sobre los íconos, como su tipo, IDs de recursos y contexto a su alrededor en la app, podemos producir descripciones significativas.
Cómo Funciona
-
Contexto del Ícono: Al generar alt-text, recopilamos información sobre el contexto del ícono. Esto incluye detalles como nombres de clase, identificadores y cualquier texto asociado con el ícono.
-
Descripción del Ícono: Se analizan las características visuales del ícono para crear una descripción básica. Esto se hace con un modelo multimodal que puede procesar imágenes y texto.
-
Combinando Información: Las características del ícono y la información del contexto se combinan en un aviso para el LLM. Esto ayuda a generar un alt-text más relevante y preciso para el ícono.
Evaluando Nuestro Método
Probamos nuestro nuevo enfoque en comparación con métodos existentes para ver qué tan bien funciona. Para nuestra Evaluación, usamos un conjunto de datos con 1,635 íconos que contenían alt-text generado por humanos. Comparamos nuestro alt-text generado con enfoques tradicionales de aprendizaje profundo y modelos VLM modernos.
Métricas para Comparación
Para medir qué tan bien nuestro alt-text coincidía con las descripciones de referencia, usamos varias métricas. Estas incluyen:
-
BLEU: Esto evalúa qué tan cerca está nuestro texto generado del texto de referencia basándose en la coincidencia de secuencias de palabras.
-
ROUGE: Mide cuánto de la información importante del texto de referencia es capturada por nuestro texto generado.
-
CIDEr: Va más allá de solo coincidir palabras y evalúa la importancia de las palabras en función de su rareza en el conjunto de datos.
-
SPICE: Se enfoca en entender los significados detrás de las palabras analizando su estructura semántica subyacente.
Resultados de la Evaluación
Nuestros hallazgos mostraron que nuestro método superó consistentemente a los enfoques existentes, especialmente en la generación de alt-text relevante para pantallas parciales. También necesitó un conjunto de datos mucho más pequeño para el entrenamiento en comparación con los métodos tradicionales de aprendizaje profundo, lo que lo hace más eficiente.
Estudio de Usuario
Para entender cuán útil podría ser nuestro alt-text generado en escenarios del mundo real, también realizamos un estudio de usuario con participantes. Se les presentaron pares de pantallas y alt-text de diferentes modelos. Los participantes calificaron la precisión de cada descripción.
Hallazgos del Estudio de Usuario
Los participantes generalmente calificaron el alt-text generado por nuestro método de manera positiva, a menudo comparándolo favorablemente con estándares de referencia. Esto sugiere que nuestro enfoque es efectivo para proporcionar descripciones contextualmente relevantes para íconos, mejorando la usabilidad para usuarios con discapacidad visual.
Conclusión
La Accesibilidad es crucial en el desarrollo de aplicaciones móviles. Nuestro nuevo enfoque para generar alt-text para íconos es prometedor, especialmente para los desarrolladores que buscan mejorar la accesibilidad sin necesidad de grandes conjuntos de datos. Al integrar este método en herramientas de desarrollo, esperamos que se vuelva una práctica estándar para la generación de alt-text en aplicaciones móviles. Esto puede ayudar a construir entornos digitales más inclusivos para todos.
Trabajo Futuro
Mirando hacia el futuro, hay varias áreas que podríamos explorar para mejorar aún más nuestro enfoque. Estas incluyen:
-
Ampliar el Conjunto de Datos: Recolectar conjuntos de íconos más diversos para mejorar la precisión de la generación de alt-text.
-
Actualizaciones en Tiempo Real: Desarrollar métodos que permitan la generación en tiempo real de alt-text a medida que evolucionan los diseños de la app.
-
Retroalimentación de Usuarios: Incorporar la retroalimentación de los usuarios en el sistema para refinar continuamente el proceso de generación de alt-text.
-
Integración con Herramientas de Desarrollo: Crear complementos o funciones en entornos de desarrollo populares para agilizar el proceso de generación de alt-text durante el desarrollo de la app.
-
Aplicación Más Amplia: Adaptar el enfoque para otros elementos de la interfaz de usuario, no solo íconos, para crear una solución de accesibilidad más integral.
Al enfocarnos en estas áreas, podemos mejorar la efectividad de nuestro método y contribuir a un paisaje de aplicaciones móviles más accesible.
Título: Inferring Alt-text For UI Icons With Large Language Models During App Development
Resumen: Ensuring accessibility in mobile applications remains a significant challenge, particularly for visually impaired users who rely on screen readers. User interface icons are essential for navigation and interaction and often lack meaningful alt-text, creating barriers to effective use. Traditional deep learning approaches for generating alt-text require extensive datasets and struggle with the diversity and imbalance of icon types. More recent Vision Language Models (VLMs) require complete UI screens, which can be impractical during the iterative phases of app development. To address these issues, we introduce a novel method using Large Language Models (LLMs) to autonomously generate informative alt-text for mobile UI icons with partial UI data. By incorporating icon context, that include class, resource ID, bounds, OCR-detected text, and contextual information from parent and sibling nodes, we fine-tune an off-the-shelf LLM on a small dataset of approximately 1.4k icons, yielding IconDesc. In an empirical evaluation and a user study IconDesc demonstrates significant improvements in generating relevant alt-text. This ability makes IconDesc an invaluable tool for developers, aiding in the rapid iteration and enhancement of UI accessibility.
Autores: Sabrina Haque, Christoph Csallner
Última actualización: 2024-10-07 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2409.18060
Fuente PDF: https://arxiv.org/pdf/2409.18060
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.