Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Visão computacional e reconhecimento de padrões

Melhorando a Leitura de Tela para Deficiências Visuais

Um novo sistema de IA melhora a acessibilidade para usuários com deficiências visuais por meio de uma melhor leitura de tela.

― 6 min ler


A IA Melhora o Acesso àA IA Melhora o Acesso àLeitura de Telapara usuários com deficiência visual.Novo modelo melhora a interação na tela
Índice

As Interfaces Gráficas de Usuário (GUIs) são a principal forma de interagirmos com nossos dispositivos digitais. À medida que a tecnologia continua a evoluir, há uma necessidade crescente de ajudar os usuários a entenderem melhor essas interfaces, especialmente aqueles que podem ter dificuldade de visão. Esforços recentes se concentraram em desenvolver modelos de IA que podem interpretar GUIs, mas muitas dessas ferramentas perdem uma tarefa importante: ler a tela com base em pontos específicos escolhidos pelos usuários. Isso é referido como a tarefa de Ponto e Leitura de Tela (Screen Point-and-Read, ScreenPR).

O Desafio da Leitura de Tela

Normalmente, as ferramentas de leitura de tela são rígidas e não conseguem se adaptar muito bem a diferentes partes da tela. Há uma necessidade de um novo modelo que utilize os avanços recentes em IA, particularmente Modelos de Linguagem Multimodais de Grande Escala (MLLMs), para melhorar a forma como a leitura de tela funciona. A tarefa é simples: quando um usuário aponta para um local específico na tela, queremos fornecer uma descrição clara do que essa área contém e como se encaixa na disposição geral.

Apresentando o Agente Tree-of-Lens

Para abordar a tarefa de ScreenPR, desenvolvemos um novo sistema chamado agente Tree-of-Lens (ToL). Este agente utiliza um mecanismo de ancoragem único para entender a disposição da tela. Ele começa com o ponto do usuário e a captura de tela correspondente para construir uma Árvore de Disposição Hierárquica. Esta árvore ajuda o agente a entender não apenas o conteúdo do segmento, mas também como ele se relaciona com outros elementos na tela.

Os detalhes da disposição são essenciais para interpretar com precisão o que está sendo mostrado na tela. Ao transmitir essas informações de disposição, o agente ToL se destaca das ferramentas existentes.

Avaliação do Agente ToL

Testamos rigorosamente o agente ToL em comparação a outros modelos usando um novo benchmark especificamente projetado para a tarefa ScreenPR. Este benchmark inclui capturas de tela de vários tipos de GUIs, como aplicativos móveis e páginas da web. Nossos testes mostram que o agente ToL apresenta um desempenho significativamente melhor que a concorrência, alcançando maior precisão tanto nas descrições de conteúdo quanto de disposição.

Também exploramos como o agente ToL poderia ajudar em tarefas de navegação em GUIs móveis. Ao analisar as ações tomadas durante a navegação, ele foi capaz de identificar erros e aprimorar o processo de navegação.

A Importância da Disposição na Leitura de Tela

As GUIs são ricas em informações visuais. Elas contêm cores, ícones, texto e arranjos espaciais, que podem ser frequentemente confusos. Uma compreensão clara da disposição é crítica para dar sentido a essas informações. Por exemplo, se dois elementos parecem iguais, mas estão colocados em locais diferentes, identificar suas posições pode evitar mal-entendidos.

Nosso agente ToL se concentra em fornecer descrições detalhadas que incluem tanto o conteúdo quanto a disposição da GUI.

Como Funciona o Tree-of-Lens

O agente ToL começa recebendo uma coordenada de ponto e uma captura de tela da GUI. Em seguida, constrói sua Árvore de Disposição Hierárquica, que organiza as informações de disposição da tela. Os nós desta árvore representam diferentes regiões da GUI, variando de seções amplas, como painéis, a elementos específicos, como botões.

Para criar essa árvore, treinamos um modelo de detecção usando um novo conjunto de dados que inclui um grande número de capturas de tela rotuladas de aplicativos Android. Este modelo pode identificar automaticamente tanto regiões globais quanto locais dentro de uma captura de tela.

O Benchmark e o Processo de Teste

Introduzimos o benchmark Screen Point-and-Read, que contém uma ampla variedade de capturas de tela. Cada captura de tela foi anotada com pontos alvo, permitindo-nos avaliar quão bem os modelos, incluindo nosso agente ToL, se saem na tarefa ScreenPR.

Por meio de testes rigorosos, descobrimos que o agente ToL superou outros modelos na geração de descrições precisas tanto do conteúdo quanto da disposição. As avaliações humanas também mostraram que o agente ToL forneceu os resultados mais favoráveis em comparação com outros sistemas.

Abordando Questões de Navegação

Além de ler telas, também aplicamos o agente ToL para avaliar as ações de um agente de navegação móvel. Quando o agente móvel realiza ações na tela, o agente ToL descreve o contexto de cada ação. Essas informações ajudam a determinar se as ações que estão sendo tomadas são corretas com base no objetivo do usuário.

Coletamos dados de várias tarefas de agentes móveis para validar a eficácia do agente ToL em identificar ações incorretas. Os resultados foram promissores, mostrando que o agente ToL pode aprimorar significativamente o processo de tomada de decisão para navegadores móveis.

Conclusão e Trabalhos Futuros

O trabalho por trás do agente Tree-of-Lens e do benchmark Screen Point-and-Read representa um passo significativo em direção à melhoria da acessibilidade para usuários com deficiências visuais. Ao fornecer descrições ricas e cientes da disposição do conteúdo da tela, o agente ToL melhora a forma como os usuários interagem com interfaces digitais.

Apesar desses avanços, ainda existem desafios. A dependência de grandes modelos de IA pode levar a atrasos e custos, dificultando as aplicações no mundo real. Trabalhos futuros precisarão se concentrar na criação de soluções mais eficientes e amigáveis ao usuário, garantindo ao mesmo tempo a segurança do conteúdo gerado.

No geral, o agente ToL se destaca por sua capacidade de combinar a compreensão do conteúdo com a compreensão da disposição, abrindo o caminho para futuros desenvolvimentos em tecnologia acessível.

Fonte original

Título: Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

Resumo: Graphical User Interfaces (GUIs) are central to our interaction with digital devices and growing efforts have been made to build models for various GUI understanding tasks. However, these efforts largely overlook an important GUI-referring task: screen reading based on user-indicated points, which we name the Screen Point-and-Read (ScreenPR) task. Currently, this task is predominantly handled by rigid accessible screen reading tools, in great need of new models driven by advancements in Multimodal Large Language Models (MLLMs). In this paper, we propose a Tree-of-Lens (ToL) agent, utilizing a novel ToL grounding mechanism, to address the ScreenPR task. Based on the input point coordinate and the corresponding GUI screenshot, our ToL agent constructs a Hierarchical Layout Tree. Based on the tree, our ToL agent not only comprehends the content of the indicated area but also articulates the layout and spatial relationships between elements. Such layout information is crucial for accurately interpreting information on the screen, distinguishing our ToL agent from other screen reading tools. We also thoroughly evaluate the ToL agent against other baselines on a newly proposed ScreenPR benchmark, which includes GUIs from mobile, web, and operating systems. Last but not least, we test the ToL agent on mobile GUI navigation tasks, demonstrating its utility in identifying incorrect actions along the path of agent execution trajectories. Code and data: https://screen-point-and-read.github.io

Autores: Yue Fan, Lei Ding, Ching-Chen Kuo, Shan Jiang, Yang Zhao, Xinze Guan, Jie Yang, Yi Zhang, Xin Eric Wang

Última atualização: 2024-10-25 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.19263

Fonte PDF: https://arxiv.org/pdf/2406.19263

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes