Melhorando a Leitura de Tela para Deficiências Visuais

Um novo sistema de IA melhora a acessibilidade para usuários com deficiências visuais por meio de uma melhor leitura de tela.

2025-07-23T10:27:06+00:00 ― 6 min ler

Índice

O Desafio da Leitura de Tela
Apresentando o Agente Tree-of-Lens
Avaliação do Agente ToL
A Importância da Disposição na Leitura de Tela
Como Funciona o Tree-of-Lens
O Benchmark e o Processo de Teste
Abordando Questões de Navegação
Conclusão e Trabalhos Futuros
Fonte original
Ligações de referência

As Interfaces Gráficas de Usuário (GUIs) são a principal forma de interagirmos com nossos dispositivos digitais. À medida que a tecnologia continua a evoluir, há uma necessidade crescente de ajudar os usuários a entenderem melhor essas interfaces, especialmente aqueles que podem ter dificuldade de visão. Esforços recentes se concentraram em desenvolver modelos de IA que podem interpretar GUIs, mas muitas dessas ferramentas perdem uma tarefa importante: ler a tela com base em pontos específicos escolhidos pelos usuários. Isso é referido como a tarefa de Ponto e Leitura de Tela (Screen Point-and-Read, ScreenPR).

O Desafio da Leitura de Tela

Normalmente, as ferramentas de leitura de tela são rígidas e não conseguem se adaptar muito bem a diferentes partes da tela. Há uma necessidade de um novo modelo que utilize os avanços recentes em IA, particularmente Modelos de Linguagem Multimodais de Grande Escala (MLLMs), para melhorar a forma como a leitura de tela funciona. A tarefa é simples: quando um usuário aponta para um local específico na tela, queremos fornecer uma descrição clara do que essa área contém e como se encaixa na disposição geral.

Apresentando o Agente Tree-of-Lens

Para abordar a tarefa de ScreenPR, desenvolvemos um novo sistema chamado agente Tree-of-Lens (ToL). Este agente utiliza um mecanismo de ancoragem único para entender a disposição da tela. Ele começa com o ponto do usuário e a captura de tela correspondente para construir uma Árvore de Disposição Hierárquica. Esta árvore ajuda o agente a entender não apenas o conteúdo do segmento, mas também como ele se relaciona com outros elementos na tela.

Os detalhes da disposição são essenciais para interpretar com precisão o que está sendo mostrado na tela. Ao transmitir essas informações de disposição, o agente ToL se destaca das ferramentas existentes.

Avaliação do Agente ToL

Testamos rigorosamente o agente ToL em comparação a outros modelos usando um novo benchmark especificamente projetado para a tarefa ScreenPR. Este benchmark inclui capturas de tela de vários tipos de GUIs, como aplicativos móveis e páginas da web. Nossos testes mostram que o agente ToL apresenta um desempenho significativamente melhor que a concorrência, alcançando maior precisão tanto nas descrições de conteúdo quanto de disposição.

Também exploramos como o agente ToL poderia ajudar em tarefas de navegação em GUIs móveis. Ao analisar as ações tomadas durante a navegação, ele foi capaz de identificar erros e aprimorar o processo de navegação.

A Importância da Disposição na Leitura de Tela

As GUIs são ricas em informações visuais. Elas contêm cores, ícones, texto e arranjos espaciais, que podem ser frequentemente confusos. Uma compreensão clara da disposição é crítica para dar sentido a essas informações. Por exemplo, se dois elementos parecem iguais, mas estão colocados em locais diferentes, identificar suas posições pode evitar mal-entendidos.

Nosso agente ToL se concentra em fornecer descrições detalhadas que incluem tanto o conteúdo quanto a disposição da GUI.

Como Funciona o Tree-of-Lens

O agente ToL começa recebendo uma coordenada de ponto e uma captura de tela da GUI. Em seguida, constrói sua Árvore de Disposição Hierárquica, que organiza as informações de disposição da tela. Os nós desta árvore representam diferentes regiões da GUI, variando de seções amplas, como painéis, a elementos específicos, como botões.

Para criar essa árvore, treinamos um modelo de detecção usando um novo conjunto de dados que inclui um grande número de capturas de tela rotuladas de aplicativos Android. Este modelo pode identificar automaticamente tanto regiões globais quanto locais dentro de uma captura de tela.

O Benchmark e o Processo de Teste

Introduzimos o benchmark Screen Point-and-Read, que contém uma ampla variedade de capturas de tela. Cada captura de tela foi anotada com pontos alvo, permitindo-nos avaliar quão bem os modelos, incluindo nosso agente ToL, se saem na tarefa ScreenPR.

Por meio de testes rigorosos, descobrimos que o agente ToL superou outros modelos na geração de descrições precisas tanto do conteúdo quanto da disposição. As avaliações humanas também mostraram que o agente ToL forneceu os resultados mais favoráveis em comparação com outros sistemas.

Abordando Questões de Navegação

Além de ler telas, também aplicamos o agente ToL para avaliar as ações de um agente de navegação móvel. Quando o agente móvel realiza ações na tela, o agente ToL descreve o contexto de cada ação. Essas informações ajudam a determinar se as ações que estão sendo tomadas são corretas com base no objetivo do usuário.

Coletamos dados de várias tarefas de agentes móveis para validar a eficácia do agente ToL em identificar ações incorretas. Os resultados foram promissores, mostrando que o agente ToL pode aprimorar significativamente o processo de tomada de decisão para navegadores móveis.

Conclusão e Trabalhos Futuros

O trabalho por trás do agente Tree-of-Lens e do benchmark Screen Point-and-Read representa um passo significativo em direção à melhoria da acessibilidade para usuários com deficiências visuais. Ao fornecer descrições ricas e cientes da disposição do conteúdo da tela, o agente ToL melhora a forma como os usuários interagem com interfaces digitais.

Apesar desses avanços, ainda existem desafios. A dependência de grandes modelos de IA pode levar a atrasos e custos, dificultando as aplicações no mundo real. Trabalhos futuros precisarão se concentrar na criação de soluções mais eficientes e amigáveis ao usuário, garantindo ao mesmo tempo a segurança do conteúdo gerado.

No geral, o agente ToL se destaca por sua capacidade de combinar a compreensão do conteúdo com a compreensão da disposição, abrindo o caminho para futuros desenvolvimentos em tecnologia acessível.

Melhorando a Leitura de Tela para Deficiências Visuais

Um novo sistema de IA melhora a acessibilidade para usuários com deficiências visuais por meio de uma melhor leitura de tela.

#O Desafio da Leitura de Tela

#Apresentando o Agente Tree-of-Lens

#Avaliação do Agente ToL

#A Importância da Disposição na Leitura de Tela

#Como Funciona o Tree-of-Lens

#O Benchmark e o Processo de Teste

#Abordando Questões de Navegação

#Conclusão e Trabalhos Futuros

Ligações de referência

Tópicos referenciados