Simple Science

Ciência de ponta explicada de forma simples

# Informática# Interação Homem-Computador

Nova Ferramenta para Usuários Cegos Simplifica Tarefas no Computador

Uma ferramenta de comando de voz ajuda usuários cegos a navegar em aplicativos com facilidade.

― 8 min ler


Ferramentas de Voz paraFerramentas de Voz paraCegoscomandos de voz.Uso mais fácil do computador com
Índice

Pessoas que são cegas enfrentam várias dificuldades ao usar computadores. Elas dependem de ferramentas assistivas chamadas leitores de tela, que leem o que tá na tela pra ajudar na interação com aplicações. Porém, a forma como essas aplicações são projetadas pode dificultar a navegação e a conclusão de tarefas. Cada aplicativo tem seu jeito único de apresentar controles e opções. Isso significa que os usuários cegos têm que lembrar de diferentes atalhos de teclado e métodos de navegação para cada aplicativo que usam.

Pra facilitar as coisas, desenvolvemos uma nova Tecnologia Assistiva que ajuda usuários cegos a trabalhar com qualquer aplicativo usando apenas alguns Comandos de Voz simples. Essa ferramenta permite que os usuários interajam com as aplicações de uma maneira mais uniforme, reduzindo a necessidade de decorar vários atalhos. Nossa abordagem é movida por grandes modelos de linguagem, que nos ajudam a entender e responder aos comandos falados de forma mais natural.

O Problema

Indivíduos cegos enfrentam dificuldades significativas ao tentar usar aplicações de computador. Essas dificuldades vêm dos elementos visuais das aplicações, que são mais projetadas para usuários que enxergam do que pra quem depende de feedback auditivo. A inconsistência entre diferentes interfaces de aplicativos pode criar uma carga cognitiva pesada, dificultando a realização de tarefas do dia a dia.

Por exemplo, em diferentes players de mídia como VLC e Windows Media Player, os atalhos de teclado pra tocar ou pausar a mídia são diferentes. Isso significa que um usuário cego tem que decorar atalhos únicos pra cada aplicativo, o que aumenta a frustração e os atrasa. Além disso, os próprios leitores de tela podem ter atalhos variados pra acionar as mesmas funções, complicando ainda mais a experiência do usuário.

Nossa Solução

Nossa nova ferramenta permite que usuários cegos interajam com várias aplicações usando comandos de linguagem natural em vez de atalhos de teclado. Essa facilidade de uso é alcançada incorporando grandes modelos de linguagem (LLMs) na tecnologia. Veja como funciona:

Interagindo Com Aplicações

Em vez de depender de um monte de atalhos, os usuários podem simplesmente falar um comando como “definir a margem como estreita” ao usar um aplicativo de processamento de texto como o Microsoft Word. Nosso sistema entende esse comando falado e executa imediatamente as ações necessárias no aplicativo, simulando os atalhos de teclado equivalentes sem exigir que o usuário os memorize.

Por exemplo, um usuário que quer mudar a margem teria que navegar por vários menus e pressionar várias teclas. Com nossa ferramenta, isso pode ser feito com um único comando de voz. O modelo de linguagem interpreta a intenção e realiza os passos necessários pra completar a ação.

Automação de Tarefas

Nossa ferramenta não só ajuda os usuários a realizar ações com menos comandos; ela também automatiza uma sequência de ações que o usuário teria que realizar manualmente. Se um usuário diz: “atualizar a margem para estreita”, a tecnologia pega essa instrução, determina a série necessária de passos e então executa na ordem correta.

Isso elimina a necessidade de os usuários completarem ações complicadas uma a uma, o que pode ser especialmente difícil pra quem pode ter dificuldade com o uso preciso do teclado. Ao permitir comandos flexíveis, o sistema também consegue entender variações de como um comando é falado. Então, se um usuário diz, “mudar a margem para estreita” ou “criar uma margem estreita”, o sistema ainda executa a mesma tarefa.

Estudo com Usuários

Pra garantir que nossa tecnologia seja eficaz, fizemos um estudo com participantes cegos. Queríamos comparar nosso novo sistema com métodos tradicionais de interação com aplicações. Os participantes foram convidados a completar tarefas usando nossa interface, um Leitor de tela tradicional e uma nova interface pop-up projetada pra acessar os controles das aplicações.

Participantes

Recrutamos indivíduos que dependem de leitores de tela pro trabalho no computador. Eles estavam familiarizados com diferentes tecnologias assistivas e tinham experiência com várias aplicações. O estudo foi projetado pra ser inclusivo e representativo dos desafios que usuários cegos enfrentam.

Design do Estudo

Os participantes tinham que completar tarefas em aplicações comuns como Excel, Word e clientes de email. Eles foram convidados a usar três sistemas diferentes: o leitor de tela regular, uma interface pop-up e nosso sistema de comando de linguagem natural. Os participantes completaram tarefas similares em cada condição, o que permitiu uma comparação eficaz das suas experiências.

Resultados

O estudo mostrou melhorias significativas na eficiência da interação e na experiência do usuário ao usar nosso sistema em comparação com os métodos tradicionais. Os participantes completaram tarefas mais rápido e precisaram de menos pressionamentos de tecla ao usar a interface de linguagem natural. Eles relataram sentir menos frustração e acharam as tarefas mais fáceis no geral.

Em média, os usuários conseguiram completar suas tarefas em menos tempo e com menos erros em comparação com quando usaram leitores de tela padrão. A capacidade de emitir comandos de voz simplificou muito suas interações.

Feedback dos Participantes

Os participantes expressaram preferência pela nossa ferramenta, destacando sua natureza amigável. Muitos notaram que apreciaram a redução no número de pressionamentos de tecla e a simplicidade de navegar pelos comandos. Eles acharam a capacidade do sistema de responder a variações nos comandos particularmente impressionante.

No entanto, alguns participantes também apontaram áreas pra melhora. Eles expressaram o desejo de que o sistema suportasse comandos mais complicados que podem envolver várias etapas ou ações. Foram feitas sugestões pra implementar um recurso de ativação por voz em vez de um botão de pressionar pra falar, o que tornaria o sistema mais acessível em vários ambientes.

Trabalhos Relacionados

Embora já tenha havido várias tentativas de melhorar a acessibilidade pra usuários cegos, muitas soluções existentes se concentram principalmente em aplicações web e mobile. Aplicações desktop receberam menos atenção, mesmo sendo críticas pra produtividade e tarefas diárias.

Pesquisas anteriores mostraram que usuários cegos enfrentam muitas dificuldades de navegação ao usar aplicações desktop padrão. Nosso trabalho busca preencher essa lacuna oferecendo uma solução que proporciona acesso consistente e eficiente aos controles das aplicações.

A maioria das abordagens existentes focou em aprimorar recursos específicos dentro de aplicativos selecionados ou foi limitada a plataformas web e mobile. Nossa solução é distinta em seu objetivo de criar um sistema geral que funcione em várias aplicações desktop, proporcionando uma experiência mais uniforme pros usuários.

Trabalho Futuro

Enquanto olhamos pra frente, pretendemos aprimorar ainda mais essa ferramenta pra abordar suas limitações atuais. Algumas das áreas que vamos explorar incluem:

Suporte a Tarefas Complexas

Nossa tecnologia atualmente se destaca com comandos simples, mas há uma necessidade de lidar melhor com comandos mais complexos que envolvem várias ações. Desenvolvimentos futuros podem incluir a divisão de pedidos complexos em etapas menores pra facilitar a execução.

Lidar com Pop-ups e Diálogos

Outra área pra melhorar no futuro é a capacidade de interagir com janelas pop-up e sub-menus em aplicações. Muitas tarefas exigem navegação por esses elementos, o que pode ser complicado pros sistemas atuais. Vamos planejar refinamentos na tecnologia pra reconhecer e responder a essas camadas adicionais de interação de forma suave.

Suporte a Várias Línguas

Também vemos uma oportunidade em suportar diferentes idiomas. Até agora, nosso foco foi predominantemente em inglês. Permitir que os usuários emitam comandos em vários idiomas poderia expandir muito o alcance e a usabilidade da nossa ferramenta.

Funcionalidade de Palavra de Ativação

Por fim, como sugerido pelos participantes, queremos implementar um recurso de palavra de ativação que permita a ativação sem as mãos do sistema. Isso poderia ser particularmente valioso pra usuários que podem não ter acesso a um teclado o tempo todo ou que podem ter dificuldades com movimentos precisos.

Conclusão

Nossa pesquisa destaca as barreiras que usuários cegos enfrentam na navegação por aplicações de computador e apresenta uma solução que utiliza tecnologia de processamento de linguagem natural pra melhorar a acessibilidade. Ao reduzir a complexidade das interações e oferecer uma maneira mais simples de realizar tarefas, nosso objetivo é criar uma experiência melhor pra pessoas cegas usando computadores.

Os resultados positivos dos nossos estudos mostram o potencial dessa tecnologia pra reduzir a distância entre leitores de tela tradicionais e as necessidades dos usuários modernos, avançando em direção a um ambiente digital mais inclusivo pra todos.

Estamos comprometidos em avançar ainda mais essa tecnologia, incorporando continuamente o feedback dos usuários e buscando melhorar a experiência computacional de pessoas cegas. Nosso objetivo é capacitá-las com melhores ferramentas que apoiem sua independência e eficiência em um mundo digital.

Fonte original

Título: Enabling Uniform Computer Interaction Experience for Blind Users through Large Language Models

Resumo: Blind individuals, who by necessity depend on screen readers to interact with computers, face considerable challenges in navigating the diverse and complex graphical user interfaces of different computer applications. The heterogeneity of various application interfaces often requires blind users to remember different keyboard combinations and navigation methods to use each application effectively. To alleviate this significant interaction burden imposed by heterogeneous application interfaces, we present Savant, a novel assistive technology powered by large language models (LLMs) that allows blind screen reader users to interact uniformly with any application interface through natural language. Novelly, Savant can automate a series of tedious screen reader actions on the control elements of the application when prompted by a natural language command from the user. These commands can be flexible in the sense that the user is not strictly required to specify the exact names of the control elements in the command. A user study evaluation of Savant with 11 blind participants demonstrated significant improvements in interaction efficiency and usability compared to current practices.

Autores: Satwik Ram Kodandaram, Utku Uckun, Xiaojun Bi, IV Ramakrishnan, Vikas Ashok

Última atualização: 2024-07-30 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.19537

Fonte PDF: https://arxiv.org/pdf/2407.19537

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes