Spica: Uma Nova Ferramenta para Usuários Cegos
A Spica melhora o acesso a vídeos para usuários cegos e com baixa visão através da interatividade.
― 5 min ler
Índice
- O que é o Spica?
- Por que Vídeo Interativo é Importante
- Recursos do Spica
- Exploração Interativa
- Camadas de Descrição em Áudio
- Som Espacial
- Indicações Visuais de Alto Contraste
- Estudo com Usuários
- Demografia dos Participantes
- Processo do Estudo
- Resultados
- Experiência Geral do Usuário
- Feedback dos Recursos
- Efeitos Sonoros
- Desafios e Oportunidades
- Direções Futuras
- Conclusão
- Resumo das Contribuições
- Fonte original
- Ligações de referência
Usuários com deficiência visual (BLV) costumam depender de descrições em áudio (AD) pra entender conteúdos em vídeo. Mas as AD tradicionais podem ser limitadas; muitas vezes perdem detalhes importantes, exigem alta concentração e não atendem todas as necessidades dos usuários. Pra melhorar essa experiência, apresentamos o Spica, uma ferramenta que permite que usuários BLV interajam de maneira interativa com os vídeos.
O que é o Spica?
O Spica é um sistema que usa inteligência artificial (IA) pra ajudar usuários BLV a explorar conteúdos em vídeo. Ao contrário das AD comuns, o Spica oferece Recursos Interativos que permitem que os usuários se envolvam com o conteúdo de uma forma mais personalizada. Isso inclui navegar por cenas e focar em objetos específicos dentro dos quadros do vídeo.
Por que Vídeo Interativo é Importante
As AD têm um papel vital em tornar os vídeos acessíveis para usuários BLV. No entanto, os métodos tradicionais muitas vezes não fornecem informações suficientes. Os usuários podem se sentir sobrecarregados devido à falta de detalhes. Com o Spica, eles podem controlar melhor a experiência de visualização e reduzir a fadiga mental, explorando o conteúdo no seu próprio ritmo.
Recursos do Spica
Exploração Interativa
O Spica permite que os usuários se movam pelas cenas do vídeo e foquem em objetos. Os usuários podem:
- Navegar por diferentes cenas usando controles de teclado ou toque.
- Receber descrições detalhadas de objetos específicos, melhorando sua compreensão do conteúdo visual.
- Ouvir efeitos sonoros espaciais que oferecem mais contexto e imersão.
Camadas de Descrição em Áudio
O Spica oferece descrições em áudio em camadas. A camada base inclui a AD original, e os usuários podem pedir detalhes adicionais sobre objetos. Isso garante que eles recebam a profundidade de informação que procuram sem se sentirem sobrecarregados.
Som Espacial
O Spica usa efeitos sonoros vinculados a objetos em um vídeo. Esses sons ajudam os usuários a entender onde os objetos estão localizados em relação uns aos outros, tornando a experiência mais imersiva.
Indicações Visuais de Alto Contraste
Para quem tem alguma visão, o Spica fornece uma máscara de cor de alto contraste pra destacar objetos selecionados. Isso permite que os usuários localizem e identifiquem objetos facilmente dentro dos quadros do vídeo.
Estudo com Usuários
Pra avaliar a eficácia do Spica, conduzimos um estudo com 14 participantes BLV. Eles assistiram vídeos usando tanto a AD tradicional quanto o Spica, permitindo que comparássemos suas experiências.
Demografia dos Participantes
Os participantes variavam em idade, gênero e nível de deficiência visual. Cada um tinha experiências diferentes com conteúdos em vídeo, o que nos permitiu coletar uma ampla gama de feedbacks.
Processo do Estudo
Os participantes interagiram com dois vídeos diferentes em dois formatos: usando o Spica e a AD tradicional. Eles foram incentivados a interagir com o conteúdo usando os recursos do sistema. Após assistir, os participantes avaliaram sua experiência em relação à compreensão e imersão.
Resultados
Experiência Geral do Usuário
Os participantes relataram que o Spica melhorou significativamente sua compreensão dos vídeos. Eles apreciaram a capacidade de explorar o conteúdo do seu jeito, o que permitiu um engajamento mais profundo com o material.
Feedback dos Recursos
Exploração Temporal
Os usuários gostaram da capacidade de navegar pelas linhas do tempo das cenas. Eles sentiram que esse controle ajudou a conectar melhor com a história do vídeo. No entanto, alguns notaram que pausas frequentes poderiam atrapalhar o fluxo da narrativa.
Exploração de Objetos
Os recursos que permitiam que os usuários explorassem objetos foram bem recebidos. Muitos optaram por examinar itens individuais após ouvir a AD original ou novos sons no vídeo. Eles gostaram de como isso acrescentou profundidade à sua compreensão.
Efeitos Sonoros
O som espacial associado aos objetos foi destacado como benéfico. Os participantes acharam útil pra entender a posição e o contexto dos objetos na cena, melhorando sua experiência geral.
Desafios e Oportunidades
Embora o Spica tenha demonstrado muitas vantagens, alguns desafios foram identificados. Por exemplo, houve momentos em que as descrições não correspondiam ao conteúdo do vídeo, levando a confusões. Os usuários conseguiram navegar por esses erros comparando diferentes cenas e usando dicas contextuais.
Direções Futuras
O Spica oferece oportunidades significativas para melhorar a acessibilidade dos vídeos. Melhorias futuras poderiam focar em refinar o processo de geração de descrições, fornecer descrições em áudio personalizáveis e explorar mais técnicas de áudio espacial pra criar uma experiência mais rica.
Conclusão
O Spica representa um avanço na acessibilidade de conteúdos em vídeo para usuários BLV. Ao permitir um engajamento interativo e oferecer descrições em áudio detalhadas, ele aborda as limitações dos métodos tradicionais. O feedback do nosso estudo com usuários destaca seu potencial de melhorar a compreensão e imersão, tornando os vídeos mais agradáveis pra todo mundo.
Resumo das Contribuições
- Apresentar o Spica como uma ferramenta interativa que melhora a acessibilidade de vídeos para usuários BLV.
- Conduzir um estudo com usuários que demonstra a eficácia do Spica em melhorar a experiência do usuário.
- Oferecer insights sobre preferências de recursos e áreas pra futuras pesquisas em ferramentas de consumo de vídeo acessíveis.
Título: SPICA: Interactive Video Content Exploration through Augmented Audio Descriptions for Blind or Low-Vision Viewers
Resumo: Blind or Low-Vision (BLV) users often rely on audio descriptions (AD) to access video content. However, conventional static ADs can leave out detailed information in videos, impose a high mental load, neglect the diverse needs and preferences of BLV users, and lack immersion. To tackle these challenges, we introduce SPICA, an AI-powered system that enables BLV users to interactively explore video content. Informed by prior empirical studies on BLV video consumption, SPICA offers novel interactive mechanisms for supporting temporal navigation of frame captions and spatial exploration of objects within key frames. Leveraging an audio-visual machine learning pipeline, SPICA augments existing ADs by adding interactivity, spatial sound effects, and individual object descriptions without requiring additional human annotation. Through a user study with 14 BLV participants, we evaluated the usability and usefulness of SPICA and explored user behaviors, preferences, and mental models when interacting with augmented ADs.
Autores: Zheng Ning, Brianna L. Wimer, Kaiwen Jiang, Keyi Chen, Jerrick Ban, Yapeng Tian, Yuhang Zhao, Toby Jia-Jun Li
Última atualização: 2024-02-26 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.07300
Fonte PDF: https://arxiv.org/pdf/2402.07300
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.robots.ox.ac.uk/~vgg/data/queryd/
- https://youdescribe.org
- https://labelme.csail.mit.edu/Release3.0/
- https://www.microsoft.com/en-us/ai/seeing-ai
- https://platform.openai.com/docs/guides/vision
- https://freesound.org
- https://freesound.org/docs/api/
- https://react.dev
- https://flask.palletsprojects.com
- https://cloud.google.com/text-to-speech