SignSpeak: Uma Nova Abordagem para Tradução de ASL
A SignSpeak oferece tradução em ASL em tempo real usando uma tecnologia de sensor inovadora.
― 5 min ler
Índice
Muita gente que tem dificuldade de ouvir ou falar enfrenta desafios para se comunicar de forma eficaz. Uma língua de sinais comum na América do Norte é a Língua de Sinais Americana (ASL). Mas, só uma pequena porcentagem da população é fluente em ASL, o que complica a interação de muitos em situações do dia a dia. Pra ajudar a preencher essa lacuna na comunicação, desenvolvemos uma forma acessível e eficiente de traduzir ASL em linguagem falada em tempo real.
O Problema
O principal problema para quem tem dificuldade de ouvir e falar é a falta de comunicação fluente em linguagem de sinais. Isso gera dificuldades pra acessar educação, oportunidades de emprego e serviços essenciais, levando a sentimentos de isolamento e depressão. Métodos antigos dependiam de câmeras pra identificar gestos em ASL, mas esse jeito tem suas limitações. Muitas vezes, usar uma câmera em situações reais não é prático, e questões de privacidade aparecem quando se grava pessoas. Além disso, enviar vídeos pra um servidor processar exige um poder computacional significativo, que nem sempre tá disponível.
Uma Nova Abordagem
Pra superar esses desafios, focamos em métodos baseados em sensores. Nosso objetivo era tratar a ASL como um problema de classificação de séries temporais. Muitos dos conjuntos de dados relacionados à ASL são privados e não representam a rica variedade de sinais que acontece na vida real. Então, criamos nosso próprio conjunto de dados de ASL open-source chamado SignSpeak. Esse conjunto tem 7200 gravações, cobrindo 36 classes, que incluem as letras de A-Z e os números de 1-10.
Coleta de Dados
Pra coletar os dados, construímos uma luva especial equipada com cinco sensores de flexão, um pra cada dedo. Esses sensores medem a flexão dos dedos enquanto se faz sinais. Usando um microcontrolador Arduino, registramos dados a uma frequência de 36 vezes por segundo. Focamos apenas em gestos que eram sinais genuínos, garantindo que excluíssemos movimentos acidentais. Cada sinal foi gravado dentro de um tempo específico pra garantir precisão.
Arquitetura do Modelo
Depois de reunir nosso conjunto de dados, queríamos desenvolver modelos que pudessem traduzir ASL pra linguagem falada de forma eficaz. Tentamos diferentes tipos de modelos, incluindo Redes Neurais Recorrentes (RNNs) e Transformers. Usamos um modelo de Memória de Longo Prazo e Curto Prazo (LSTM) de duas camadas e um modelo de Unidade Recorrente Gated (GRU) de duas camadas. A saída desses modelos foi alimentada em uma camada de classificação pra identificar qual sinal estava sendo feito.
Avaliação e Resultados
Pra avaliar quão bem nossos modelos funcionaram, dividimos o conjunto de dados em partes diferentes pra treino e teste. Os melhores resultados mostraram que nossos modelos conseguiram uma precisão de 92%. Comparamos nossas descobertas com conjuntos de dados existentes e descobrimos que os modelos anteriores não se saíram tão bem no nosso conjunto SignSpeak. Isso provavelmente porque os dados deles foram coletados de forma diferente, o que afetou como os modelos conseguiam generalizar novos sinais.
Desafios na Classificação
Durante nossa avaliação, descobrimos alguns padrões de como nossos modelos se saíram. Por exemplo, um dos modelos frequentemente confundia certas letras, especialmente 'E' e 'L'. O modelo identificava 'E' como 'L' com bastante frequência. Isso sugere que, enquanto o modelo era capaz de reconhecer sinais, pode ter aprendido alguns vieses na hora de classificar gestos específicos, indicando que melhorias adicionais podem ser feitas.
Direções Futuras
Olhando pra frente, vemos várias áreas pra melhorar. Primeiro, nossos modelos atualmente exigem apenas um poder computacional moderado, mas acreditamos que usar recursos computacionais mais avançados poderia levar a resultados ainda melhores. Além disso, os tipos de gestos no nosso conjunto de dados são limitados a letras e números. Ampliar o conjunto pra incluir frases, ações e sinais mais complexos vai ajudar a tornar a tradução mais útil na comunicação do dia a dia.
Pra melhorar a precisão dos nossos gestos, também esperamos aumentar a velocidade de gravação de 36 Hz pra 200 Hz em iterações futuras. Isso permitiria que nosso sistema refletisse melhor as velocidades reais de sinais usadas pelas pessoas na vida cotidiana.
Conclusão
Em resumo, apresentamos o SignSpeak, um conjunto de dados acessível e open-source pra traduzir ASL em linguagem falada usando um sistema de sensores em luva. Nossas descobertas mostram que usar um modelo GRU empilhado nos permite alcançar resultados fortes na tradução de ASL. Ao tornar nosso conjunto aberto pra pesquisadores e desenvolvedores, esperamos ajudar a criar tecnologia que possa auxiliar pessoas com dificuldades auditivas e de fala a se comunicarem de forma mais eficaz. Nosso trabalho estabelece as bases pra futuros avanços na tradução de ASL, com o potencial de melhorar a vida de muitos na comunidade.
Título: SignSpeak: Open-Source Time Series Classification for ASL Translation
Resumo: The lack of fluency in sign language remains a barrier to seamless communication for hearing and speech-impaired communities. In this work, we propose a low-cost, real-time ASL-to-speech translation glove and an exhaustive training dataset of sign language patterns. We then benchmarked this dataset with supervised learning models, such as LSTMs, GRUs and Transformers, where our best model achieved 92% accuracy. The SignSpeak dataset has 7200 samples encompassing 36 classes (A-Z, 1-10) and aims to capture realistic signing patterns by using five low-cost flex sensors to measure finger positions at each time step at 36 Hz. Our open-source dataset, models and glove designs, provide an accurate and efficient ASL translator while maintaining cost-effectiveness, establishing a framework for future work to build on.
Autores: Aditya Makkar, Divya Makkar, Aarav Patel, Liam Hebert
Última atualização: 2024-07-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.12020
Fonte PDF: https://arxiv.org/pdf/2407.12020
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.