SignSpeak: Uma Nova Abordagem para Tradução de ASL

Índice

O Problema
Uma Nova Abordagem
Coleta de Dados
Arquitetura do Modelo
Avaliação e Resultados
Direções Futuras
Conclusão
Fonte original
Ligações de referência

Muita gente que tem dificuldade de ouvir ou falar enfrenta desafios para se comunicar de forma eficaz. Uma língua de sinais comum na América do Norte é a Língua de Sinais Americana (ASL). Mas, só uma pequena porcentagem da população é fluente em ASL, o que complica a interação de muitos em situações do dia a dia. Pra ajudar a preencher essa lacuna na comunicação, desenvolvemos uma forma acessível e eficiente de traduzir ASL em linguagem falada em tempo real.

O Problema

O principal problema para quem tem dificuldade de ouvir e falar é a falta de comunicação fluente em linguagem de sinais. Isso gera dificuldades pra acessar educação, oportunidades de emprego e serviços essenciais, levando a sentimentos de isolamento e depressão. Métodos antigos dependiam de câmeras pra identificar gestos em ASL, mas esse jeito tem suas limitações. Muitas vezes, usar uma câmera em situações reais não é prático, e questões de privacidade aparecem quando se grava pessoas. Além disso, enviar vídeos pra um servidor processar exige um poder computacional significativo, que nem sempre tá disponível.

Uma Nova Abordagem

Pra superar esses desafios, focamos em métodos baseados em sensores. Nosso objetivo era tratar a ASL como um problema de classificação de séries temporais. Muitos dos conjuntos de dados relacionados à ASL são privados e não representam a rica variedade de sinais que acontece na vida real. Então, criamos nosso próprio conjunto de dados de ASL open-source chamado SignSpeak. Esse conjunto tem 7200 gravações, cobrindo 36 classes, que incluem as letras de A-Z e os números de 1-10.

Coleta de Dados

Pra coletar os dados, construímos uma luva especial equipada com cinco sensores de flexão, um pra cada dedo. Esses sensores medem a flexão dos dedos enquanto se faz sinais. Usando um microcontrolador Arduino, registramos dados a uma frequência de 36 vezes por segundo. Focamos apenas em gestos que eram sinais genuínos, garantindo que excluíssemos movimentos acidentais. Cada sinal foi gravado dentro de um tempo específico pra garantir precisão.

Arquitetura do Modelo

Depois de reunir nosso conjunto de dados, queríamos desenvolver modelos que pudessem traduzir ASL pra linguagem falada de forma eficaz. Tentamos diferentes tipos de modelos, incluindo Redes Neurais Recorrentes (RNNs) e Transformers. Usamos um modelo de Memória de Longo Prazo e Curto Prazo (LSTM) de duas camadas e um modelo de Unidade Recorrente Gated (GRU) de duas camadas. A saída desses modelos foi alimentada em uma camada de classificação pra identificar qual sinal estava sendo feito.

Avaliação e Resultados

Pra avaliar quão bem nossos modelos funcionaram, dividimos o conjunto de dados em partes diferentes pra treino e teste. Os melhores resultados mostraram que nossos modelos conseguiram uma precisão de 92%. Comparamos nossas descobertas com conjuntos de dados existentes e descobrimos que os modelos anteriores não se saíram tão bem no nosso conjunto SignSpeak. Isso provavelmente porque os dados deles foram coletados de forma diferente, o que afetou como os modelos conseguiam generalizar novos sinais.

Desafios na Classificação

Durante nossa avaliação, descobrimos alguns padrões de como nossos modelos se saíram. Por exemplo, um dos modelos frequentemente confundia certas letras, especialmente 'E' e 'L'. O modelo identificava 'E' como 'L' com bastante frequência. Isso sugere que, enquanto o modelo era capaz de reconhecer sinais, pode ter aprendido alguns vieses na hora de classificar gestos específicos, indicando que melhorias adicionais podem ser feitas.

Direções Futuras

Olhando pra frente, vemos várias áreas pra melhorar. Primeiro, nossos modelos atualmente exigem apenas um poder computacional moderado, mas acreditamos que usar recursos computacionais mais avançados poderia levar a resultados ainda melhores. Além disso, os tipos de gestos no nosso conjunto de dados são limitados a letras e números. Ampliar o conjunto pra incluir frases, ações e sinais mais complexos vai ajudar a tornar a tradução mais útil na comunicação do dia a dia.

Pra melhorar a precisão dos nossos gestos, também esperamos aumentar a velocidade de gravação de 36 Hz pra 200 Hz em iterações futuras. Isso permitiria que nosso sistema refletisse melhor as velocidades reais de sinais usadas pelas pessoas na vida cotidiana.

Conclusão

Em resumo, apresentamos o SignSpeak, um conjunto de dados acessível e open-source pra traduzir ASL em linguagem falada usando um sistema de sensores em luva. Nossas descobertas mostram que usar um modelo GRU empilhado nos permite alcançar resultados fortes na tradução de ASL. Ao tornar nosso conjunto aberto pra pesquisadores e desenvolvedores, esperamos ajudar a criar tecnologia que possa auxiliar pessoas com dificuldades auditivas e de fala a se comunicarem de forma mais eficaz. Nosso trabalho estabelece as bases pra futuros avanços na tradução de ASL, com o potencial de melhorar a vida de muitos na comunidade.

SignSpeak: Uma Nova Abordagem para Tradução de ASL

A SignSpeak oferece tradução em ASL em tempo real usando uma tecnologia de sensor inovadora.

O Problema

Uma Nova Abordagem

Coleta de Dados

Arquitetura do Modelo

Avaliação e Resultados

Desafios na Classificação

Direções Futuras

Conclusão

Ligações de referência

Tópicos referenciados

SignSpeak: Uma Nova Abordagem para Tradução de ASL

A SignSpeak oferece tradução em ASL em tempo real usando uma tecnologia de sensor inovadora.

#O Problema

#Uma Nova Abordagem

#Coleta de Dados

#Arquitetura do Modelo

#Avaliação e Resultados

#Desafios na Classificação

#Direções Futuras

#Conclusão

Ligações de referência

Tópicos referenciados

O Problema

Uma Nova Abordagem

Coleta de Dados

Arquitetura do Modelo

Avaliação e Resultados

Desafios na Classificação

Direções Futuras

Conclusão