Avanços no Reconhecimento da Linguagem de Sinais Indiana
Um novo conjunto de dados e modelo melhoram a comunicação em linguagem de sinais.
― 6 min ler
Índice
O Reconhecimento automático de linguagem de Sinais é super importante pra melhorar a comunicação entre pessoas surdas e mudas e a galera que ouve. A Língua de Sinais Indiana (ISL) é única e precisa de mais dados pra sistemas de reconhecimento precisos. Esse texto fala sobre um novo dataset criado pra ISL com mais de 40.000 vídeos, além de um novo modelo pensado pra reconhecer os sinais de ISL de um jeito mais eficaz.
ISL e Sua Importância
A linguagem de sinais é uma forma natural de comunicação usada por pessoas surdas. Ela tem sua própria gramática e estrutura, tornando-se distinta da linguagem falada. A comunidade surda usa a linguagem de sinais pra interagir e socializar. Mas tem cerca de 466 milhões de pessoas no mundo com perda auditiva, e reduzir essa barreira de comunicação é crucial. O reconhecimento automático da linguagem de sinais tem ganhado força na pesquisa, focando em duas tarefas: reconhecimento de sinais isolados e reconhecimento de sinais contínuos.
O reconhecimento de sinais isolados envolve identificar sinais individuais, enquanto o reconhecimento contínuo lida com frases em sinais. Esse artigo foca no reconhecimento de sinais isolados, que é fundamental pra construir sistemas eficientes. Atualmente, os datasets de ISL são limitados, dificultando o desenvolvimento de Modelos de reconhecimento robustos.
Desafios no Reconhecimento de ISL
O reconhecimento de linguagem de sinais enfrenta vários desafios que o tornam diferente do reconhecimento de ações em geral. Isso inclui limites borrados entre diferentes sinais, oclusões de partes do corpo e variações na forma como as pessoas fazem os sinais. Características únicas da ISL, como sinais compostos (que consistem em dois ou mais componentes), aumentam a complexidade da tarefa de reconhecimento.
O dataset que estamos apresentando aborda esses desafios oferecendo um recurso rico pra desenvolver sistemas de reconhecimento de linguagem de sinais. Ele inclui um grande vocabulário de palavras comumente usadas na ISL, gravadas por um grupo diversificado de sinalizadores.
O Novo Dataset de ISL
Nosso novo dataset de ISL inclui 40.033 vídeos cobrindo 2.002 palavras do dia a dia. O dataset tem 20 sinalizadores (10 homens e 10 mulheres), criando uma representação de gênero equilibrada. As palavras são categorizadas em diferentes grupos baseados em seus significados, como relações familiares ou objetos domésticos. O dataset é estruturado de forma que não haja sobreposição de sinalizadores nos conjuntos de treinamento, validação e teste, garantindo que cada sinal seja representado de forma justa.
Os vídeos foram gravados usando vários ângulos de câmera pra capturar diferentes perspectivas dos sinais. Essa abordagem multi-visual ajuda na melhor compreensão de como diferentes sinais são feitos. Além disso, o dataset está disponível pra uso em pesquisa, fornecendo um recurso valioso pra estudos futuros no reconhecimento de linguagem de sinais.
Modelo de Reconhecimento Proposto
Pra utilizar o novo dataset, desenvolvemos um novo modelo de reconhecimento chamado Rede de Atenção de Gráfico Hierárquico (HWGAT). Esse modelo captura os movimentos do corpo humano usando uma representação gráfica do esqueleto humano. Aqui está como o modelo funciona:
Representação Gráfica do Esqueleto: O modelo começa representando o corpo humano em termos de pontos-chave (articulações do esqueleto). Analisando esses pontos-chave, o modelo consegue entender os movimentos que correspondem a diferentes sinais.
Mecanismo de Atenção: O modelo HWGAT usa um mecanismo de atenção que foca em partes específicas do corpo ao reconhecer sinais. Isso ajuda a enfatizar os movimentos mais relevantes.
Entrada em Janela: Em vez de processar todo o gráfico do esqueleto de uma vez, o modelo divide em partes menores, permitindo melhor foco em movimentos específicos sem interferência de outras partes do corpo.
Dinâmica Temporal: O modelo também leva em conta a passagem do tempo agrupando quadros de um jeito que captura o movimento ao longo do tempo. Isso ajuda no reconhecimento de sinais que podem mudar um pouco de um quadro para o outro.
No geral, o modelo HWGAT tem como objetivo melhorar a precisão do reconhecimento da linguagem de sinais considerando as características únicas da linguagem de sinais.
Avaliação Experimental
Pra validar nosso dataset e modelo, foram realizados muitos experimentos. Os objetivos da avaliação incluíam:
Comparando o Novo Dataset: O desempenho do dataset foi avaliado em comparação a datasets existentes de ISL. Nosso dataset mostrou um número maior de vídeos e um vocabulário mais extenso, provando sua força em disponibilidade de recursos.
Testando o Modelo HWGAT: Nosso novo modelo foi testado contra outros modelos de ponta usando tanto o novo dataset quanto datasets conhecidos de linguagem de sinais. O modelo HWGAT superou muitos modelos existentes na hora de reconhecer sinais em vários datasets.
Principais Descobertas
Força do Dataset: O novo dataset é rico e diversificado, oferecendo um recurso valioso pra desenvolver sistemas de reconhecimento de ISL. Seu vocabulário maior e contagem de vídeos em comparação com datasets anteriores indicam sua robustez.
Desempenho do Modelo: O modelo HWGAT mostrou um desempenho melhor que muitos modelos tradicionais, enfatizando sua capacidade no reconhecimento da linguagem de sinais. Ajustar o modelo em datasets menores aumentou ainda mais sua precisão.
Conclusão
A introdução de um dataset de ISL isolado em grande escala junto com o modelo HWGAT representa um progresso significativo na área de reconhecimento de linguagem de sinais. Esse desenvolvimento não só fornece uma ferramenta robusta pros pesquisadores, mas também ajuda a reduzir a barreira de comunicação entre as comunidades surdas e ouvintes.
A natureza abrangente do dataset, combinada com o modelo avançado, promete avanços futuros no reconhecimento e interpretação da linguagem de sinais. Espera-se que esse trabalho não só acelere a pesquisa em reconhecimento de ISL, mas também seja útil em ambientes educacionais pra ensinar ISL de forma eficaz.
Trabalhos Futuros
Os esforços futuros vão se concentrar em aprimorar ainda mais o dataset, possivelmente incluindo mais sinalizadores, sinais e variabilidade ambiental adicional. Também há potencial pra melhorar o modelo HWGAT integrando técnicas adicionais pra melhor precisão no reconhecimento. Colaborações com especialistas em linguagem de sinais vão garantir que os modelos permaneçam relevantes e atualizados com a natureza em evolução da linguagem de sinais.
Além disso, esperamos que esse trabalho incentive mais pesquisas em reconhecimento automático de linguagem de sinais em outras línguas e dialetos, promovendo inclusão pra comunidade surda em todo o mundo.
Título: Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition
Resumo: Automatic Sign Language (SL) recognition is an important task in the computer vision community. To build a robust SL recognition system, we need a considerable amount of data which is lacking particularly in Indian sign language (ISL). In this paper, we introduce a large-scale isolated ISL dataset and a novel SL recognition model based on skeleton graph structure. The dataset covers 2002 daily used common words in the deaf community recorded by 20 (10 male and 10 female) deaf adult signers (contains 40033 videos). We propose a SL recognition model namely Hierarchical Windowed Graph Attention Network (HWGAT) by utilizing the human upper body skeleton graph. The HWGAT tries to capture distinctive motions by giving attention to different body parts induced by the human skeleton graph. The utility of the proposed dataset and the usefulness of our model are evaluated through extensive experiments. We pre-trained the proposed model on the presented dataset and fine-tuned it across different sign language datasets further boosting the performance of 1.10, 0.46, 0.78, and 6.84 percentage points on INCLUDE, LSA64, AUTSL and WLASL respectively compared to the existing state-of-the-art keypoints-based models.
Autores: Suvajit Patra, Arkadip Maitra, Megha Tiwari, K. Kumaran, Swathy Prabhu, Swami Punyeshwarananda, Soumitra Samanta
Última atualização: 2024-09-27 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.14224
Fonte PDF: https://arxiv.org/pdf/2407.14224
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.