Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Reconhecendo Sinais Isolados na Língua de Sinais com Novos Modelos de Vídeo

A pesquisa melhora o reconhecimento de sinais isolados pra uma comunicação melhor nas comunidades surdas.

― 7 min ler


Avanços em Modelos deAvanços em Modelos deReconhecimento de ASLsurdos.sinais isolados na comunicação comNovos modelos melhoram a compreensão de
Índice

Esse artigo fala sobre o reconhecimento de sinais isolados em linguagem de sinais usando modelos de vídeo avançados. A linguagem de sinais, especialmente a Língua de Sinais Americana (ASL), é essencial para a comunicação nas comunidades surdas. Mas entender a linguagem de sinais através da tecnologia tem sido desafiador, focando mais em idiomas falados e escritos até agora. Pesquisas recentes estão começando a preencher essa lacuna, introduzindo métodos para reconhecer sinais isolados e traduzir linguagens de sinais.

Reconhecimento de Linguagem de Sinais

O Reconhecimento de Linguagem de Sinais Isoladas (ISLR) envolve identificar sinais específicos a partir de clipes de vídeo onde apenas uma pessoa está sinalizando. Esses vídeos geralmente são curtos, em torno de dois a três segundos, e têm um fundo sólido. A tarefa é rotular o vídeo com o sinal correspondente. Isso é diferente da Tradução de Linguagem de Sinais (SLT), que lida com vídeos mais longos contendo sinalizações contínuas e tem como objetivo traduzir esses sinais para outra língua, geralmente o inglês.

Importância do ISLR

O ISLR é crucial para desenvolver ferramentas para a comunidade surda. Sistemas melhores de ISLR podem ajudar a criar aplicativos que traduzem a linguagem de sinais em texto ou linguagem falada, facilitando a comunicação. No entanto, alcançar um reconhecimento preciso apresenta vários desafios, devido às variações nos estilos de sinalização, velocidade e à necessidade de representar características fonológicas complexas da linguagem de sinais de forma precisa.

Aprendizagem Auto-supervisionada

A aprendizagem auto-supervisionada é uma técnica usada para treinar modelos sem precisar de dados rotulados para cada exemplo. Em vez disso, o sistema aprende com os dados que recebe, extraindo características significativas dos vídeos. Essa abordagem é vantajosa no contexto da linguagem de sinais, já que conjuntos de dados grandes com sinais rotulados só recentemente se tornaram disponíveis.

Neste estudo, vários modelos de transformadores de vídeo foram testados usando métodos de aprendizagem auto-supervisionada. O objetivo era entender quais combinações de modelos e tarefas de pré-treinamento suportam melhor o reconhecimento preciso de sinais isolados.

O Estudo

Os pesquisadores testaram vários modelos em um conjunto de dados chamado WLASL2000, que inclui uma ampla gama de sinais isolados de ASL. O foco principal foi nas combinações de diferentes métodos de pré-treinamento e arquiteturas de modelo disponíveis. Uma abordagem promissora foi um método chamado MaskFeat, que superou vários outros modelos com uma precisão de 79,02%.

Análise do Modelo

Modelos diferentes foram analisados pela sua capacidade de reconhecer sinais isolados examinando quão bem eles produziam representações dos sinais. Essas representações podem ser vistas como a maneira como o modelo entende e organiza os dados sobre cada sinal. Através de uma técnica chamada "linear probing", que testa como bem o modelo captura certas características dos sinais, padrões específicos emergiram sobre os pontos fortes e fracos de diferentes modelos.

O estudo destacou a importância de escolher a arquitetura de modelo e as tarefas de pré-treinamento certas. Modelos como MaskFeat e transformadores de visão hierárquica tiveram um desempenho melhor devido ao seu design e à forma como processavam os dados visuais.

Conjunto de Dados e Experimentação

Vários conjuntos de dados foram usados nesta pesquisa. O conjunto principal para treinamento foi o WLASL2000, que foi preparado com correções para garantir que os nomes dos sinais sejam baseados em glosses de ASL em vez de traduções em inglês. Outro conjunto de dados, Kinetics400, foi usado para o pré-treinamento auto-supervisionado, consistindo em vários vídeos de ação humana.

Os pesquisadores testaram diferentes configurações para pré-treinamento dos modelos no Kinetics400 ou no OpenASL, um conjunto de dados de tradução desenvolvido especificamente para ASL. Comparando essas configurações, foram obtidas percepções sobre o que funciona melhor para o desempenho do ISLR.

Resultados

Os resultados foram mistos, mostrando que nenhuma abordagem única superou todas as outras. No entanto, combinações de modelos com MaskFeat e pré-treinamento em ambos Kinetics400 e OpenASL resultaram em melhorias notáveis na precisão. Isso indicava a capacidade do modelo de capturar características relevantes para a linguagem de sinais.

Curiosamente, modelos que utilizaram tarefas de reconstrução de vídeo, como VideoMAE e MaskFeat, mostraram melhor desempenho quando pré-treinados em ambos os conjuntos de dados, ao invés de apenas um. Isso enfatiza a necessidade de modelos serem expostos a dados diversos durante o treinamento, permitindo que eles se adaptem melhor às nuances da linguagem de sinais.

Desafios no Desempenho do Modelo

Alguns modelos tiveram dificuldades em performar bem, em parte devido ao seu design. Por exemplo, o SVT não alcançou um desempenho comparável a outros modelos, provavelmente devido à incompatibilidade entre seu método de treinamento e as características dos dados. Modelos que usaram abordagens de amostragem de vídeo que não eram adequadas para a tarefa de ISLR enfrentaram problemas, pois não capturaram efetivamente as propriedades dependentes do tempo dos sinais.

Os modelos também diferiram em sua capacidade de codificar características fonológicas específicas dos sinais de ASL, como formas e movimentos das mãos. Certas características se mostraram desafiadoras para os modelos reconhecerem, o que foi particularmente evidente em detalhes mais finos das configurações das mãos, onde muitos modelos falharam em se sair bem.

Fonologia da Linguagem de Sinais

A fonologia na linguagem de sinais se refere à estrutura e ao padrão dos sinais. Ela inclui elementos como formas das mãos, movimentos e locais relevantes para a formação de uma comunicação significativa. Os pesquisadores utilizaram essas características fonológicas para avaliar quão bem diferentes modelos capturaram as características essenciais da ASL. Essa análise revelou que transformadores de visão hierárquica eram geralmente mais eficazes em reconhecer essas características do que modelos padrões.

Ajuste fino

Ajuste fino se refere ao processo de ajustar um modelo pré-treinado em uma tarefa específica para melhorar seu desempenho. Neste estudo, o ajuste fino melhorou significativamente a capacidade de alguns modelos de capturar características fonológicas relevantes.

Após o ajuste fino na tarefa de ISLR, os modelos mostraram capacidades de representação aprimoradas, especialmente para características relacionadas a movimento e localização. Os resultados indicaram que, embora o pré-treinamento seja crucial, a arquitetura do modelo também desempenha um papel significativo em alcançar melhores resultados.

Conclusões

O estudo concluiu que utilizar aprendizagem auto-supervisionada e modelos de transformadores de vídeo pode levar a um progresso significativo no reconhecimento de sinais isolados em ASL. Notavelmente, modelos como MaskFeat e transformadores hierárquicos se destacaram pelo seu desempenho superior.

As descobertas enfatizam a necessidade de mais pesquisas no reconhecimento da linguagem de sinais, especialmente em extender o trabalho atual além de sinais isolados para tarefas mais complexas como a tradução da linguagem de sinais. Aproveitando as percepções das características fonológicas, modelos futuros podem melhorar sua compreensão e processamento da linguagem de sinais.

Direções Futuras

As pesquisas futuras devem se concentrar em aprimorar modelos para lidar com sequências mais longas de vídeos para tarefas de sinalização contínua. Isso exigirá abordar limitações atuais nas computações de transformadores e expandir conjuntos de dados para melhores resultados de treinamento.

No geral, o estudo destaca o potencial de combinar aprendizagem auto-supervisionada com modelos de vídeo avançados para fornecer ferramentas valiosas para reconhecer e entender linguagens de sinais, apoiando assim a comunicação dentro das comunidades surdas. À medida que a tecnologia continua a evoluir, as oportunidades para melhorar a acessibilidade e a compreensão entre línguas também crescem.

Fonte original

Título: Self-Supervised Video Transformers for Isolated Sign Language Recognition

Resumo: This paper presents an in-depth analysis of various self-supervision methods for isolated sign language recognition (ISLR). We consider four recently introduced transformer-based approaches to self-supervised learning from videos, and four pre-training data regimes, and study all the combinations on the WLASL2000 dataset. Our findings reveal that MaskFeat achieves performance superior to pose-based and supervised video models, with a top-1 accuracy of 79.02% on gloss-based WLASL2000. Furthermore, we analyze these models' ability to produce representations of ASL signs using linear probing on diverse phonological features. This study underscores the value of architecture and pre-training task choices in ISLR. Specifically, our results on WLASL2000 highlight the power of masked reconstruction pre-training, and our linear probing results demonstrate the importance of hierarchical vision transformers for sign language representation.

Autores: Marcelo Sandoval-Castaneda, Yanhong Li, Diane Brentari, Karen Livescu, Gregory Shakhnarovich

Última atualização: 2023-09-01 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.02450

Fonte PDF: https://arxiv.org/pdf/2309.02450

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes