Melhorando a Detecção de Linguagem de Sinais com Conjuntos de Dados Melhores
Abordando a sobreposição de signatários pra melhorar a precisão da detecção de linguagem de sinais.
― 6 min ler
A detecção de linguagem de sinais é sobre descobrir se alguém tá usando linguagem de sinais. Isso tá ficando bem importante, principalmente pra chamadas de vídeo e pra juntar dados pra treinar sistemas que reconhecem ou traduzem linguagem de sinais. Mas, a gente acredita que os conjuntos de dados atuais usados pra testar a detecção de linguagem de sinais podem não dar resultados precisos porque muitas vezes misturam os sinalizadores nas fases de treino e teste.
O que é Detecção de Linguagem de Sinais?
A linguagem de sinais é uma língua natural usada pela comunidade surda. Envolve vários movimentos do corpo pra passar mensagens, incluindo formas das mãos, expressões faciais e postura do corpo. Sistemas de computador tradicionais focam mais em línguas faladas, fazendo com que a linguagem de sinais fique menos visível em muitas plataformas.
Com mais gente começando a trabalhar remoto, softwares que permitem videoconferências se tornaram comuns. Esses programas costumam destacar o falante ativo pra que a audiência possa focar nele. Infelizmente, quando um usuário de linguagem de sinais começa a sinalizar, ele pode ficar escondido, dificultando a comunicação efetiva. Pra fechar essa lacuna, as ferramentas de detecção de linguagem de sinais precisam ser melhoradas pra que possam identificar quando alguém tá sinalizando ou não.
Estado Atual da Detecção de Linguagem de Sinais
Tem uma quantidade crescente de pesquisas em detecção de linguagem de sinais, mas ainda é uma área desafiadora. A maioria dos sistemas projetados pra isso seguem um processo em duas etapas: primeiro, eles extraem características importantes do vídeo e, depois, classificam o vídeo como contendo ou não um usuário de linguagem de sinais.
Por exemplo, alguns estudos usam modelos que pegam quadros de vídeo e extraem características pra determinar se uma pessoa tá sinalizando. Eles conseguiram taxas de precisão bem altas, mas, ao olhar mais de perto, parece que esses resultados podem não ser confiáveis. Isso acontece principalmente porque os mesmos sinalizadores frequentemente aparecem nas fases de treino e teste, causando sobreposição.
O Problema com a Sobreposição de Sinalizadores
Quando a gente fala de "sobreposição de sinalizadores", quer dizer que a mesma pessoa pode estar incluída tanto nos conjuntos de treino quanto nos de teste. Isso pode dar a impressão de que o sistema tá funcionando melhor do que realmente tá. Se um modelo já viu um determinado sinalizador durante o treino, é provável que se saia bem quando encontrar o mesmo sinalizador de novo durante o teste. Isso é um problema porque não mostra quão bem o sistema pode atuar com sinalizadores novos ou diferentes.
Pra ilustrar esse problema, analisamos dois conjuntos de dados principais usados pra detecção de linguagem de sinais: o DGS Corpus e o Signing in the Wild. Ambos mostraram uma sobreposição significativa de sinalizadores entre os grupos de treino e teste. A gente mediu o impacto dessa sobreposição e encontrou quedas notáveis na precisão quando comparamos resultados de conjuntos de dados com e sem sinalizadores sobrepostos.
Soluções Propostas
Pra melhorar a forma como avaliamos os sistemas de detecção de linguagem de sinais, sugerimos criar novos conjuntos de dados que não tenham sobreposição de sinalizadores. Garantindo que um sinalizador apareça em apenas um conjunto de dados (seja treino, desenvolvimento ou teste), conseguimos uma avaliação mais realista de quão bem esses sistemas estão funcionando.
Pro DGS Corpus, desenvolvemos uma nova maneira de dividir os dados, garantindo que não houvesse sinalizadores em ambos os conjuntos de treino e teste. Essa organização vai ajudar a dar uma visão mais clara das capacidades do sistema. Da mesma forma, fizemos o mesmo pro conjunto de dados Signing in the Wild.
Examinando Conjuntos de Dados: DGS Corpus
O DGS Corpus é uma coleção de vídeos com a linguagem de sinais alemã, com mais de 1150 horas de material gravado. Só uma parte desses dados é anotada pra mostrar quando a sinalização acontece. As divisões existentes do DGS Corpus sugeriam uma mistura de sinalizadores, que a gente identificou e quantificou.
Analisando as divisões originais sugeridas por pesquisas anteriores, a gente viu que os mesmos sinalizadores apareciam tanto nos conjuntos de treino quanto nos de teste. A gente desmembrou o conjunto de dados original pra mostrar quantos sinalizadores se sobrepunham entre essas fases. Notar que 88 sinalizadores eram comuns entre os conjuntos de treino e desenvolvimento foi alarmante. Pra demonstrar o efeito dessa sobreposição, dividimos o conjunto de teste original em partes com e sem sobreposição.
Analisando o Conjunto de Dados Signing in the Wild
O conjunto de dados Signing in the Wild é composto de vídeos coletados do YouTube, com o objetivo de incluir uma variedade diversificada de línguas de sinais e cenários. Esse conjunto também incorpora exemplos de sinalização e não-sinalização, como fala e outras atividades.
Semelhante ao DGS Corpus, o conjunto Signing in the Wild mostrou que vídeos do mesmo sinalizador podiam aparecer em várias divisões, o que distorce os resultados de precisão. Experimentos iniciais usando as divisões originais indicaram um desempenho melhor devido à sobreposição. Porém, ao criar uma nova divisão sem sobreposição, a gente esperava encontrar uma queda na precisão, refletindo uma avaliação de desempenho mais honesta.
Agrupando Sinalizadores pra Melhor Gestão de Dados
Um dos desafios ao trabalhar com o DGS Corpus é que não há rotulagem dos sinalizadores dentro dos vídeos. Pra resolver isso, a gente usou um método chamado Agrupamento de rostos, que agrupa rostos semelhantes com base em características extraídas. Usando um algoritmo de agrupamento, identificamos e agrupamos os sinalizadores com base nos vídeos em que apareceram.
Os resultados mostraram precisão variada dependendo do número de imagens usadas pra agrupamento. A gente descobriu que usar mais imagens resultava em melhor precisão. No entanto, ainda enfrentamos desafios pra identificar todos os sinalizadores perfeitamente.
Conclusão
Os resultados da análise dos conjuntos DGS Corpus e Signing in the Wild indicam que a sobreposição de sinalizadores impacta significativamente a eficácia dos sistemas de detecção de linguagem de sinais. Pra melhorar a precisão e garantir a generalização, propusemos novos conjuntos de dados que eliminem essa sobreposição.
Seguindo em frente, reduzir a sobreposição de sinalizadores é essencial pra estabelecer sistemas justos, responsáveis e transparentes pra detecção de linguagem de sinais. Além disso, o método de agrupamento vai ajudar a melhorar a gestão dos dados de linguagem de sinais enquanto aborda preocupações de privacidade.
No geral, ao criar conjuntos de dados mais confiáveis e avaliar o desempenho da detecção de linguagem de sinais sem sobreposição, podemos trabalhar em direção a melhores ferramentas pra comunidade surda e melhorar a acessibilidade em vários cenários, especialmente na comunicação remota.
Título: On the Importance of Signer Overlap for Sign Language Detection
Resumo: Sign language detection, identifying if someone is signing or not, is becoming crucially important for its applications in remote conferencing software and for selecting useful sign data for training sign language recognition or translation tasks. We argue that the current benchmark data sets for sign language detection estimate overly positive results that do not generalize well due to signer overlap between train and test partitions. We quantify this with a detailed analysis of the effect of signer overlap on current sign detection benchmark data sets. Comparing accuracy with and without overlap on the DGS corpus and Signing in the Wild, we observed a relative decrease in accuracy of 4.17% and 6.27%, respectively. Furthermore, we propose new data set partitions that are free of overlap and allow for more realistic performance assessment. We hope this work will contribute to improving the accuracy and generalization of sign language detection systems.
Autores: Abhilash Pal, Stephan Huber, Cyrine Chaabani, Alessandro Manzotti, Oscar Koller
Última atualização: 2023-03-19 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.10782
Fonte PDF: https://arxiv.org/pdf/2303.10782
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.