Novo Conjunto de Dados para Tradução de Língua de Sinais Indiana
Um recurso essencial pra melhorar a comunicação da galera com deficiência auditiva na Índia.
― 6 min ler
Índice
As línguas de sinais são super importantes pra muita gente com Dificuldade Auditiva ao redor do mundo. Elas oferecem um jeito pros indivíduos que não ouvem bem se comunicarem de forma eficaz. Mas, tem uma grande lacuna de comunicação entre a comunidade de pessoas surdas e o resto da sociedade. Pra tentar diminuir essa lacuna, pesquisadores têm trabalhado em sistemas de Tradução de língua de sinais. Esses sistemas têm como objetivo traduzir a língua de sinais pra linguagem falada e vice-versa. Infelizmente, não tem muitos recursos disponíveis pra Língua de Sinais Indiana (ISL) comparado com outras línguas de sinais.
Esse artigo apresenta um novo conjunto de dados de tradução específico pra Língua de Sinais Indiana. Esse conjunto contém 31.000 pares de frases ou sentenças em ISL e inglês. Até onde sabemos, esse é o maior conjunto de dados pra traduzir a Língua de Sinais Indiana contínua. Também vamos dar uma analisada no conjunto e apresentar os resultados dos testes iniciais dos modelos de tradução.
A Necessidade de Recursos ISL
Cerca de 430 milhões de pessoas no mundo têm dificuldade auditiva, sendo aproximadamente 63 milhões delas na Índia. Na Índia, a língua de sinais é o principal jeito de muitas pessoas com dificuldade auditiva se comunicarem. Embora as técnicas em processamento de linguagem natural tenham melhorado bastante nos últimos anos, as línguas de sinais, incluindo a ISL, ainda não têm ferramentas eficientes pra processamento e tradução. Isso é principalmente por causa da falta de grandes Conjuntos de dados anotados que possam ser usados pra construir sistemas de tradução eficazes.
A ISL é essencial pra um grupo grande e diverso de pessoas na Índia. Apesar da sua importância, só tem cerca de 300 intérpretes de língua de sinais certificados no país, segundo estatísticas oficiais. Essa disponibilidade limitada torna ainda mais difícil a comunicação da comunidade surda com quem não sabe língua de sinais. Nosso objetivo é ajudar a fechar essa lacuna criando um novo conjunto de dados pra traduzir a ISL pro inglês.
Criação do Conjunto de Dados
O novo conjunto de dados criado consiste em conteúdo Educacional voltado pra crianças com dificuldade auditiva. Muitos educadores e organizações estão agora produzindo materiais padronizados em ISL pra lidar com a falta de recursos educacionais. O conjunto foca em vocabulários comumente usados em matérias como Matemática, Ciências e Inglês.
Nós nos concentramos em materiais educacionais que são amplamente usados na Índia. Essa abordagem nos permite cobrir vários tópicos e garantir que o vocabulário seja relevante e útil. Como a ISL é uma língua de baixo recurso, criar um conjunto de dados envolve vários desafios, especialmente em relação à anotação da língua de sinais no nível do gesto.
Pra garantir precisão, precisamos de dados de vídeo de alta qualidade que capturassem os sinais usados. Coletamos vídeos de organizações que forneciam conteúdo educacional pra alunos com dificuldade auditiva. Usamos o áudio dessas gravações pra ajudar a dividir os vídeos em segmentos correspondentes a sentenças ou frases individuais.
Processo de Anotação
Anotar manualmente vídeos de linguagem de sinais é uma tarefa complexa e que toma tempo. Pra nosso conjunto de dados, trabalhamos em colaboração com um instrutor certificado de ISL pra validar um subconjunto aleatório das traduções. O instrutor, que é uma pessoa com dificuldade auditiva, usou sua experiência pra garantir que as traduções fossem precisas.
Cada vídeo no conjunto de dados vem com uma tradução de referência fornecida pelo instrutor de ISL. Comparando as traduções originais com as interpretações do instrutor, conseguimos avaliar a qualidade dos pares de tradução.
Testes Iniciais e Resultados
Criamos um modelo base pra testar as traduções usando uma arquitetura de transformador de linguagem de sinais. O objetivo era converter vídeos de sinais em sentenças em inglês. Os resultados iniciais mostram que traduzir a ISL é desafiador, já que as pontuações alcançadas não foram tão altas quanto gostaríamos.
O modelo usado é projetado pra processar os movimentos e gestos nos vídeos. Ele analisa vários aspectos dos sinais, incluindo formas das mãos, movimentos e expressões faciais. Essas características são cruciais pra transmitir significado nas línguas de sinais. O modelo então tenta gerar sentenças em inglês com base nos sinais mostrados nos vídeos.
Embora os resultados indiquem que o modelo ainda não está performando em um nível ideal, esse trabalho destaca uma grande oportunidade de melhoria. Os desafios enfrentados na tradução da ISL podem motivar mais pesquisas e desenvolvimento de melhores sistemas de tradução de língua de sinais.
Direções Futuras
Embora tenhamos avançado com o conjunto de dados e os testes iniciais, ainda tem muito que pode ser feito. Planejamos expandir o conjunto de dados pra criar sistemas de tradução ainda mais confiáveis. O objetivo é incluir mais vídeos e frases, aumentando o tamanho e a diversidade do conjunto.
Em trabalhos futuros, também pretendemos construir modelos que incorporem conhecimentos específicos da ISL. Integrando características linguísticas únicas da ISL, acreditamos que isso pode ajudar a melhorar o desempenho geral dos sistemas de tradução.
Considerações Éticas
A criação do conjunto de dados foi feita com cuidado, levando em conta as implicações éticas. Usamos vídeos educacionais disponíveis publicamente, garantindo que não violássemos nenhum direito autoral. Todos os colaboradores do conjunto de dados, incluindo os instrutores de língua de sinais, participaram voluntariamente.
Ao apoiar o acesso a recursos pra comunidade com dificuldade auditiva, esperamos ter um impacto positivo na capacidade deles de aprender e se comunicar. O conjunto de dados foi criado com foco em ser benéfico para fins educacionais, e nos esforçamos pra respeitar os direitos das pessoas envolvidas no conteúdo.
Conclusão
Em resumo, apresentamos um novo conjunto de dados pra traduzir a Língua de Sinais Indiana pro inglês, que contém 31.000 pares de frases em ISL e inglês. Fizemos uma análise do conjunto e reportamos sobre o desenvolvimento de um modelo de tradução inicial. Esse modelo destaca os desafios de traduzir a língua de sinais e encoraja mais exploração na área.
Tem uma necessidade significativa por mais recursos e pesquisas na área de Língua de Sinais Indiana. Nosso conjunto de dados visa preencher essa lacuna existente e contribuir pra melhor comunicação de indivíduos com dificuldade auditiva na Índia. Estamos animados pra futuros avanços nos sistemas de tradução e no impacto significativo que eles podem ter na comunidade.
Título: ISLTranslate: Dataset for Translating Indian Sign Language
Resumo: Sign languages are the primary means of communication for many hard-of-hearing people worldwide. Recently, to bridge the communication gap between the hard-of-hearing community and the rest of the population, several sign language translation datasets have been proposed to enable the development of statistical sign language translation systems. However, there is a dearth of sign language resources for the Indian sign language. This resource paper introduces ISLTranslate, a translation dataset for continuous Indian Sign Language (ISL) consisting of 31k ISL-English sentence/phrase pairs. To the best of our knowledge, it is the largest translation dataset for continuous Indian Sign Language. We provide a detailed analysis of the dataset. To validate the performance of existing end-to-end Sign language to spoken language translation systems, we benchmark the created dataset with a transformer-based model for ISL translation.
Autores: Abhinav Joshi, Susmit Agrawal, Ashutosh Modi
Última atualização: 2023-07-11 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2307.05440
Fonte PDF: https://arxiv.org/pdf/2307.05440
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://islrtc.nic.in/dr-andesha-mangla
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://acl-org.github.io/ACLPUB/formatting.html
- https://2023.aclweb.org/calls/main_conference/
- https://aclweb.org/anthology/anthology.bib.gz
- https://www.aclweb.org/portal/content/acl-code-ethics
- https://en.wikipedia.org/wiki/National
- https://def.org.in/
- https://www.youtube.com/watch?v=429wv1kvK_c
- https://www.youtube.com/watch?v=SInKhy-06qA
- https://ai.googleblog.com/2020/12/mediapipe-holistic-simultaneous-face.html
- https://www.who.int/news-room/fact-sheets/detail/deafness-and-hearing-loss
- https://nhm.gov.in/index1.php?lang=1&level=2&sublinkid=1051&lid=606
- https://islrtc.nic.in/
- https://github.com/Exploration-Lab/ISLTranslate