Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Computação e linguagem

Novo Conjunto de Dados Melhora o Reconhecimento de Soletração em Libras

Um grande conjunto de dados ajuda na comunicação para usuários surdos com smartphones.

― 6 min ler


Conjunto de Dados ASLConjunto de Dados ASLMelhora a Comunicaçãosmartphones para pessoas surdas.Esse conjunto de dados melhora o uso de
Índice

A compreensão das línguas de sinais tem sido lenta devido à falta de dados. Um novo conjunto de dados focado no alfabeto manual da Língua de Sinais Americana (ASL) foi criado, usando vídeos gravados em smartphones. Esse conjunto de dados é feito para melhorar os métodos de Comunicação para pessoas surdas e com dificuldades auditivas.

O que é Alfabeto Manual?

Alfabeto manual é a prática de soletrar palavras usando movimentos das mãos. Essa técnica é usada frequentemente para nomes próprios ou conceitos novos nas línguas de sinais. Embora seja apenas uma parte da língua de sinais, pode melhorar a comunicação quando tecnologias mais avançadas forem desenvolvidas.

O Conjunto de Dados

O novo conjunto de dados de alfabeto manual da ASL é o maior do tipo e consiste em vídeos gravados por 147 signatários Surdos usando câmeras frontais do Pixel 4A. As gravações foram feitas em vários ambientes para capturar uma ampla variedade de cenários. O conjunto contém cerca de 3,2 milhões de caracteres e 266 horas de vídeo, sendo dez vezes maior que o maior conjunto anterior.

Propósito do Conjunto de Dados

O principal objetivo desse conjunto de dados é fornecer um jeito para usuários surdos se comunicarem de forma mais eficaz com smartphones. Soletrar pode ser mais rápido e conveniente do que os métodos tradicionais de digitação. Esse conjunto pode levar a melhores métodos de entrada de texto para usuários surdos, tornando a experiência deles com a tecnologia mais justa.

Como os Dados Foram Coletados

Para coletar os dados, signatários surdos foram recrutados por uma rede focada na comunidade surda. Os participantes receberam smartphones com um aplicativo personalizado para gravar eles mesmos soletrando frases. O app permitia que eles começassem e parassem as gravações facilmente.

Qualidade dos Dados

A qualidade das gravações de vídeo variou por diversos motivos. Alguns participantes usavam máscaras, enquanto outros mudaram as configurações da câmera acidentalmente. Essas variações trazem desafios, mas também fornecem uma rica fonte de informações para desenvolver sistemas de Reconhecimento.

Importância dos Dados

Soletrar desempenha um papel significativo na ASL, representando cerca de 12% a 35% da comunicação. O novo conjunto de dados pode ajudar a melhorar nossa capacidade de reconhecer soletração de forma rápida e precisa, auxiliando em melhores métodos de comunicação para pessoas surdas.

Desafios com Sistemas de Reconhecimento

Sistemas anteriores de língua de sinais tentaram reconhecer imagens únicas de alfabeto manual. No entanto, esses sistemas frequentemente falharam em lidar com a velocidade da soletração e as complexidades envolvidas em entender onde uma palavra soletrada termina e outra começa.

Contexto e Casos de Uso

A entrada de texto em smartphones é frequentemente a primeira coisa que vem à mente quando se pensa em métodos de comunicação. Membros da comunidade surda destacaram que soletração pode ser particularmente útil para digitar nomes ou endereços em aplicativos de smartphone. Esse conjunto de dados visa apoiar esses casos de uso específicos.

Trabalhos Anteriores

Conjuntos de dados anteriores como PopSign e ASL Citizen focaram em tarefas de reconhecimento de sinais isolados. No entanto, esses conjuntos servem a propósitos diferentes e não oferecem o mesmo nível de dados para alfabeto manual.

Participantes

Os signatários que contribuíram para o conjunto de dados receberam pagamento pela participação. Garantir que indivíduos surdos estivessem envolvidos no processo de coleta de dados foi crucial. As opiniões deles ajudaram a moldar o conjunto de dados para atender a necessidades reais.

Estrutura do Conjunto de Dados

O conjunto de dados é dividido em amostras de treinamento, validação e teste, com signatários únicos em cada grupo. Essa abordagem garante que não haja sobreposição, tornando a avaliação dos modelos de reconhecimento mais precisa.

Justiça Demográfica

Esforços foram feitos para garantir que o conjunto de dados reflita uma diversidade de origens. Isso inclui tanto tons de pele quanto apresentações de gênero. O conjunto apresenta uma boa variedade de tons de pele, mas peca em ambos os extremos do espectro.

Melhorias Futuras

Embora o conjunto de dados atual seja um avanço, ainda há áreas para melhorar. Isso inclui uma melhor representação de símbolos e formatos mais diversos dentro de cada categoria. Melhorar as instruções sobre como representar espaços e capitalização na soletração também é necessário.

Desempenho do Modelo de Reconhecimento

O modelo de reconhecimento usado com esse conjunto de dados deve estabelecer um novo padrão em reconhecimento de alfabeto manual. O desempenho básico alcançado é significativamente melhor que os esforços anteriores. O modelo mostra potencial para reconhecer soletração em tempo real usando smartphones.

Conclusão

Esse novo conjunto de dados de alfabeto manual da ASL visa melhorar a comunicação para indivíduos surdos usando smartphones. O conjunto já está mostrando potencial para influenciar o desenho de métodos de entrada de texto. Trabalhos futuros podem levar a tecnologias ainda mais eficazes que suportem a compreensão total da ASL.

Considerações Éticas

É importante respeitar a privacidade dos colaboradores. Todos os participantes deram consentimento para que seus vídeos fossem usados publicamente. Cuidados especiais foram tomados para proteger suas identidades enquanto garantiam que o conjunto de dados cumprisse seu propósito.

Impacto na Comunidade

Ao focar nas necessidades da comunidade surda, esse conjunto de dados é um passo significativo para tornar a tecnologia mais acessível. A participação de signatários surdos no processo de criação ajuda a garantir que os resultados sejam significativos para aqueles que os usarão.

Pensamentos Finais

À medida que a tecnologia avança, a necessidade de métodos de comunicação eficazes vai crescer. Conjuntos de dados como esse são cruciais para fornecer os dados necessários para desenvolver melhores sistemas de reconhecimento de língua de sinais. Esperamos que esse trabalho leve a ferramentas mais inclusivas e eficazes para pessoas surdas e com dificuldades auditivas.

Fonte original

Título: FSboard: Over 3 million characters of ASL fingerspelling collected via smartphones

Resumo: Progress in machine understanding of sign languages has been slow and hampered by limited data. In this paper, we present FSboard, an American Sign Language fingerspelling dataset situated in a mobile text entry use case, collected from 147 paid and consenting Deaf signers using Pixel 4A selfie cameras in a variety of environments. Fingerspelling recognition is an incomplete solution that is only one small part of sign language translation, but it could provide some immediate benefit to Deaf/Hard of Hearing signers as more broadly capable technology develops. At >3 million characters in length and >250 hours in duration, FSboard is the largest fingerspelling recognition dataset to date by a factor of >10x. As a simple baseline, we finetune 30 Hz MediaPipe Holistic landmark inputs into ByT5-Small and achieve 11.1% Character Error Rate (CER) on a test set with unique phrases and signers. This quality degrades gracefully when decreasing frame rate and excluding face/body landmarks: plausible optimizations to help models run on device in real time.

Autores: Manfred Georg, Garrett Tanzer, Saad Hassan, Maximus Shengelia, Esha Uboweja, Sam Sepah, Sean Forbes, Thad Starner

Última atualização: 2024-07-22 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.15806

Fonte PDF: https://arxiv.org/pdf/2407.15806

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes