Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Visão computacional e reconhecimento de padrões

YouTube-ASL: Um Novo Recurso para Tradução em Língua de Sinais

YouTube-ASL oferece um baita banco de dados pra melhorar os modelos de tradução de ASL.

― 8 min ler


Avanço do DatasetAvanço do DatasetYouTube-ASLas capacidades do modelo de tradução.Novo conjunto de dados de ASL melhora
Índice

Modelos de aprendizado de máquina precisam de dados para aprender como traduzir entre idiomas. Para as línguas de sinais, como a Língua de Sinais Americana (ASL), encontrar dados suficientes pode ser um desafio e tanto. Muitas línguas de sinais são menos documentadas, o que dificulta a coleta de vídeos e legendas para treinar os modelos.

Para resolver esse problema, foi criada uma nova ferramenta chamada YouTube-ASL. Essa é uma grande coleção de vídeos de ASL retirados do YouTube, junto com suas legendas em inglês. Contém cerca de 1000 horas de vídeo de mais de 2500 signatários únicos. Isso é bem mais do que os conjuntos de dados anteriores, representando um avanço no campo da Tradução de línguas de sinais.

Por que os dados são importantes para a tradução de línguas de sinais

As línguas de sinais costumam ser usadas pelas comunidades surdas e com deficiência auditiva, que historicamente enfrentaram desafios para conseguir recursos. Ao contrário das línguas faladas, as línguas de sinais geralmente não têm uma forma escrita padronizada, o que dificulta a coleta de exemplos escritos na internet. Encontrar vídeos de ASL e legendas em inglês que correspondam a esses vídeos não é tão simples. Muitas traduções vêm de gravações em estúdio ou criadores de conteúdo específicos, o que limita a variedade.

Para melhorar a disponibilidade de dados de ASL, foi criado o YouTube-ASL. Ele combina vídeos de ASL com legendas em inglês, principalmente para fins de tradução. Essa coleção foi construída usando um processo de duas etapas: primeiro, a etiquetagem automática para encontrar vídeos relevantes, e segundo, filtragem feita por humanos para garantir a qualidade dos vídeos e a correspondência das legendas.

Coletando vídeos de ASL

O primeiro passo para criar o YouTube-ASL envolveu encontrar vídeos de ASL automaticamente no YouTube. O YouTube tem um sistema de etiquetas que ajuda a categorizar vídeos com base em seu conteúdo. Os criadores procuraram vídeos públicos que estavam etiquetados com língua de sinais ou ASL especificamente. No entanto, esse método teve limitações, já que podia perder vídeos onde a língua de sinais estava presente, mas não mencionada nas etiquetas.

Depois de identificar vídeos potenciais, a equipe se concentrou naqueles com legendas criadas pelos usuários. Eles estabeleceram algumas regras para filtrar os vídeos com base na duração, tamanho e taxa de quadros, para garantir que apenas os adequados fossem incluídos. Esse processo resultou em uma lista de cerca de 88.000 vídeos que podem ser úteis para a criação do conjunto de dados.

Revisão humana dos vídeos

Em seguida, para garantir a qualidade, usuários nativos de ASL revisaram os vídeos. Eles verificaram se as legendas correspondiam ao conteúdo da sinalização e procuraram por erros. Usaram uma ferramenta especial para tornar o processo de revisão mais eficiente. Eles podiam rotular um canal inteiro em vez de cada vídeo individual, o que acelerou o processo.

Os revisores trabalharam juntos para concordar sobre o que tornava um vídeo aceitável. Vídeos foram excluídos se suas legendas não correspondessem aos sinais, se fossem em uma língua de sinais diferente ou se as legendas estivessem mal alinhadas com os sinais. O resultado final foi uma coleção de mais de 11.000 vídeos com legendas precisas.

O que o YouTube-ASL contém

No total, o YouTube-ASL é composto por cerca de 11.093 vídeos de ASL, totalizando cerca de 984 horas. Isso torna três vezes maior do que o maior conjunto de dados anterior de ASL. Esses vídeos vêm com cerca de 610.193 legendas em inglês, com uma média de cerca de 8,8 palavras por legenda. Essa variedade ajuda na criação de melhores modelos para reconhecimento de línguas de sinais.

Com mais de 2500 signatários únicos, o conjunto de dados inclui vários estilos e dialetos de sinalização. Essa diversidade é crucial, pois ajuda os modelos a reconhecer diferentes formas que as pessoas usam a língua de sinais. O conjunto de dados também abrange vários tópicos, representando o conteúdo diverso encontrado no YouTube.

Treinamento de modelos para tradução

Para mostrar como o YouTube-ASL pode ser útil, os pesquisadores construíram um modelo simples para traduzir ASL em inglês. Eles usaram uma configuração básica para evitar fazer suposições que pudessem limitar a capacidade do modelo de aprender com grandes dados. Eles filtraram os dados de treinamento para garantir que se concentrassem em exemplos de alta qualidade que fossem adequados para o aprendizado de máquina.

O modelo usou pontos de referência especiais para representar os sinais. Esses pontos são partes do corpo que ajudam a capturar os movimentos usados na língua de sinais. Em vez de analisar vídeos brutos, o modelo trabalhou com dados simplificados que facilitaram o processamento, mantendo a eficácia.

Avaliando o modelo

Os pesquisadores não separaram o YouTube-ASL em conjuntos de treinamento, validação e teste rigorosos, porque vídeos do YouTube podem ser removidos ou alterados. Em vez disso, usaram outro conjunto de dados chamado How2Sign para avaliação. Esse conjunto contém vídeos instrucionais e é bem documentado, tornando-o uma boa opção para comparação.

A avaliação incluiu verificar o quão bem o novo modelo se saiu tanto quando treinado apenas com o YouTube-ASL quanto quando combinado com outros conjuntos de dados. Os resultados mostraram que treinar no YouTube-ASL levou a melhorias na qualidade da tradução.

Resultados do modelo de tradução

O modelo alcançou uma nova pontuação de ponta para tradução de ASL para inglês. Quando treinado com o YouTube-ASL, atingiu uma pontuação BLEU de 12,39, bem mais alta do que os métodos anteriores. Além disso, conseguiu resultados sem nenhuma adaptação específica ao domínio-alvo, mostrando sua versatilidade.

No entanto, apesar das melhorias, a qualidade das traduções ainda não estava perfeita. As traduções produzidas pelo modelo mostraram que ainda havia espaço para crescimento. Embora os resultados fossem promissores, ainda não estavam em um nível onde pudessem ser usados efetivamente em situações do dia a dia.

Desafios pela frente

Mesmo com o progresso feito pelo YouTube-ASL, a língua de sinais continua sendo uma área de poucos recursos. Muitas outras línguas de sinais enfrentam desafios semelhantes para conseguir dados suficientes para treinar modelos confiáveis. Trabalhos futuros poderiam se concentrar em coletar mais dados de várias fontes para melhorar ainda mais a qualidade das traduções de línguas de sinais.

Os pesquisadores também pretendem melhorar modelos e métodos de tradução, o que poderia levar a melhores resultados. Uma compreensão mais profunda de como diferentes fatores influenciam a qualidade da tradução, incluindo diferenças de dialeto e características dos signatários, poderia ajudar os pesquisadores a criar ferramentas mais eficazes.

Considerações éticas

Ao trabalhar com dados de língua de sinais, há preocupações com a privacidade. A aparência e as expressões dos signatários são partes essenciais da língua. O conjunto de dados foi criado usando vídeos enviados publicamente no YouTube, e apenas os IDs dos vídeos foram divulgados para garantir que quaisquer mudanças no conteúdo original fossem refletidas automaticamente.

Para proteger a privacidade, os modelos usaram poses reduzidas em vez de dados do corpo inteiro, embora isso possa afetar a qualidade da tradução. Até que os modelos de língua de sinais atinjam um nível de confiabilidade, há pouco risco de causar danos à comunidade. No entanto, à medida que os modelos melhorarem, será preciso monitorar cuidadosamente para eventuais usos indevidos.

Conclusão

YouTube-ASL representa um avanço significativo na busca por melhorar a tradução de línguas de sinais. Com sua grande coleção de vídeos e legendas, oferece um recurso valioso para pesquisadores que trabalham nessa área. Embora progressos tenham sido feitos, ainda há muito trabalho a fazer para aprimorar ainda mais os sistemas de processamento de línguas de sinais. A esperança é que, à medida que as técnicas melhorem e os métodos de coleta de dados se expandam, possamos criar modelos que ofereçam melhores traduções e acessibilidade para as comunidades surdas e com deficiência auditiva.

Mais de autores

Artigos semelhantes